Clickhouse World

Saturday, 19 February 2022

ClickHouse和他的朋友們（6）MergeTree儲存結構

上篇的儲存引擎技術進化與MergeTree 介紹了儲存演算法的演進。

儲存引擎是一個數據庫的底盤，一定要穩和動力澎湃。

接下來我們將一起來探索下 ClickHouse MergeTree 列式儲存引擎，解構下這臺“跑車”最重要的部件。

所有的儲存引擎，無論精良與粗製濫造，最終都是要把資料回寫到磁碟，來滿足儲存和索引目的。

磁碟檔案的構造可以說是演算法的物理體現，我們甚至可以通過這些儲存結構反推出其演算法實現。

所以，要想深入瞭解一個儲存引擎，最好的入手點是它的磁碟儲存結構，然後再反觀它的讀、寫機制就會有一種水到渠成的感覺。

如果這個分析順序搞反了，會有一種生硬的感覺，網上大部分教程都是這種“生硬”式教學，本文將直擊靈魂從最底層談起，徹底搞明白４個問題：

MergeTree 有哪些檔案？
MergeTree 資料如何分佈？
MergeTree 索引如何組織？
MergeTree 如何利用索引加速？

話不多說，上表：

CREATE TABLE default.mt
(
    `a` Int32,
    `b` Int32,
    `c` Int32,
    INDEX `idx_c` (c) TYPE minmax GRANULARITY 1
)
ENGINE = MergeTree
PARTITION BY a 
ORDER BY b
SETTINGS index_granularity=3

造點資料：

insert into default.mt(a,b,c) values(1,1,1);
insert into default.mt(a,b,c) values(5,2,2),(5,3,3);
insert into default.mt(a,b,c) values(3,10,4),(3,9,5),(3,8,6),(3,7,7),(3,6,8),(3,5,9),(3,4,10);

磁碟檔案

ls ckdatas/data/default/mt/
1_4_4_0  3_6_6_0  5_5_5_0  detached  format_version.txt

可以看到，生成了 3 個數據目錄，每個目錄在 ClickHouse 裡稱作一個分割槽(part)，目錄名的字首正是我們寫入時欄位 a 的值: 1,3,5，因為表分割槽是這樣定位的：PARTITION BY a。

現在我們看看 a=3 分割槽：

ls ckdatas/data/default/mt/3_6_6_0/
a.bin  a.mrk2  b.bin  b.mrk2  c.bin  checksums.txt  c.mrk2  columns.txt  count.txt  minmax_a.idx  partition.dat  primary.idx  skp_idx_idx_c.idx  skp_idx_idx_c.mrk2

*.bin 是列資料檔案，按主鍵排序(ORDER BY)，這裡是按照欄位 b 進行排序
*.mrk2 mark 檔案，目的是快速定位 bin 檔案資料位置
minmax_a.idx 分割槽鍵 min-max 索引檔案，目的是加速分割槽鍵 a 查詢
primay.idx 主鍵索引檔案，目的是加速主鍵 b 查詢
skp_idx_idx_c.* 欄位 c 索引檔案，目的是加速 c 的查詢

在磁碟上，MergeTree 只有一種物理排序，就是 ORDER BY 的主鍵序，其他檔案(比如 .mrk/.idx)是一種邏輯加速，圍繞僅有的一份物理排序，要解決的問題是：

在以欄位 b 物理排序上，如何實現欄位 a、欄位 c 的快速查詢？

MergeTree 引擎概括起來很簡單：整個資料集通過分割槽欄位被劃分為多個物理分割槽，每個分割槽內又通過邏輯檔案圍繞僅有的一種物理排序進行加速查詢。

儲存結構

資料檔案

對於單個物理分割槽內的儲存結構，首先要明確一點，MergeTree 的資料只有一份：*.bin。

a.bin 是欄位 a 的資料，b.bin 是欄位 b 的資料，c.bin 是欄位 c 的資料，也就是大家熟悉的列儲存。

各個 bin 檔案以 b.bin排序對齊（b 是排序鍵），如圖：

這樣會有一個比較嚴重的問題：如果 *.bin 檔案較大，即使讀取一行資料，也要載入整個 bin 檔案，浪費了大量的 IO，沒法忍。

granule

高、黑科技來了，ClickHouse MergeTree 把 bin 檔案根據顆粒度(GRANULARITY)劃分為多個顆粒(granule)，每個 granule 單獨壓縮儲存。

SETTINGS index_granularity=3 表示每３行資料為一個 granule，分割槽目前只有７條資料，所以被劃分成 3 個 granule(三個色塊)：

為方便讀取某個 granule，使用 *.mrk 檔案記錄每個 granule 的 offset，每個 granule 的 header 裡會記錄一些元資訊，用於讀取解析:

這樣，我們就可以根據ｍark 檔案，直接定位到想要的 granule，然後對這個單獨的 granule 進行讀取、校驗。

目前，我們還有缺少一種對映：每個 mark 與欄位值之間的對應，哪些值區間落在 mark0，哪些落在 mark1 ...？

有了這個對映，就可以實現最小化讀取 granule 來加速查詢：

根據查詢條件確定需要哪些 mark
根據 mark 讀取相應的 granule

儲存排序

在瞭解 MergeTree 索引機制之前，需要明白以下兩點：

只有一份全量資料，儲存在 *.bin 檔案
*.bin 按照 ORDER BY 欄位降序儲存

稀疏索引

因為資料只有一份且只有一種物理排序，MergeTree在索引設計上選擇了簡單、高效的稀疏索引模式。

什麼是稀疏索引呢？就是從已經排序的全量資料裡，間隔性的選取一些點，並記錄這些點屬於哪個 mark。

1. primary index

主鍵索引，可通過[PRIMARY KEY expr]指定，預設是 ORDER BY 欄位值。

注意 ClickHouse primary index 跟 MySQL primary key 不是一個概念。

在稀疏點的選擇上，取每個 granule 最小值：

2. skipping index

普通索引。

INDEXidx_c(c) TYPE minmax GRANULARITY 1 針對欄位 c 建立一個 minmax 模式索引。

GRANULARITY 是稀疏點選擇上的 granule 顆粒度，GRANULARITY 1 表示每 1 個 granule 選取一個：

如果定義為GRANULARITY 2 ，則 2 個 granule 選取一個：

3. partition minmax index

針對分割槽鍵，MergeTree 還會建立一個 min/max 索引，來加速分割槽選擇。

4. 全景圖

查詢優化

現在熟悉了 MergeTree 的儲存結構，我們通過幾個查詢來體驗下。

1. 分割槽鍵查詢

語句：

select * from default.mt where a=3

查詢會直接根據 a=3 定位到單個分割槽:

<Debug> InterpreterSelectQuery: MergeTreeWhereOptimizer: condition "a = 3" moved to PREWHERE
<Debug> default.mt (SelectExecutor): Key condition: unknown
<Debug> default.mt (SelectExecutor): MinMax index condition: (column 0 in [3, 3])
<Debug> default.mt (SelectExecutor): Selected 1 parts by a, 1 parts by key, 3 marks by primary key, 3 marks to read from 1 ranges
┌─a─┬──b─┬──c─┐
│ 3 │  4 │ 10 │
│ 3 │  5 │  9 │
│ 3 │  6 │  8 │
│ 3 │  7 │  7 │
│ 3 │  8 │  6 │
│ 3 │  9 │  5 │
│ 3 │ 10 │  4 │
└───┴────┴────┘

2. 主鍵索引查詢

語句：

select * from default.mt where b=5

查詢會先從 3 個分割槽讀取 prmary.idx，然後定位到只有一個分割槽符合條件，找到要讀取的 mark:

<Debug> default.mt (SelectExecutor): Key condition: (column 0 in [5, 5])
<Debug> default.mt (SelectExecutor): MinMax index condition: unknown
<Debug> default.mt (SelectExecutor): Selected 3 parts by a, 1 parts by key, 1 marks by primary key, 1 marks to read from 1 ranges
┌─a─┬─b─┬─c─┐
│ 3 │ 5 │ 9 │
└───┴───┴───┘

3. 索引查詢

語句：

select * from default.mt where b=5

查詢會先從 3 個分割槽讀取 prmary.idx 和 skp_idx_idx_c.idx 進行 granule 過濾（沒用的 drop 掉），然後定位到只有 3_x_x_x 分割槽的一個 granule 符合條件:

<Debug> InterpreterSelectQuery: MergeTreeWhereOptimizer: condition "c = 5" moved to PREWHERE
<Debug> default.mt (SelectExecutor): Key condition: unknown
<Debug> default.mt (SelectExecutor): MinMax index condition: unknown
<Debug> default.mt (SelectExecutor): Index `idx_c` has dropped 1 / 1 granules.
<Debug> default.mt (SelectExecutor): Index `idx_c` has dropped 1 / 1 granules.
<Debug> default.mt (SelectExecutor): Index `idx_c` has dropped 2 / 3 granules.
<Debug> default.mt (SelectExecutor): Selected 3 parts by a, 1 parts by key, 5 marks by primary key, 1 marks to read from 1 ranges
┌─a─┬─b─┬─c─┐
│ 3 │ 9 │ 5 │
└───┴───┴───┘

總結

本文從磁碟儲存結構入手，分析 ClickHouse MergeTree 的儲存、索引設計。

只有瞭解了這些底層機制，我們才好對自己的 SQL 和表結構進行優化，使其執行更加高效。

ClickHouse MergeTree 設計簡單、高效，它首要解決的問題是：在一種物理排序上，如何實現快速查詢。

針對這個問題，ClickHouse使用稀疏索引來解決。

在官方 roadmap 上，列舉了一個有意思的索引方向：Z-Order Indexing，目的是把多個維度編碼到一維儲存，當我們給出多維度條件的時候，可以快速定位到這個條件點集的空間位置，目前 ClickHouse 針對這個索引設計暫無進展。

from: https://www.gushiciku.cn/pl/pS3b/zh-tw

数据类型选择

整数不要使用String存储，如果Int8可以存储就不要使用Int16。
日期类型，使用Date或者DateTime，不要使用String。
使用枚举Enum8、Enum16，存储枚举类型。
浮点数有溢出问题，尽量不要使用浮点数，使用Decimal。
字符串如果确定长度使用FixString，比String可以少1字节。

from: https://aop.pub/artical/database/clickhouse/datatype-storage/

Monday, 17 January 2022

default database/user using docker-compose

version: '3.2'

volumes:
  clickhouse-data:

services:
  clickhouse:
    image: yandex/clickhouse-server:20.3
    environment:
      # Default user and database will be created using `init-defaults.sh` script
      CLICKHOUSE_DB: my_db_name
      CLICKHOUSE_USER: clickhouse-user
      CLICKHOUSE_PASSWORD: secret
    ulimits:
      nproc: 65535
      nofile:
        soft: 262144
        hard: 262144
    volumes:
      - clickhouse-data:/var/lib/clickhouse:cached
      - ./docker/clickhouse/init-defaults.sh:/docker-entrypoint-initdb.d/init-defaults.sh:ro
    ports:
      - 9000/tcp

from: https://github.com/ClickHouse/ClickHouse/issues/10339

Thursday, 13 January 2022

2021年ClickHouse最王炸功能来袭，性能轻松提升40倍

各位，今年 ClickHouse 最王炸的功能来啦，没错，就是期待已久的 Projection (投影) 功能。ClickHouse 现在的功能已经非常丰富强大了，但是社区用现实告诉我们，还可以进一步做的更好：）

不知道你有没有碰到过这些情况:

MergeTree 只支持一种排序规则

建表的时候，Order By 同时决定了主键稀疏索引和数据的排序，假设 :

Order BY A,B,C

那么通常过滤查询 Where A 会很快，但是 Where C 会慢一些。

物化视图不够智能

针对固定的查询主题，我们会基于一张底表构建许多物化视图，以帮助更进一步提升查询性能、提升QPS、降低资源开销。

物化视图虽然效果显著，但是却不够智能。物化视图本质上一张独立的表，通过原表的触发器，实时的向视图表写入数据。

既然物化视图也是独立的表，那么自然就会存在与原表数据一致性的问题。如果物化视图很多，维护起来也是一个问题。

Projection 功能的出现，完美解决了上述的问题。Projection 的概念出自《C-Store: A Column-oriented DBMS》这篇论文，作者是2015年图灵奖获得者、Vertica 之父，Mike Stonebraker。

Projection 意指一组列的组合，可以按照与原表不同的排序存储，并且支持聚合函数的查询。

来自快手的 Amos Bird(郑天祺) 借鉴了这个思想，在 ClickHouse 中实现了 Projection 的功能，并贡献到社区。

ClickHouse Projection 可以看做是一种更加智能的物化视图，它有如下特点:

part-level 存储 相比普通物化视图是一张独立的表，Projection 物化的数据就保存在原表的分区目录中，支持明细数据的普通Projection 和预聚合Projection
无感使用，自动命中 可以对一张 MergeTree 创建多个 Projection ，当执行 Select 语句的时候，能根据查询范围，自动匹配最优的 Projection 提供查询加速。如果没有命中 Projection , 就直接查询底表。
数据同源、同生共死

因为物化的数据保存在原表的分区，所以数据的更新、合并都是同源的，也就不会出现不一致的情况了

这么干讲可能还比较抽象，直接来看用例吧，这里直接使用官方的测试数据集 hits_100m_obfuscated，这张表有 1亿数据:

SELECT count(*)
FROM hits_100m_obfuscated

Query id: 813ba930-d299-47d8-9ac3-6d7dbde075b1

┌───count()─┐
│ 100000000 │
└───────────┘

1 rows in set. Elapsed: 0.004 sec.

Order By 是:

ENGINE = MergeTree
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID), EventTime)

在没有 Projection 的时候，查询非主键 WatchID:

SELECT WatchID
FROM hits_100m_obfuscated
WHERE WatchID = 5814563137538961516

Query id: 20110b52-cac0-43b7-baf6-1931b94864a6

┌─────────────WatchID─┐
│ 5814563137538961516 │
└─────────────────────┘

1 rows in set. Elapsed: 0.262 sec. Processed 100.00 million rows, 800.00 MB (380.95 million rows/s., 3.05 GB/s.)

结果全表扫描了 800MB 共 1亿行数据。

现在创建一个 Projection ，为特定的 Where 字段加速，按查询的需求生成有别于主键的，另外一种排序规则:

ALTER TABLE hits_100m_obfuscated ADD PROJECTION p1
( 
    SELECT 
      WatchID,Title
    ORDER BY WatchID
)

注意，只有在创建 PROJECTION 之后，再被写入的数据，才会自动物化。

对于历史数据，需要手动触发物化，例如现在我们就需要执行：

alter table hits_100m_obfuscated MATERIALIZE PROJECTION p1

MATERIALIZE PROJECTION 是一个异步的 Mutation 操作，可以通过下面的语句查询状态：

SELECT
    table,
    mutation_id,
    command,
    is_done
FROM system.mutations AS m
WHERE is_done = 0

Query id: 7ddc855a-acb5-4ca9-8c48-ad4f5a7b234e

┌─table────────────────┬─mutation_id─────┬─command───────────────────┬─is_done─┐
│ hits_100m_obfuscated │ mutation_99.txt │ MATERIALIZE PROJECTION p1 │       0 │
└──────────────────────┴─────────────────┴───────────────────────────┴─────────┘

1 rows in set. Elapsed: 0.005 sec.

这个时候，如果我们去分区目录，你会看到一个 tmp 临时分区，正在物化 PROJECTION 的数据:

等到 p1 PROJECTION 生成好了之后，我们再去看分区目录:

会看到在原有 MergeTree 的分区下，多了一个 p1.proj 的子目录，进入子目录，你会发现和 MergeTree 的存储格式是一样的：

cd /data/default/hits_100m_obfuscated/201307_1_96_4_107/p1.proj
[root@ch9 p1.proj]# ll
total 5187772
-rw-r-----. 1 clickhouse clickhouse        278 Sep  8 23:43 checksums.txt
-rw-r-----. 1 clickhouse clickhouse         69 Sep  8 23:43 columns.txt
-rw-r-----. 1 clickhouse clickhouse          9 Sep  8 23:43 count.txt
-rw-r-----. 1 clickhouse clickhouse         10 Sep  8 23:43 default_compression_codec.txt
-rw-r-----. 1 clickhouse clickhouse      97672 Sep  8 23:43 primary.idx
-rw-r-----. 1 clickhouse clickhouse 4508224709 Sep  8 23:43 Title.bin
-rw-r-----. 1 clickhouse clickhouse     293016 Sep  8 23:43 Title.mrk2
-rw-r-----. 1 clickhouse clickhouse  803340103 Sep  8 23:43 WatchID.bin
-rw-r-----. 1 clickhouse clickhouse     293016 Sep  8 23:43 WatchID.mrk2

当查询命中某个 PROJECTION 的时候，就会直接用分区子目录中的数据，来提供查询。

再有了 p1 PROJECTION 之后，再次执行同样的查询，记得首先要设置参数开启这项功能：

SET allow_experimental_projection_optimization = 1;

执行查询:

SELECT WatchID
FROM hits_100m_obfuscated
WHERE WatchID = 5814563137538961516

Query id: 38d2aa48-45da-4487-ab80-1cd02ee08ce2

┌─────────────WatchID─┐
│ 5814563137538961516 │
└─────────────────────┘

1 rows in set. Elapsed: 0.006 sec. Processed 8.19 thousand rows, 65.54 KB (1.41 million rows/s., 11.27 MB/s.)

效果惊人，从 800MB 的 1亿行全表扫描，缩减到 65KB 的 8k 行扫描，时间也加快了 40 多倍。

除了明细数据的查询，PROJECTION 也支持预聚合，在没有优化的情况下，下面的查询也会全表扫描:

SELECT
    UserID,
    SearchPhrase,
    count()
FROM hits_100m_obfuscated
GROUP BY
    UserID,
    SearchPhrase
LIMIT 10

Query id: 42c941e0-c15a-4206-9c1b-7350a5a67984

┌───────────────UserID─┬─SearchPhrase─────────────────────────────────────────────────┬─count()─┐
│    64240392369242065 │                                                              │       1 │
│  2542641703475366060 │ galaxy s4 activerstovmamasumi x2                             │       3 │
│ 14973463213479722228 │                                                              │      17 │
│  6604743450870066038 │                                                              │       1 │
│   325929602194382277 │ вес гриппи игре aventity of wars 2 в в играть                │       1 │
│  5481644077966220011 │ как леченский рецепты как почему конкая лето москва отдых на │       1 │
│  5965198553492672379 │                                                              │       1 │
│   119657425828985633 │                                                              │       1 │
│  8462750442030450647 │ рулонасточный+статив зомбинет магазин на айресу батл         │       1 │
│  7510587892824469257 │ sia 265 сезон 6 серии                                        │       1 │
└──────────────────────┴──────────────────────────────────────────────────────────────┴─────────┘

10 rows in set. Elapsed: 2.190 sec. Processed 100.00 million rows, 2.44 GB (45.66 million rows/s., 1.11 GB/s.)

现在创建另外一个聚合 PROJECTION:

 ALTER TABLE hits_100m_obfuscated ADD PROJECTION agg_p2
    ( 
      SELECT
          UserID, 
          SearchPhrase, 
          count()
        GROUP BY UserID, SearchPhrase
    )

由于历史数据已经存在，也要手动触发一下物化：

alter table hits_100m_obfuscated MATERIALIZE PROJECTION agg_p2

物化好了之后，再次执行相同的查询:

SELECT
    UserID,
    SearchPhrase,
    count()
FROM hits_100m_obfuscated
GROUP BY
    UserID,
    SearchPhrase
LIMIT 10

Query id: 258e556e-ea5b-43f0-980a-997c02abc233

┌───────────────UserID─┬─SearchPhrase─────────────────────────────────────────────────┬─count()─┐
│    64240392369242065 │                                                              │       1 │
│  2542641703475366060 │ galaxy s4 activerstovmamasumi x2                             │       3 │
│ 14973463213479722228 │                                                              │      17 │
│  6604743450870066038 │                                                              │       1 │
│   325929602194382277 │ вес гриппи игре aventity of wars 2 в в играть                │       1 │
│  5481644077966220011 │ как леченский рецепты как почему конкая лето москва отдых на │       1 │
│  5965198553492672379 │                                                              │       1 │
│   119657425828985633 │                                                              │       1 │
│  8462750442030450647 │ рулонасточный+статив зомбинет магазин на айресу батл         │       1 │
│  7510587892824469257 │ sia 265 сезон 6 серии                                        │       1 │
└──────────────────────┴──────────────────────────────────────────────────────────────┴─────────┘

10 rows in set. Elapsed: 1.847 sec. Processed 24.07 million rows, 1.58 GB (13.04 million rows/s., 856.09 MB/s.)

数据扫描范围减少了四分之三。

现在 ClickHouse 也提供了 PROJECTION 的系统表，可以看到相关的存储信息：

SELECT
    name,
    partition,
    formatReadableSize(bytes_on_disk) AS bytes,
    formatReadableSize(parent_bytes_on_disk) AS parent_bytes,
    parent_rows,
    rows / parent_rows AS ratio
FROM system.projection_parts

Query id: 2887b0e1-b984-4274-862c-0b59c68693c5

┌─name───┬─partition─┬─bytes──────┬─parent_bytes─┬─parent_rows─┬──────ratio─┐
│ agg_p2 │ 201307    │ 490.40 MiB │ 14.06 GiB    │   100000000 │ 0.24070565 │
│ p1     │ 201307    │ 4.95 GiB   │ 18.53 GiB    │   100000000 │     1      │
└────────┴───────────┴────────────┴──────────────┴─────────────┴────────────┘

PROJECTION 本质也是在用空间换时间，还是还很划算的。

PROJECTION 也支持删除的 DDL:

 ALTER TABLE hits_100m_obfuscated DROP PROJECTION p1
 ALTER TABLE hits_100m_obfuscated DROP PROJECTION agg_p2

除了通过 ALTER 创建，也能在 CREATE TABLE 的时候创建，例如：

CREATE TABLE xxx 
( 
    `event_key` String, 
    `user` UInt32, 
    `dim1` String, 
    PROJECTION p1 
    ( 
        SELECT 
            groupBitmap(user), 
            count(1) 
        GROUP BY dim1 
    ) 
) 
ENGINE = MergeTree() 
ORDER BY (event_key, user)

通过刚才的例子，你能发现在查询时， PROJECTION 的使用是无感的，ClickHouse 会根据提交的 SQL 语句自动匹配。

那么你肯定会好奇，匹配的规则是什么呢？有这么几条原则：

1. 设置了 SET allow_experimental_projection_optimization = 1

2. 返回的数据行小于基表总数

3. 查询覆盖的分区 part 超过一半

4. Where 必须是 PROJECTION 定义中 GROUP BY 的子集

5. GROUP BY 必须是 PROJECTION 定义中 GROUP BY 的子集

6. SELECT 必须是 PROJECTION 定义中 SELECT 的子集

7. 匹配多个 PROJECTION 的时候，选取读取 part 最少的

如果你不知道查询是否匹配了 PROJECTION ，有两种方式可以校验：

1. 使用 explain ，例如：

EXPLAIN
SELECT WatchID
FROM hits_100m_obfuscated
WHERE WatchID = 5814563137538961516

Query id: bf008e69-fd68-4928-83f6-a57a2d84e286

┌─explain───────────────────────────────────────────────────────────────────┐
│ Expression ((Projection + Before ORDER BY))                               │
│   SettingQuotaAndLimits (Set limits and quota after reading from storage) │
│     ReadFromStorage (MergeTree(with 0 projection p1))                     │
└───────────────────────────────────────────────────────────────────────────┘

看到 MergeTree(with 0 projection p1) 就代表这条 SQL 查询会命中 PROJECTION

2. 查看执行日志:

 (SelectExecutor): Choose normal projection p3
 (SelectExecutor): projection required columns: dim1, dim3, event_time, dim2, event_key, user
 (SelectExecutor): Key condition: (column 0 in ['dim12', 'dim12'])

看到 Choose xxx projection 就代表这条 SQL 查询已经命中 PROJECTION

利用 PROJECTION ，我们只需面对一张底表查询就行了，既拥有原来物化视图的性能，又免去了维护成本和数据一致性的问题，简直无敌啊。

好了，今天的分享就到这里，再有了 PROJECTION 之后，可以说 ClickHouse 更加的如虎添翼了。在原有的一些场景下，我们可以告别 ETL和物化视图了。

from: https://cloud.tencent.com/developer/article/1878609