在ClickHouse主索引的实用介绍
在本指南中,我们将深入研究ClickHouse索引。我们将详细说明和讨论:
- ClickHouse中的索引与传统的关系数据库管理系统有何不同
- ClickHouse是如何构建和使用表的稀疏主索引的
- 什么是在ClickHouse索引的一些最佳做法
您可以在自己的机器上选择执行本指南中给出的所有ClickHouse SQL语句和查询。有关ClickHouse的安装和入门说明,请参阅快速入门。
本指南主要关注ClickHouse稀疏主索引。 对于ClickHouse辅助跳数索引,请参阅教程。
在本指南中,我们将使用一个样本匿名网络流量数据集。
- 我们将使用样本数据集中887万行(事件)的子集。
- 887万个事件未压缩的数据大小,约为700 MB。在ClickHouse中存储时压缩为200 MB。
- 在我们的子集中,每行包含三列,表示在特定时间(列)单击URL (列)的互联网用户(列)。
有了这三列,我们已经可以制定一些典型的网络分析查询,如:
- “某个特定用户点击次数最多的10个url是什么?”
- “最常点击某个特定URL的前10名用户是谁?”
- “用户点击特定URL的最热门时间(例如一周中的几天)是什么时候?”
本文档中给出的所有运行时间数字都是基于在带有Apple M1 Pro芯片和16GB RAM的MacBook Pro上本地运行ClickHouse 22.2.1。(依自己的机器)
为了了解如何在没有主键的情况下对数据集执行查询,我们通过执行以下SQL DDL语句创建了一个表(使用MergeTree 表引擎):
接下来,使用以下SQL插入语句将命中数据集的一个子集插入到表中。它使用URL表函数来加载远程托管在clickhouse.com上的完整数据集的子集:
ClickHouse客户端的结果输出显示,上面的语句向表中插入了887万行。
最后,为了简化本指南后面的讨论,并使图表和结果可重复,我们使用FINAL关键字对表进行优化:
通常,不需要也不建议在将数据加载到表中后立即对其进行优化。为什么这对于这个例子是必要的将变得显而易见。
现在我们执行第一个web分析查询。以下是计算为749927693的互联网用户点击次数最多的10个url:
ClickHouse客户端的结果输出表明ClickHouse执行了全表扫描!我们的887万行表中的每一行都被流式传输到ClickHouse。这是不可伸缩的。
为了使这种方法更有效和更快,我们需要使用具有适当主键的表。这将允许ClickHouse自动(基于主键的列)创建一个稀疏的主索引,然后可以用来显著加快我们示例查询的执行速度。
- Blog: Super charging your ClickHouse queries
在传统的关系数据库管理系统中,主索引每行包含一个条目。这将导致我们的数据集的主索引包含887万个条目。这样的索引允许快速定位特定行的位置,从而提高查找查询和点更新的效率。在数据结构中搜索条目的平均时间复杂度为;更准确地说,,其中是b(+)-树的分支因子,是索引行数。因为通常在几百到几千之间,所以是非常浅的结构,并且很少需要磁盘查找来定位记录。对于887万行和1000的分支因子,平均需要2.3个磁盘查找。这种功能是有代价的:额外的磁盘和内存开销,向表中添加新行和向索引中添加条目时的更高插入成本,有时还要重新平衡B-Tree。
考虑到与B-Tree索引相关的挑战,ClickHouse中的表引擎使用了一种不同的方法。ClickHouse MergeTree引擎系列经过设计和优化,可以处理大量数据。这些表被设计为每秒接收数百万行插入,并存储非常大(100 pb)的数据量。数据被快速地一部分一部分地写入到表中,并在后台应用规则来合并这些部分。在ClickHouse中,每个部分(part )都有自己的主索引。当部分被合并时,被合并部分的主索引也被合并。在ClickHouse设计的非常大的规模下,磁盘和内存效率是至关重要的。因此,不是索引每一行,一个part的主索引对于每一组行(称为“粒度,”)有一个索引条目(,称为“标记, ”)——这种技术称为稀疏索引()。
稀疏索引是可能的,因为ClickHouse将part的行存储在按主键列排序的磁盘上。与直接定位单行(如基于B-Tree的索引)不同,稀疏主索引允许它快速(通过对索引条目的二进制搜索)识别可能匹配查询的行组。定位的潜在匹配行的组(粒度)然后并行流到ClickHouse引擎中,以便找到匹配。这种索引设计允许主索引很小(它可以而且必须完全适合主内存),同时仍然显著加快查询执行时间:特别是对于数据分析用例中典型的范围查询。
下面详细说明ClickHouse是如何构建和使用其稀疏主索引的。在本文的后面部分,我们将讨论选择、删除和排序用于构建索引的表列(主键列)的一些最佳实践。
创建一个复合主键表,主键列为和。
为了简化本指南后面的讨论,并使图和结果可重现,DDL说明如下:
- 通过’ ORDER BY '子句为表指定复合排序键
- 通过设置显式控制主索引将拥有多少索引项: :显式设置为其默认值8192。这意味着对于每组8192行,主索引将有一个索引条目,例如,如果表包含16384行,则索引将有两个索引条目。 :设置为0以禁用自适应索引粒度。自适应索引粒度意味着ClickHouse自动为一组n行创建一个索引条目,如果其中任何一个为真:
- 如果n小于8192,并且n行的合并行数据的大小大于或等于10mb (index_granularity_bytes的默认值)或
- 如果n行的合并行数据大小小于10 MB,但n为8192。
上面DDL语句中的主键导致基于两个指定的键列创建主索引。
接下来插入数据:
并优化表:
我们可以使用下面的查询来获取表的元数据:
ClickHouse客户端的输出显示:
- 表的数据以宽格式存储在磁盘上的特定目录中,这意味着该目录中每个表列将有一个数据文件(和一个标记文件)。
- 该表有887万行。
- 所有行加起来的未压缩数据大小为733.28 MB。
- 磁盘上所有行的压缩大小为206.94 MB。
- 该表有一个包含1083个条目(称为“标记”)的主索引,索引的大小为96.93 KB。
- 总的来说,表的数据和标记文件以及主索引文件总共占用了207.07 MB的磁盘空间。
数据按主键列的顺序存储在磁盘上。 我们在上面创建的表有:
- a compound primary key (, ) and
- a compound sorting key (, , )
- 如果我们只指定排序键,那么主键将被隐式定义为等于排序键。
- 为了提高内存效率,我们显式指定了一个主键,该主键只包含查询要过滤的列。基于主键的主索引完全加载到主内存中。
- 为了在指南的图表中保持一致性,为了最大化压缩比,我们定义了一个单独的排序键,它包括我们表的所有列(如果在一列中相似的数据彼此靠近,例如通过排序,那么该数据将被更好地压缩)。
- 如果指定了排序键和主键,则主键需要是排序键的前缀。
插入的行按照字典顺序(升序)按主键列(以及来自排序键的额外列)存储在磁盘上。
ClickHouse允许插入具有相同主键列值的多行。在这种情况下(参见下图中的第1行和第2行),最终顺序由指定的排序键决定,因此由列的值决定。
ClickHouse是一个面向列的数据库管理系统。如下图所示:
- 对于磁盘上的表示,每个表列都有一个数据文件(),其中该列的所有值都以压缩格式存储
- 887万行按字典升序按主键列(和附加排序键列)存储在磁盘上,即在本例中
- first by ,
- then by ,
- and lastly by :
、和是存储“”、“”和“”列值的磁盘数据文件。
- 由于主键定义磁盘上行的字典顺序,因此一个表只能有一个主键。
- 我们对从0开始的行进行编号,以便与ClickHouse内部的行编号方案保持一致,该方案也用于记录消息。
出于数据处理的目的,表的列值在逻辑上被划分为粒度。粒度是流入ClickHouse进行数据处理的最小的不可分割数据集。这意味着ClickHouse不是读取单个行,而是始终读取(以流方式并行)一整组(粒度)行。
列值不是物理地存储在粒度中:粒度只是用于查询处理的列值的逻辑组织。
下图显示了表的887万行(列值)是如何被组织成1083个颗粒的,这是表的DDL语句包含设置8192`)的结果。
第一个(基于磁盘上的物理顺序)8192行(它们的列值)在逻辑上属于粒度0,然后接下来的8192行(它们的列值)属于粒度1,依此类推。
- 最后一粒(1082粒)“包含”少于8192行。
- 我们在本指南开头的“DDL语句详细信息”中提到,我们禁用了自适应索引粒度(为了简化本指南中的讨论,并使图表和结果可重现)。 因此,我们示例表中的所有颗粒(最后一个除外)都具有相同的大小。
- 对于具有自适应索引粒度的表(默认情况下索引粒度是自适应的),一些粒度的大小可以小于8192行,具体取决于行数据的大小。
- 我们用橙色标记了主键列(、)中的一些列值。这些橙色标记的列值是每个粒度的每个第一行的主键列值。正如我们将在下面看到的,这些橙色标记的列值将是表的主索引中的条目。
- 我们从0开始对颗粒进行编号,以便与ClickHouse内部编号方案保持一致,该方案也用于记录消息。
主索引是基于上图所示的粒度创建的。该索引是一个未压缩的平面数组文件(primary.idx),包含从0开始的所谓数字索引标记。
下图显示了索引存储每个粒度的每个第一行的主键列值(上图中用橙色标记的值)。或者换句话说:主索引存储表的每8192行中的主键列值(基于主键列定义的物理行顺序)。例如
- 第一个索引条目(下图中的’ mark 0 ')存储上图中粒度0的第一行的键列值,
- 第二个索引条目(下图中的’ mark 1 ')存储上图中粒度1第一行的键列值,以此类推。
总的来说,我们的表有887万行和1083个颗粒,索引有1083个条目:
- 对于具有自适应索引粒度的表,主索引中还存储一个“最终”附加标记,该标记记录表最后一行的主键列的值,但是由于我们禁用了自适应索引粒度(为了简化本指南中的讨论,以及使图表和结果可重复),我们示例表的索引不包括这个最终标记。
- 主索引文件完全加载到主内存中。如果文件大于可用的空闲内存空间,那么ClickHouse将引发一个错误。
检查主索引的内容: 在自我管理的ClickHouse集群上,我们可以使用文件表函数来检查示例表的主索引的内容。 为此,我们首先需要从正在运行的集群中将主索引文件复制到节点的user_files_path中: 步骤1:获取包含主索引文件的part-path 步骤2:获取user_files_path Linux上默认的user_files_path是’ ’ 在Linux上,你可以检查它是否被更改: 步骤3:将主索引文件复制到user_files_path中 现在我们可以通过SQL来检查主索引的内容:
- 获取条目数量 returns
- 获得前两个索引标记 returns
- 获取最后一个索引标记 returns 这与我们的示例表的主索引内容图完全匹配:
主键项( primary key entries)称为索引标记(index marks),因为每个索引项标记特定数据范围的开始。具体到示例表:
-
索引标记: 主索引中存储的值按升序排序。 因此,上图中的’ '表示,保证粒度1中所有表行的值大于或等于4,073,710。 我们将在后面看到,当查询对主键的第一列进行过滤时,这个全局顺序使ClickHouse能够在第一个键列的索引标记上使用二分搜索算法。
-
索引标记: 主键列和的基数非常相似,这意味着在第一列之后的所有键列的索引标记通常只指示一个数据范围,只要前一个键列值至少在当前粒度内的所有表行保持相同。 例如,由于上图中标记0和标记1的值不同,ClickHouse不能假设粒度0中所有表行的所有URL值都大于或等于。然而,如果标记0和标记1的值在上图中是相同的(意味着值对于粒度0中的所有表行保持相同),ClickHouse可以假设粒度0中所有表行的所有URL值都大于或等于’'。 稍后我们将更详细地讨论这对查询执行性能的影响。
现在我们可以在主索引的支持下执行查询。
下面计算UserID 的点击次数最多的前10个url。
ClickHouse客户端的输出现在显示,没有进行全表扫描,只有8190行流到ClickHouse。
如果启用了跟踪日志记录,那么ClickHouse服务器日志文件显示ClickHouse在1083个UserID索引标记上运行二分搜索,以便识别可能包含UserID列值为行的粒度。这需要19步,平均时间复杂度为:
我们可以在上面的跟踪日志中看到,1083个现有标记中只有一个满足查询。
标记176被识别(“找到的左边界标记”包括在内,“找到的右边界标记”不包括在内),因此,来自粒度176的所有8192行(从第1.441.792行开始-我们将在本指南的后面看到)然后被流到ClickHouse,以便找到UserID列值为749927693的实际行。
我们也可以通过在示例查询中使用EXPLAIN子句来下再现:
客户机输出显示,在1083个颗粒中选择了一个粒度,因为它可能包含列值为的行。
当查询对作为复合键的一部分并且是第一个键列的列进行过滤时,ClickHouse将在键列的索引标记上运行二分搜索算法。
如上所述,ClickHouse使用其稀疏主索引来快速(通过二分搜索)选择可能包含匹配查询的行的粒度。
这是ClickHouse查询执行的第一阶段(粒度选择) 。
在第二阶段(数据读取),ClickHouse定位选中的粒度,以便将它们的所有行流式传输到ClickHouse引擎中,以便找到实际匹配查询的行。
我们将在下一节中更详细地讨论第二阶段。
下图展示了我们表的主索引文件的一部分。 如上所述,通过对索引的1083个mark进行二分搜索,确定了mark 176。因此,它对应的粒度176可能包含列值为的行。
上图显示,mark 176是第一个索引条目,关联的粒度176的最小值小于749.927.693,并且下一个mark (mark 177)的粒度177的最小值大于此值。因此,只有mark 176对应的粒度176可能包含列值为749.927.693的行。
为了确认(或不确认)粒度176中的某些行包含UserID列值为749.927.693,属于该粒度的所有8192行都需要流式传输到ClickHouse。 。
下图显示了三个mark文件, , 和 。用于存储表的、和列的粒度的物理位置。
我们已经讨论了主索引是一个扁平的未压缩数组文件(),其中包含从0开始编号的索引 mark。
类似地,标记文件也是一个平面的未压缩数组文件(*.mrk),其中包含从0开始编号的标记。
一旦ClickHouse确定并选择了可能包含查询匹配行的颗粒的索引mark,就可以在标记文件中执行位置数组查找,以获得粒度的物理位置。
每个特定列的标记文件条目以偏移量的形式存储两个位置:
- 第一个偏移量(上图中的’’)定位压缩列数据文件中的块,该文件包含所选粒度的压缩版本。这个压缩块可能包含一些压缩颗粒。所定位的压缩文件块在读取时解压到主内存中。
- 标记文件中的第二个偏移量(上图中的’’)提供了未压缩块数据中颗粒的位置。
所有属于定位的未压缩颗粒的8192行,然后流式传输到ClickHouse进行进一步处理。
- 对于宽格式且没有自适应索引粒度的表,ClickHouse使用标记文件,如上图所示,其中每个条目包含两个8字节长的地址。这些条目是具有相同大小的颗粒的物理位置。 默认情况下,索引粒度是自适应的,但是对于我们的示例表,我们禁用了自适应索引粒度(为了简化本指南中的讨论,并使图表和结果可重现)。我们的表使用宽格式,因为数据的大小大于min_bytes_for_wide_part(对于自管理集群,默认为10 MB)。
- 对于具有宽格式和自适应索引粒度的表,ClickHouse使用标记文件,其中包含与标记文件相似的条目,但每个条目都有额外的第三个值:当前条目所关联的粒度的行数。
- 对于紧凑格式的表,ClickHouse使用标记文件。
为什么要标记文件?
为什么初级指标不直接包含与指标标记相对应的粒度的物理位置? 因为ClickHouse的设计对象是非常大的规模,所以磁盘和内存效率非常重要。 主索引文件需要适合于主内存。 对于我们的示例查询,ClickHouse使用主索引并选择一个可能包含与查询匹配的行的单个粒度。只有对于这一个粒度,ClickHouse才需要物理位置,以便对相应的行进行进一步处理。 此外,这个偏移量信息只需要用于和列。 对于查询中不使用的列,例如,不需要偏移信息。 对于我们的示例查询,ClickHouse只需要数据文件()中粒子176的两个物理位置偏移量和URL数据文件()中粒子176的两个物理位置偏移量。 标记文件提供的间接性避免了直接在主索引中存储所有三个列的所有1083个粒度的物理位置的条目:从而避免了在主内存中有不必要的(可能未使用的)数据。
下面的图表和下面的文本说明了我们的示例查询ClickHouse如何在数据文件中定位粒度176
我们在本指南的前面讨论过ClickHouse选择了主索引标记176,因此颗粒176可能包含我们查询的匹配行。
ClickHouse现在使用从索引中选择的标记号(176)在中进行位置数组查找。标记文件,以便获得定位粒度176的两个偏移量。
如图所示,第一个偏移量定位于数据文件中的压缩文件块,该数据文件又包含粒度176的压缩版本。
一旦所定位的文件块被解压缩到主内存中,标记文件的第二个偏移量可用于在解压数据中定位粒度176。
ClickHouse需要从数据文件和数据文件中定位(并从流传输所有值)粒度176,以便执行我们的示例查询(UserID为749.927.693的互联网用户点击最多的10个url)。
上图显示了ClickHouse是如何定位数据文件的颗粒的。
与此同时,ClickHouse对176号颗粒的数据文件也做了同样的事情。这两个各自的粒度被对齐并流到ClickHouse引擎中进行进一步的处理,即对UserID为749.927.693的所有行的每个组的URL值进行聚合和计数,最后按降序输出10个最大的URL组。
当查询对作为复合键的一部分并且是第一个键列的列进行过滤时,ClickHouse将在键列的索引标记上运行二分搜索算法。
但是,如果查询过滤的列是复合键的一部分,但不是第一个键列,会发生什么情况?
我们将讨论这样一种场景:查询显式地不过滤第一个键列,而是过滤第二个键列。 当查询在第一个键列和第一个键列之后的任何键列上进行过滤时,ClickHouse将在第一个键列的索引标记上运行二进制搜索。
我们使用一个查询来计算最经常点击URL“”的前10个用户:
客户端输出表明ClickHouse几乎执行了一次全表扫描,尽管URL列是复合主键的一部分!ClickHouse从表的887万行中读取881万行。
如果启用了trace_logging,那么ClickHouse服务器日志文件显示ClickHouse使用了1083个URL索引标记的通用排除搜索,以识别那些可能包含URL列值为“”的行的粒度:
在上面的示例跟踪日志中,我们可以看到1083个粒度中有1076个(通过标记)被选择为可能包含具有匹配URL值的行。
这导致881万行被流式传输到ClickHouse引擎中(通过使用10个流并行),以便识别实际包含URL值“”的行。
然而,正如我们稍后将看到的,在选定的1076个粒度中,只有39个粒度实际上包含匹配的行。
虽然基于复合主键的主索引对于加快对具有特定值的行进行查询过滤非常有用,但是索引对于加快对具有特定值的行进行查询过滤并没有提供显著的帮助。
这样做的原因是URL列不是第一个键列,因此ClickHouse在URL列的索引标记上使用通用排除搜索算法(而不是二分搜索),该算法的有效性取决于URL列与其前身键列UserID之间的基数差。
为了说明这一点,我们给出了一些关于通用排除搜索如何工作的细节。
下面的示例说明了当粒度是通过二级列选择时,ClickHouse通用排除搜索算法是如何工作的,其中前一个键列具有低(er)或高(er)基数。
作为这两种情况的一个例子,我们将假设:
- 正在搜索URL值= "W3"的行的查询。
- 我们的hits表的抽象版本,简化了和的值。
- 索引使用相同的复合主键。这意味着行首先按UserID值排序。然后按URL对具有相同UserID值的行排序。
- 粒度大小为两个,即每个粒度包含两行。
在下面的图表中,我们用橙色标记了每个粒度的第一个表行的关键列值。
前一个键列具有较低的基数
假设的基数较低。在这种情况下,相同的值很可能分布在多个表行和粒度上,因此也就有了索引标记。对于具有相同的索引标记,索引标记的值按升序排序(因为表行首先按UserID排序,然后按URL排序)。这允许如下所述的高效过滤:
上图中抽象样本数据的粒度选择过程有三种不同的场景:
- 由于标记0和1具有相同的UserID值,因此URL值小于W3且直接后续索引标记的URL值也小于W3的索引标记0可以排除。注意,这个排除前提确保了粒度0完全由U1 值组成,这样ClickHouse就可以假设颗粒0中的最大值小于W3,从而排除该粒度。
- 选择值小于(或等于)且直接后续索引标记的值大于(或等于)的索引标记1,因为这意味着粒度1可能包含URL为W3的行。
- 可以排除URL值大于W3的索引标记2和3,因为主索引的索引标记存储每个粒度表的第一行的键列值,并且表的行在磁盘上按键列值排序,因此颗粒2和3不可能包含URL值W3。
前一个键列具有较高的基数
当UserID具有高基数时,相同的UserID值不太可能分布在多个表行和颗粒中。这意味着索引标记的URL值不是单调递增的: 正如我们在上图中所看到的,所有URL值小于W3的标记都被选中,用于将其相关粒度的行流式传输到ClickHouse引擎中。
这是因为虽然图表中的所有索引标记都属于上面描述的场景1,但它们不满足前面提到的排除前提条件,即直接后续索引标记具有与当前标记相同的UserID值,因此不能被排除。
例如,考虑索引标记0的URL值小于W3,并且其直接后续索引标记的值也小于W3。不能排除这种情况,因为直接继承索引标记1的值与当前标记0的值不同。
标记1、2和3也是如此。
当查询在作为复合键的一部分的列上进行过滤,但不是第一个键列时,ClickHouse使用的通用排除搜索算法而不是二分搜索算法在前一个键列具有低(er)基数时是最有效的。
在我们的示例数据集中,两个键列具有相似的高基数,并且,如前所述,当URL列的前一个键列具有高(er)或相似的基数时,通用排除搜索算法不是很有效。
由于UserID和URL具有相似的高基数性,因此在使用复合主键(UserID, URL)的表的URL列上创建辅助数据跳过索引对URL的查询过滤也没有太大好处。
例如,下面两个语句创建并填充表URL列上的最小值数据跳跃索引:
ClickHouse现在创建了一个额外的索引来存储——每组4个连续的粒度(注意上面语句中的子句)——最小和最大URL值:
第一个索引条目(上图中的’ mark 0 ')存储属于表的前4个粒度的行的最小和最大URL值。
第二个索引条目(’ mark 1 ')存储属于表的下4个颗粒的行的最小和最大URL值,以此类推。
(ClickHouse还为数据跳过索引创建了一个特殊的标记文件,用于定位与索引标记相关的粒度组。)
由于UserID和URL具有相似的高基数性,所以当我们对URL执行查询过滤时,这个辅助数据跳过索引无法排除被选择的粒度。
查询正在查找的特定URL值(即。‘’)很可能是最小值和最大值之间存储的每组颗粒的索引导致ClickHouse被强制选择颗粒组(因为他们可能包含行(s)匹配的查询)。
因此,如果我们想要显著加快过滤具有特定URL的行的示例查询,那么我们需要使用针对该查询优化的主索引。
此外,如果我们希望保持过滤具有特定UserID的行的示例查询的良好性能,那么我们需要使用多个主索引。
以下是实现这一目标的方法。
如果我们想显著提高我们的两个示例查询的速度——一个是过滤带有特定UserID的行,另一个是过滤带有特定URL的行——那么我们需要使用以下三个选项之一来使用多个主索引:
- 使用不同的主键创建第二个表()。
- 在现有表上创建物化视图()。
- 向现有表添加一个投影( )。
所有这三个选项都将有效地将我们的示例数据复制到另一个表中,以便重新组织表的主索引和行排序顺序。
但是,对于查询和插入语句的路由,这三种选项的不同之处在于附加表对用户的透明程度。
当用不同的主键创建第二个表时,查询必须显式地发送到最适合查询的表版本,并且必须显式地将新数据插入到两个表中以保持表同步。
在物化视图中,额外的表是隐式创建的,数据在两个表之间自动保持同步: 投影是最透明的选项,因为除了自动保持隐式创建(和隐藏)额外表的同步的数据变化,ClickHouse将自动选择查询最有效的表版本:
在下文中,我们将通过实际示例详细讨论创建和使用多个主索引的这三个选项。
我们正在创建一个新的附加表,我们在主键中切换键列的顺序(与原始表相比):
将原始表中的所有887万行插入到附加表中: 最后对表进行优化:
因为我们改变了主键中列的顺序,插入的行现在以不同的字典顺序存储在磁盘上(与我们的原始表相比),因此该表的1083个颗粒包含的值也与以前不同: 这是得到的主键: 现在,这可以用来显著加快我们的示例查询过滤在URL列上的执行速度,以便计算最常点击URL“http://public_search”的前10个用户:
现在,ClickHouse可以更有效地执行查询,而不是执行全表扫描。
对于原始表的主索引,其中UserID是第一个键列,URL是第二个键列,ClickHouse在索引标记上使用通用排除搜索来执行该查询,这不是很有效,因为UserID和URL的基数相似。
将URL作为主索引的第一列,ClickHouse现在在索引标记上运行二进制搜索。
ClickHouse只选择了39个索引标记,而不是使用通用排除搜索时的1076个。
注意,附加表经过优化,以加快我们的示例查询过滤url的执行速度。
与原始表查询的糟糕性能类似,我们对UserID的示例查询过滤在新的附加表上不会非常有效地运行,因为UserID现在是该表主索引中的第二个关键列,因此ClickHouse将使用通用排除搜索进行粒度选择,这对于UserID和URL的类似高基数来说不是很有效。打开详细信息框查看详细信息。
我们现在有两个表。优化了加速对UserIDs的查询过滤,加速对URLs的查询过滤:
在现有表上创建一个物化视图。
- 我们在视图的主键中切换键列的顺序(与原始表相比)
- 物化视图由隐式创建的表支持,该表的行顺序和主索引基于给定的主键定义
- 隐式创建的表由查询列出,其名称以开头
- 也可以首先显式地为物化视图创建后备表,然后视图可以通过来瞄准该表。
- 我们使用关键字是为了立即用源表hits_UserID_URL中的所有887万行填充隐式创建的表
- 如果新行插入到源表中,那么这些行也会自动插入到隐式创建的表中
- 实际上,隐式创建的表与我们显式创建的第二张表具有相同的行顺序和主索引: ClickHouse将隐式创建表的列数据文件(),标记文件()和主索引()存储在ClickHouse服务器数据目录下的一个特殊文件夹中: 支持物化视图的隐式创建的表(和它的主索引)现在可以用来显著加快我们的示例查询过滤URL列的执行速度:
由于支持物化视图的隐式创建的表(及其主索引)实际上与我们显式创建的辅助表相同,因此查询以与显式创建的表相同的有效方式执行。
在我们现有的表上创建一个投影:
并实现投影:
- 投影将创建一个隐藏表 ,其行顺序和主索引基于投影的给定子句
- 隐藏表没有被查询列出
- 我们使用关键字是为了立即用源表hits_UserID_URL中的所有887万行填充隐藏表
- 如果新行插入到源表中,那么这些行也会自动插入到隐藏表中
- 查询总是(语法上)以源表为目标,但是如果隐藏表的行顺序和主索引允许更有效地执行查询,那么将使用该隐藏表
- 请注意,投影不会使使用的查询更有效,即使ORDER BY与投影的ORDER BY语句匹配(参见https://github.com/ClickHouse/ClickHouse/issues/47333)。
- 实际上,隐式创建的隐藏表与我们显式创建的第二张表具有相同的行顺序和主索引: ClickHouse将隐藏表的列数据文件()、标记文件()和主索引文件()存储在源表的数据文件、标记文件和主索引文件旁边的一个特殊文件夹中(在下面的截图中以橙色标记):
投影创建的隐藏表(及其主索引)现在可以(隐式地)用于显著加快我们的示例查询过滤在URL列上的执行速度。注意,查询在语法上以投影的源表为目标。
由于投影创建的隐藏表(及其主索引)实际上与我们显式创建的辅助表(第二张表)相同,因此以与显式创建的表相同的有效方式执行查询。
在复合主键中,键列的顺序可以显著地影响以下两个方面:
- 查询中辅助键列的过滤效率,以及
- 表数据文件的压缩比。
为了证明这一点,我们将使用我们的网络流量样本数据集的一个版本,其中每行包含三列,表明互联网“用户”(列)对URL (列)的访问是否被标记为机器人流量(列)。
我们将使用包含上述所有三列的复合主键,这可以用来加速典型的web分析查询
- 有多少(百分比)流量到一个特定的URL是来自机器人或
- 我们有多确信某个特定用户是(不是)机器人(该用户的流量中有多少百分比被假定为(不是)机器人流量)
我们使用这个查询来计算我们想要用作复合主键中的键列的三列的基数(注意,我们使用URL表函数来单独查询TSV数据,而不必创建本地表)。在clickhouse客户端()运行这个查询:
我们可以看到,基数之间存在很大的差异,特别是在URL列和IsRobot列之间,因此复合主键中这些列的顺序对于在这些列上过滤查询的有效速度和实现表的列数据文件的最佳压缩比都非常重要。
为了演示,我们为机器人流量分析数据创建了两个表版本:
- 表具有复合主键,其中我们按基数降序排列键列
- 表与复合主键,我们按基数升序排序键列
用复合主键创建表:
用887万行填充它:
接下来,用复合主键创建表:
然后用我们用来填充前一个表的887万行来填充它:
当查询对至少一个属于复合键的列进行过滤时,并且该列是第一个键列,那么ClickHouse将在键列的索引标记上运行二分搜索算法。
当查询(仅)过滤复合键的一部分列,但不是第一个键列时,ClickHouse在键列的索引标记上使用通用排除搜索算法。
对于第二种情况,复合主键中键列的顺序对通用排除搜索算法的有效性至关重要。
这是一个对表的列进行过滤的查询,我们将关键列按基数降序排列:
这是我们对键列按基数升序排序的表上的相同查询:
我们可以看到,在按基数按升序排列键列的表上,查询执行明显更加有效和快速。
这样做的原因是,当通过前一个键列具有较低基数的辅助键列选择粒度时,通用排除搜索算法最有效。我们在本指南的前一节中详细说明了这一点。
这个查询比较了我们上面创建的两个表之间列的压缩比:
我们可以看到,对于按基数升序排列键列的表,列的压缩比要高得多。
尽管在两个表中存储的数据完全相同(我们在两个表中插入了相同的887万行),复合主键中键列的顺序对表列数据文件中压缩数据所需的磁盘空间有显著影响:
- 在具有复合主键的表中,我们按基数降序排列键列,数据文件占用11.79 MiB的磁盘空间
- 在具有复合主键的表中,我们按基数升序对键列进行排序,数据文件只占用了1.19 MiB的磁盘空间
不仅可以节省磁盘空间,而且还可以使需要从该列读取数据的查询(特别是分析查询)更快,因为将列的数据从磁盘移动到主内存(操作系统的文件缓存)所需的i/o更少。
在下文中,我们将说明为什么按基数升序排列主键列有利于表列的压缩比。
下面的图表描绘了主键的磁盘上的行顺序,其中键列按基数顺序升序排列: 我们讨论了表的行数据存储在按主键列排序的磁盘上。
在上面的图表中,表的行(它们在磁盘上的列值)首先按照它们的值排序,具有相同值的行按照它们的值排序。而且由于第一个键列具有较低的基数,因此很可能存在具有相同值的行。正因为如此,值也可能是有序的(局部-对于具有相同cl值的行)。
如果在一列中,相似的数据彼此靠近放置,例如通过排序,那么该数据将被更好地压缩。通常,压缩算法受益于数据的运行长度(看到的数据越多,压缩效果越好)和局部性(数据越相似,压缩比越好)。
与上面的图相反,下面的图描绘了主键的磁盘上的行顺序,其中键列是按基数降序排列的:
现在表的行首先按照它们的值排序,具有相同值的行按照它们的值排序。但是由于第一个键列具有很高的基数,所以不太可能存在具有相同值的行。正因为如此,值也不太可能被排序(局部-对于具有相同值的行)。
因此,值很可能是随机顺序,因此分别具有较差的局部性和压缩比。
为了在查询中对辅助键列进行有效的过滤和表的列数据文件的压缩比,将主键中的列按基数升序排列是有益的。
博客: Super charging your ClickHouse queries
虽然一般来说,这不是ClickHouse的最佳用例,但有时基于ClickHouse构建的应用程序需要识别ClickHouse表的单行。
一种直观的解决方案可能是使用每行具有唯一值的UUID列,为了快速检索行,将该列用作主键列。
为了获得最快的检索速度,UUID列需要是第一个键列。
我们讨论过,由于ClickHouse表的行数据存储在按主键列排序的磁盘上,因此在主键或复合主键中拥有一个基数非常高的列(如UUID列),然后是基数较低的列,这不利于其他表列的压缩比。
最快检索和最优数据压缩之间的折衷是使用复合主键,其中UUID是低基数键列之后的最后一个键列,用于确保表的某些列具有良好的压缩比。
一个具体的例子是Alexey Milovidov开发和博客记录的明文粘贴服务https://pastila.nl。
每次对文本区域进行更改时,数据都会自动保存到ClickHouse表的一行中(每次更改一行)。
标识和检索(特定版本)粘贴内容的一种方法是使用内容的散列作为包含内容的表行的UUID。
下图显示了:
- 当内容发生更改时(例如,由于击键将文本输入到文本区域中)的行插入顺序和
- 当使用时,插入行的数据在磁盘上的顺序:
因为列被用作主键列
- 可以非常快速地检索特定的行,但是
- 表的行(它们的列数据)存储在磁盘上,按(唯一的和随机的)哈希值升序排列。因此,内容列的值以随机顺序存储,没有数据局域性,导致内容列数据文件的压缩比不是最优的。
为了显著提高内容列的压缩比,同时仍能实现对特定行的快速检索, 使用两个哈希(和一个复合主键)来标识特定的行:
- 内容的散列,如上所述,对于不同的数据是不同的
- 一种对位置敏感的散列(指纹),它不会因数据的微小变化而改变。
下图显示了:
- 当内容发生更改时(例如,由于击键将文本输入到文本区域中)的行插入顺序和
- 当使用复合时,插入行的数据在磁盘上的顺序:
现在磁盘上的行首先按排序,对于具有相同指纹值的行,它们的值决定了最终顺序。
因为只有微小变化的数据会得到相同的指纹值,所以相似的数据现在存储在磁盘上的内容列中,彼此靠近。这对于内容列的压缩比是非常好的,因为压缩算法通常受益于数据的局部性(数据越相似,压缩比越好)。
折衷方案是,检索特定行需要两个字段(和),以便最佳地利用复合产生的主索引。
局部敏感哈希算法Locality Sensitive Hashing (LSH)