近数据处理(NDP)——GaussDB(for MySQL)性能提高的秘密

2022年01月14日 阅读数:1
这篇文章主要向大家介绍近数据处理(NDP)——GaussDB(for MySQL)性能提高的秘密,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。
摘要:云堆栈的深度集成是释放云数据库力量的关键,华为云在实现这一目标方面处于领先地位,正如GaussDB(for MySQL)所证实的那样。

本文分享自华为云社区《近数据处理(NDP),为GaussDB(for MySQL)性能提高“加冕”》,做者: GaussDB 数据库。html

在上一篇文章《首席科学家为您揭秘:GaussDB(for MySQL)云栈垂直集成的力量有多大 咱们介绍了GaussDB(for MySQL)的体系架构,这篇文章咱们将重点介绍GaussDB(for MySQL)如何将查询处理卸载到存储层,咱们将这一特性称之为近数据处理(Near Data Processing),简称NDPmysql

NDP出现的契机

在计算节点实例上执行查询操做首先须要将数据页面加载到InnoDB缓冲池(buffer pool)。相对传统数据库使用本地存储,云数据库须要经过网络获取数据,所以从存储节点读取页面数据的延迟要高得多。相比社区版MySQL,GaussDB(for MySQL)支持并行查询,可经过多线程并行将数据读取到缓冲池中,但当表数据量较大(包含数百万甚至更多的数据行),分析查询须要扫描大量数据时,将所需数据所有加载到缓冲池中,IO成本将变得很是高。所以,咱们须要一种更优的方法来解决此问题。sql

咱们的解决方案是基于GaussDB(for MySQL) 计算节点与存储节点之间的紧密集成,将部分查询处理操做下推至靠近数据的分布式存储系统,数据库术语中称为算子下推。经过这种方式,咱们能够利用多存储节点的总带宽。在云环境中,存储系统包含数百节点,咱们但愿充分利用存储系统的可扩展性,同时避免网络成为性能瓶颈点。NDP容许部分查询处理以大规模并行的方式在存储节点执行,并显著的减小网络IO。数据库

NDP有诸多好处,包括:缓存

  • 利用多租户大规模分布式云存储系统,在多节点并行处理数据
  • 显著减小网络IO,只返回知足WHERE条件的行(过滤)和查询涉及的列(投影)或聚合操做的结果,而不是将完整的数据页面从存储节点返回至计算节点
  • 避免大数量扫描致使常常访问的数据页面从缓存池中移除

那么存储层是如何处理的呢?

算子下推一般适用于全表扫描、索引扫描、范围查询等场景。WHERE条件可下推至存储层,当前支持的数据类型包括:网络

  • 数值类型(numeric, integer, float, double)
  • 时间类型(date, time, timestamp)
  • 字符串类型(char, varchar)等

算子下推能够与计算节点的并行查询完美结合,从概念上讲,一个查询首先在计算层(垂直扩展)拆分为多个worker线程并行处理,每一个worker线程都可触发算子下推。因为分布式存储中数据分布的策略,每一个worker线程的负载将分配至存储系统的多个节点上(水平扩展),每一个存储节点都有线程池处理算子下推请求。多线程

查询是否启用算子下推,是在查询优化阶段,优化器根据统计信息和执行计划自动决策的。此外用户还能够使用 hint 来控制查询操做是否开启算子下推。架构

算子下推能够很好地处理冷数据,然而,GaussDB(for MyQL)是一个OLTP系统,一般包含并发更新操做。当前计算下推实现,MVCC处理仅在计算节点进行,存储节点只处理可见的行,针对没法判断可见性的行,原样返回至计算节点,经过undo-log回放出对应的数据。并发

经过算子下推,咱们将得到怎样的收益呢?

以TPC-H标准测试集(scale factor: 100)为例,CPU:16核,内存: 128GB,计算节点数据库缓冲池大小设置为80GB,采用冷数据进行验证。框架

下图展现了TPC-H Q6, Q12, Q14, Q15 4 个Query的查询结果,均有20-40倍的性能提高。以Q12为例,只开启NDP,借助分布式存储算力和网络IO缩减,性能提高5倍,同时在计算节点开启并行查询,又得到7倍性能提高,整体提高约35倍,这个提高效果是很是显著的。

本文中提到的这些功能均可在实际生产环境中使用,而这只是开始,随着咱们将更多计算推送到存储层,更多的查询将今后优化中受益,咱们能够期待更大的性能提高。

如何启用NDP?

开启NDP开关,对当前Session生效,优化器自动判断是否进行计算下推。

mysql> show variables like 'ndp_mode';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| ndp_mode      | ON    |
+---------------+-------+
1 row in set (0.00 sec)

mysql> explain select count(*) from lineitem;
+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------------------------------------------------------------+
| id | select_type | table    | partitions | type  | possible_keys | key     | key_len | ref  | rows      | filtered | Extra                                                             |
+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------------------------------------------------------------+
|  1 | SIMPLE      | lineitem | NULL       | index | NULL          | PRIMARY | 8       | NULL | 594000899 |   100.00 | Using pushed NDP columns; Using pushed NDP aggregate; Using index |
+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------------------------------------------------------------+
1 row in set, 1 warning (0.00 sec)

经过hint方式,使NDP对当前Query生效。

mysql> show variables like 'ndp_mode';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| ndp_mode      | OFF   |
+---------------+-------+
1 row in set (0.00 sec)

mysql> explain select count(*) from lineitem;
+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------+
| id | select_type | table    | partitions | type  | possible_keys | key     | key_len | ref  | rows      | filtered | Extra       |
+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------+
|  1 | SIMPLE      | lineitem | NULL       | index | NULL          | PRIMARY | 8       | NULL | 594000899 |   100.00 | Using index |
+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

mysql> explain select/*+ ndp_pushdown() */ count(*) from lineitem;
+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------------------------------------------------------------+
| id | select_type | table    | partitions | type  | possible_keys | key     | key_len | ref  | rows      | filtered | Extra                                                             |

+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------------------------------------------------------------+
|  1 | SIMPLE      | lineitem | NULL       | index | NULL          | PRIMARY | 8       | NULL | 594000899 |   100.00 | Using pushed NDP columns; Using pushed NDP aggregate; Using index |
+----+-------------+----------+------------+-------+---------------+---------+---------+------+-----------+----------+-------------------------------------------------------------------+
1 row in set, 1 warning (0.00 sec)

挑战与从此方向

NDP有诸多好处,但它也有一些技术挑战须要咱们解决。如分布式存储系统为多租户共享,为了不不一样租户对资源争抢使用,咱们须要实现单租户级的资源管控。另外是优化器决策使用NDP的时机,需结合触发网络IO读取的数据量以及已缓存在缓冲池中的数据量综合考虑。

GaussDB(for MySQL)是一款云原生数据库,该体系结构支持极其强大和灵活的NDP框架。将来,咱们计划利用此框架不单单是作查询处理,还将进一步扩展存储层中的数据库功能,这些功能能够与查询下推结合使用。咱们相信,云堆栈的深度集成是释放云数据库力量的关键,华为云在实现这一目标方面处于领先地位,正如GaussDB(for MySQL)所证实的那样。

请你们保持关注,咱们后续将会给你们带来更多精彩技术分享。也欢迎你们前往华为云官网,了解更多GaussDB(for MySQL)详情:https://www.huaweicloud.com/product/gaussdb_mysql.html

 

点击关注,第一时间了解华为云新鲜技术~