揭秘华为云GaussDB(for Influx):最佳实践之数据建模

2022年05月10日 阅读数:6
这篇文章主要向大家介绍揭秘华为云GaussDB(for Influx):最佳实践之数据建模,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。
摘要:本期将从GaussDB(for Influx)数据模型谈起,分享GaussDB(for Influx)数据建模的最佳方法,避免一些使用过程当中的常见问题。

本文分享自华为云社区《华为云GaussDB(for Influx)揭秘第七期:最佳实践之数据建模》,做者: GaussDB 数据库。数据库

华为云GaussDB(for Influx)时序数据库面向工业物联网海量时序数据场景提供数据安全、高性能、低存储成本、免运维等能力,受到愈来愈多企业的关注;同时,即开即用、使用简单、类SQL查询语句、无需设计schema、适合业务快速迭代等特色,也愈来愈获得开发者的承认。安全

可是随着业务规模不断增长,也会遇到诸如时间线暴涨、查询时延高、Tag和Field同名致使查询数据时有时无等问题,其根本缘由是,在使用过程当中没有良好的数据模型设计。本期将从GaussDB(for Influx)数据模型谈起,分享GaussDB(for Influx)数据建模的最佳方法,避免一些使用过程当中的常见问题。并发

01 数据模型与关键概念

Database

与MySQL中Database概念相同。less

建立命令:CREATE DATABASE “mydb”。运维

用户权限、数据保留策略都以Database为粒度设置。好比赋予用户对“mydb”数据库只读权限:GRANT read ON mydb TO username。函数

Measurement

与MySQL中Table概念相似。所不一样的是,GaussDB(for Influx)属于Schemaless,Measurement不须要提早建立,也不须要设计表中的字段和类型。写入数据时自动建立Measurement,字段能够任意新增和减小,但要求相同字段的数据类型必须一致。性能

Retention Policy(RP)

数据保留策略,是关系型数据库中不存在的概念,专为时序场景设计,意为指定数据在数据库中的最长保存时间,过时数据会自动被清理。url

Tag

数据源标识,只支持string类型spa

Field

采集指标,支持string,float,int,bool类型操作系统

Line Protocol(数据模型)

如图所示,写数据到GaussDB(for Influx),单条数据由measurement、Tag_key、Tag_value、Field_key、Field_value、timestamp 6部分组成。<Tag_key= Tag_value>能够1个或多个,<Field_key=Field_value>能够1个或多个,每条数据必需要携带时间戳。

Point(点)

Point一般包含measurement+Tags+Field+timestamp 4个部分。例如,以下数据包含2个Point。

<monitorInfo,area=“葡萄花”,,device=“钻机A” pressure=1.8,level=35 1650443961100400200>
Point1:
<monitorInfo,area=“葡萄花”,device=“钻机A”,pressure=1.8 1650443961100400200>
Point2:
<monitorInfo,area=“葡萄花”,device=“钻机A”,level=35 1650443961100400200>

即,一条数据包含多少Field Key,则能够简单认为存在多少Point。在GaussDB(for Influx)中,能够一条数据包含一个Point,也能够包含多个Point。

Series(时间线)

在GaussDB(for Influx)里,咱们将一个指标+一组Tag组合称为一条时间线。在一条时间线下面,连续时间点的采样数据则为时序数据。好比有数据:

monitorInfo,area=”葡萄花”,device=”钻机A”,pressure=1.8,1650443961100400200
monitorInfo,area=”葡萄花”,device=”钻机B”,pressure=1.6,1650443961100400200
monitorInfo,area=”榆树林”,device=”钻机B”,pressure=1.7,1650443961100400200
monitorInfo,area=”榆树林”,device=”钻机A”,pressure=1.5,1650443961100400200

表示4条时间线,分别是:

葡萄花油田的钻机A上的压力传感器(pressure)

葡萄花油田的钻机B上的压力传感器(pressure)

榆树林油田的钻机B上的压力传感器(pressure)

榆树林油田的钻机A上的压力传感器(pressure)

02 数据建模之最佳实践

一般,数据建模是为了让查询更简单、更高效。对于大多数使用情形,咱们建议使用如下设计准则:

一、合理设计Tag 和Field

  • Tag只支持字符串类型,数值和布尔类型数据应该被设计为Field;
  • 将经常使用查询条件和分组条件设计为Tag;

由于Tag会建立索引,而Field则没有索引。好比在业务中,常常会查询某一台机器的平均CPU利用率:

SELECT mean(cpu)
FROM monitor
WHERE host=“192.168.1.1” AND time > now() – 1h

或者查询风电场每台风力发电机每小时的平均发电量:

SELECT mean(elect)
FROM monitor
WHERE farm_id=“737f738a-bd63” AND time > now() – 24h
GROUP BY time(1h),device_id

则应该将上述查询语句中的 host、farm_id、device_id 设置为Tag,前提是字符串类型才能被设为Tag。

  • time属于内置关键字,不能做为Tag_key和Field_key;
  • 使用InfluxQL函数(Max、Min、Count等)的字段,做为Field存储。

二、 遵照Tag_Key 和Field_Key的命名约定

  • 不使用保留关键字做为Tag和Field的key(名称);
  • Tag和Field不使用相同名称,不然会出现不可预料的问题;
  • Tag和Field名称尽可能简短清晰,能够节约Index内存空间,同时会让查询更加高效;
  • 避免一个Tag中包含多层意思,好比machine = “192.168.2.1-Ubuntu”,包含ip地址和操做系统名称,建议拆分为两个Tag:host和os;
  • 建议将变化小的数据设置为Tag,好比进程名称能够设为Tag,而进程号则建议设置为Field。

三、避免超过节点规格所能承受的时间线数量

GaussDB(for Influx)规格与时间线数量对应关系以下:

时间线过分超过限制,会引发性能急剧降低,可能会影响业务运行,须要考虑对节点扩容。

四、避免一张表中存在过多Tag或者 Field

建议一张表存放同一类业务数据,好比物流车辆监测数据。过多业务数据放置到同一张表,会形成Tag和Field数量激增,直接影响查询效率。Field太多时,每一个Field的计算都会单独计算,当执行模糊查询时可能会致使查询超时。

五、避免同一个Retention policy存储多用户数据

不一样业务数据的过时时间不尽相同,应根据业务具体需求分别存储在不一样的RP中,不然过时数据不能及时删除,依然占据存储空间,增长了数据存储成本,影响了查询效率。

六、避免同一个Database存储多用户数据

因为当前GaussDB(for Influx)的权限控制粒度是DB级别,同一个Database保存多用户数据,容易致使数据被其余用户访问和修改。建议不一样用户使用单独Database,而且只对单一用户授予访问权限。

03 总结

在制造、能源、农业、电力等工业物联网行业中,大部分数字化信息系统是构建在MySQL等关系型数据库基础上。但随着企业业务和规模的进一步扩大,数据量迅速增加,MySQL等关系型数据库面临并发数、存储成本、查询性能、扩展性、维护等诸多问题,正逐渐被时序数据库所替代。

GaussDB(for Influx)摒弃关系型数据库范式化繁复的设计规则,支持Schemaless设计,业务能按照简单、高效的方式建模。面对业务变化快、接入设备多样化严重的工业物联网场景,GaussDB(for Influx)数据建模表现更加灵活,无需更改业务便可兼容不一样设备,更适用于工业物联网场景。

04 结束

本文做者:华为云数据库创新Lab & 华为云时空数据库团队。欢迎加入咱们!
云数据库创新Lab(成都、北京)简历投递邮箱:xiangyu9@huawei.com
华为云时空数据库团队(西安、深圳)简历投递邮箱:yujiandong@huawei.com

 

点击关注,第一时间了解华为云新鲜技术~