GB/T 41818-2022 信息技术 大数据 面向分析的数据存储与检索技术要求.pdf

GB/T 41818-2022 信息技术 大数据 面向分析的数据存储与检索技术要求.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:3.5 M
标准类别:电力标准
资源ID:382314
下载资源

标准规范下载简介

GB/T 41818-2022 信息技术 大数据 面向分析的数据存储与检索技术要求.pdf

信息技术大数据面向分析的

本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:华为技术有限公司、北京大学、中国电子技术标准化研究院、中国人民大学、北京 航天智造科技发展有限公司、中汽研汽车检验中心(天津)有限公司、成都中科大旗软件股份有限公司、 浪潮软件科技有限公司、江苏赛西科技发展有限公司、深圳赛西信息技术有限公司、浪潮电子信息产业 股份有限公司、北京易华录信息技术股份有限公司、杭州中奥科技有限公司、方正国际软件(北京)有限 公司、山东黄河河务局山东黄河信息中心、山东省计算中心(国家超级计算济南中心)、四川大学华西医 院、湖南财政经济学院、杭州市第七人民医院、北京工业大学、北京理工大学、中山大学、桂林电子科技大 学、天津大学、中冶赛迪工程技术股份有限公司、北京能科瑞元数字技术有限公司、北京启迪数字科技集 团有限公司、中国人民解放军国防科技大学、西北工业大学、西安电子科技大学、腾讯科技(深圳)有限公 司、河南云政数据管理有限公司、特斯联科技集团有限公司、深圳龙岗智能视听研究院、星环信息科技 (上海)有限公司。 本文件主要起草人:梅宏、杜小勇、符海芳、陈亮、范科峰、张群、赵华、赵俊峰、王亚沙、刘驰、尹卓、 王为中、曹幼林、卞昊穹、金国栋、陈跃国、李民东、刘哲、邹萍、殷晋、贺可勋、冯谦、李武鸿、郑申俊、李冰 张亮、石征、袁玥、赵斌、李威、王树良、洪江、黄先芝、胡清、王凌、陶智敏、李振东、张煜、逢锦山、张媛、 潘彬、孙光、章俊航、杨绍武、史殿习、杨震、于海阳、万海、何倩、雷建军、李斐、潘兆庆、彭勃、刘国杰、 张超超、贾晓杰、沈丽丽、张星星、邓乔、黎方学、车伟伟、肖学文、毛尚伟、杨刚、姚远、杨钰、张大鹏 杨洪山。

信息技术大数据面向分析的 数据存储与检索技术要求

本文件规定了支撑多应用融合分析的大数据列式存储与检索技术要求。 本文件适用于面向分析的数据存储与检索的系统或子系统的设计、开发和使用。

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中长沙大成国际大酒店施工方案标书,注日期的引用 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用 本文件。 GB/T35295一2017信息技术大数据术语 3 3术语和定义 GB/T35295一2017界定的以及下列术语和定义适用于本文件。 3.1 元数据metadata 定义和描述其他数据的数据。 [来源:GB/T18391.1—2009,3.2.16] 3.2 存储布局storagelayout 数据在存储系统中的存储规划和安排。 注:通常包括各数据单元在存储系统中相对的存储顺序和存储位置的偏移等。 3.3 检索retrieval 使用一定方法或工具,从数据集合中找出用户所需数据或数据相关信息的过程。

WiFi:无线保真(WirelessFidelity)

在大数据场景中,数据分析是通往大数据应用的首要步骤,需要简便、快捷和准确的数据组织和管 理方法,这种组织和管理主要体现在存储和检索方面。检索活动与数据分析中的数据提取直接关联,存 储活动为数据分析提供便捷的数据组织。数据存储表的示例见附录A。 本文件描述的数据表为大数据场景下面向分析的数据存储和检索提供数据组织和管理方面的 支持。

数据表是对数据进行组织和管理的一种数据分层次编排结构和多层结构,其组成部分包括:数据子 表(以下简称“子表”)、数据行组(以下简称“行组”)、数据列组(以下简称“列组”和数据页,如图1所示 张数据表包含1张或多张子表,主要用于对数据进行面向分析的组织和管理,数据表的元数据独立于 数据表外存储。这些组成部分统称为数据单元。

子表是组织和管理数据的最大数据单元,由子表头部、行组、子表尾部组成,一张子表内的数据可划 分为1~n个行组。子表的一般结构如图2所示。 子表头部给出子表的标识、版本信息以及子表的元数据。子表尾部给出子表的行组/列组索引,以 及行组位置信息。行组索引由多个列组索引组成。 子表索引由行组索引组成。首次使用时,由行组索引记录汇聚面成,可缓存在内存中。

行组是子表横向划分的最小单元,一个行组包含1~L行的数据(L≥1),可划分为1~M个列组 (M≥1)。行组由行组元数据、数据页索引和列组构成,其中,行组元数据包含:列组元数据、列组位置和 列组内数据页位置等信息,列组元数据包含了数据页数据的大小、编码方式等信息。一般行组结构如 图3所示。

列组是行组内数据纵向划分的最小单元,一个列组包含该行组内1~P列的数据(P≥1),列组可 划分为1~Q个数据页(Q≥1)。列组的一般结构如图4所示。

数据页是列组内数据读写和数据过滤的最小单元,是一段裸数据,大小和格式等信息由行组中的 数据信息提供

本文件中的数据索引是快速定位所需数据的检索方式,包括:子表索引、行组或列组索引、数据页索 引等。索引技术要求如下: a)应支持行组或列组级别的索引,通过索引可获得需要的行组,如倒排索引; b)应支持数据页级别的索引,通过索引可获得需要的数据页,如最大最小索引; c)应支持多个列组的索引组合; d)应支持主索引、时空索引、多值列索引等多种索引方式进行组合; e) 宜支持索引构建后数据的更新和删除; f)宜支持子表级别的索引,通过索引获得需要的子表,如二叉树索引; g)宜支持异步索引构建能力。 注:异步索引构建指的是用户先将数据人库,再利用业务闲时对数据构建索引

数据存储的基本技术要求如下: a) 应支持数据按行组列组存储; b) 2 应支持数据持久化保存; 第 应支持文件存储、对象存储、内存存储等不同数据存储系统; d) 应支持依据不同维度对数据进行分类存储,如数据使用频率等; e) 宜支持总量达EB级,单表数据达万亿行级别的数据存储和检索; f 2 宜支持对单条数据记录进行更新和删除; g) 宜基于第6章描述的数据表结构,设计和规划用于组织和管理数据存储的总体方案。

存储布局实现的技术要求如下: a) 应随检索需求的重大变化及时调整存储布局; b 应支持子表存储结构按行组来设定存储顺序; c) 应支持子表存储结构按行组来自动适应存储顺序; d) 应支持子表存储结构按列组来设定存储顺序; e) 应支持子表存储结构按列组来自动适应存储顺序; f) 应支持用户自定义行组存储布局中列组之间的存储顺序; 2 应支持用户自定义列组存储布局中行组之间的存储顺序; h) 应支持行组存储布局中自适应的列组分裂和合并; i) 应支持各数据单元大小的自适应调整;

1 宜支持PB级数据查询响应为秒级,并且百列索引组合查询下的点查询响应最优为秒级; k)宜支持PB级数据导人延时(耗时)达到秒级,单机数据吞吐量大于每秒10万行。

数据表管理的技术要求如下: 2 应支持创建表、删除表、修改表、添加列、删除列等数据单元操作能力; b)应支持创建索引、删除索引、修改索引等数据索引操作能力; ?) 应支持按数据表数据的更新和批量更新; d)应支持数据表单条记录的删除和批量删除; e)应支持对双精度浮点型、长整型等不同数据类型进行类型转换和列式数据压缩; D 宜支持增加或删除数据表中的行组或列组、修改行组或列组的命名和数据类型等数据表结构 的修改能力。

数据导人的技术要求如下: a)应支持数据导人数据表时同步构建索引; b)应支持数据表历史数据的批量导人; c) 2 应支持数据表增量数据的导入; d) 应支持多个数据表的数据同时导人; e) 2 应支持将文本格式的数据导人数据表; f) 2 应支持其他列式存储格式的数据转换导人数据表; g)宜支持实时流式数据导人; h)宜支持数据库增量同步到数据表,数据立即可见

轻量级数据压缩,即压缩状态下的数据可进行访问、运算等操作,其技术要求如下: a)应支持增量编码、运行长度编码、位压缩和字典编码等轻量级压缩算法; b)宜支持自适应选择轻量级压缩算法; c)宜支持对轻量级压缩数据的查询。 注:轻量级压缩数据的查询是对于经过轻量级压缩的数据高性能混凝土养护施工方案,在解压之前,直接在压缩数据上执行查询 重量级数据压缩,即数据解压后才能对数据进行访问、运算等,其技术要求如下: a)应支持用户选择重量级数据压缩方式; b)应支持对轻量级压缩后的数据使用重量级数据压缩方法; ?) 宜支持重量级压缩算法; d)宜支持插件式添加重量级压缩算法。

应支持将多个较小的子表合并成较大的子表,并将多个子表索引构建成一个较大的子

数据分区的技术要求如下:

? 应支持数据表按照时间、地理位置、范围、列表、取值等不同方式进行分区; b) 应支持不同批次导人的数据划分到不同的分区; ? 宜支持将经常组合出现的列组排列在一起存储。

数据更新的技术要求如下: a 应支持一个更新语句包含一条或多条数据更新记录; b 应支持根据查询结果更新数据表; cC) 应支持带子查询的更新或删除语句; d) 应支持数据表清空; e 宜支持异步更新数据表。

数据检索的技术要求如下: a)应支持基于规则、成本等优化器对SQL进行优化; b)应支持分布式计算检索,对于较大的检索通过分布式计算提升检索效率; c)应支持数据的即时检索; 注1:即时检索指的是检索响应达到秒级的检索。 d)应支持交互式OLAP检索、过滤检索、多维分析检索、实时检索等多种场景的数据检索; e)应支持基于列组做算术运算的计算检索; 注2:算术运算指的是聚合函数与常量的运算。 f) )应支持对全部或部分检索结果按照一列或多列值的大小进行分组,值相等的为一组; g)应支持并操作、交操作、差操作等集合检索; h) 应支持从检索结果中进行检索; i) )应支持分组、排序、计数、子查询、关联查询等标准SQL查询功能; ?D 2 宜支持检索的预聚合; 注3:预聚合指的是常用的聚合检索提前聚合。 k)宜支持多种因素组合的过滤检索; D 2 宜支持单个数据表的多个列组以及多个数据表间的关联检索; m)宜支持JSON等对象数据的查询与检索; n)宜支持跨分区并行检索; oO 2 宜支持基于大数据的准交互式检索; p)宜支持子表检索功能技工学校校舍维修改造施工组织设计,对指定多个子表进行数据检索。

附录A (资料性) 面向分析的数据存储与检索应用示例

©版权声明
相关文章