标准规范下载简介
DB23/T 3304-2022 大数据平台数据接入规范.pdfICS35.020 CCS L 70
DB23/T3304—20
前言 范围 规范性引用文件 术语和定义 3.1数据接入 3.2数据采集. 3.3 全量采集模式 3.4增量采集模式 3. 5 轮询采集模式 缩略语 总体框架 5. 1 总体框架描述 5. 2 数据源的接入和采集方式 接入要求 6. 1 关系数据库抽取 6. 2 数据库实时复制 6.3 网关服务 6. 4 消息队列 6. 5 文件接收FTP服务 6. 6 文件拉取FTP服务 6.7 文件HTTP服务 6.8 文件NFS服务 附录A(资料性) 关系数据库抽取接入说明DB50/T 867.14-2020 安全生产技术规范 第14部分:星级饭店.pdf, 附录B(资料性) 网关服务接入说明. 附录C(资料性) 消息队列接入说明. 附录D(资料性) 文件接收FTP服务接入说明. 附录E(资料性) 文件拉取FTP服务接入说明. 附录F(资料性) 文件HTTP服务接入说明. 27 附录G(资料性) 文件NFS服务接入说明
前言 范围 规范性引用文件 术语和定义 3.1数据接入 3. 2 数据采集, 3.3 全量采集模式 3. 4 增量采集模式 3. 5 轮询采集模式 缩略语 总体框架 5. 1 总体框架描述 5. 2 数据源的接入和采集方式 接入要求 6. 1 关系数据库抽取 6. 2 数据库实时复制 6.3 网关服务 6. 4 消息队列 6. 5 文件接收FTP服务 6. 6 文件拉取FTP服务 6.7 文件HTTP服务 6.8 文件NFS服务 付录A(资料性) 关系数据库抽取接入说明, 附录B(资料性) 网关服务接入说明. 衬录C(资料性) 消息队列接入说明. 18 衬录D(资料性) 文件接收FTP服务接入说明. 20 衬录E(资料性) 文件拉取FTP服务接入说明. 24 衬录F(资料性) 文件HTTP服务接入说明. 27 附录G(资料性) 文件NFS服务接入说明 31
大数据平台数据接入规范
本文件规定了大数据平台数据接人规范的术语和定义,缩略语、总体框架和接人要求, 本文件适用于黑龙江省内大数据平台进行数据采集功能研发、数据采集工具选型及其数据接) 供规范要求。
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引月 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适 文件。 GB/T 29262 信息技术面向服务的体系结构(SOA)术语 GB/T35274信息安全技术大数据服务安全能力要求 GB/T35295 5信息技术大数据术语 GB/T37973信息安全技术大数据安全管理指南 3 术语和定义 GB/T29262、GB/T35295和GB/T35274界定的以及下列术语和定义适用于本文件。 3.1 数据接入 将数据传输进入数据平台所采用的形式。 3.2 数据采集 将数据收集进入数据平台所采用的形式。 3.3 全量采集模式 是指一次性将关系数据库中物理表的数据抽取到大数据平台。 3.4 增量采集模式 是指根据设置的抽取条件筛选符合条件的数据抽取到大数据平台。
轮询采集模式 轮询采集模式是增量采集模式的一种。
大数据平台支持从关系型数据库、文件、数据流等来源获取数据,实现各类离线数据及实时数据的 采集与接入,包括设备采集数据、企业管理业务数据、外部数据等。其中离线数据主要分为关系型数据 库所存储的结构化数据及文件系统所存储的非结构化文件数据,实时数据主要是设备采集监控及业务系 统产生的实时流数据。总体框架示意图见图1
5.2数据源的接入和采集方式
包含但不限于以下方式: a) 关系数据库抽取; b) 数据库实时复制; c) 网关服务; d) 消息队列服务; e) 文件接收FTP服务; f) 文件拉取FTP服务; g) 文件HTTP服务; h)文件 NES 服务。
大数据平台作为多维数据 包含但不限于以下方式: a) 关系数据库抽取; b) 数据库实时复制; c) 网关服务; d) 消息队列服务; e) 文件接收FTP服务; f) 文件拉取FTP服务: g) 文件HTTP服务; h)文件NFS服务。
6. 1. 2 应用场景描述
应用场景描述如下: 关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信 息; 关系数据库抽取服务配置数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标 表; 关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度 d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中。
关系数据库抽取应用场景见图2。
6. 1. 4 应用要求
关系数据库抽取应用
6. 2. 1 功能要求
数据实时复制应提供业务系统关系型数据库中的结构化数据到大数据平台数据存储的增量低时延 复制功能,数据实时复制应具备以下主要功能: a)支持对主流的关系型数据库进行低时延增量复制,至少包括Oracle、MySQL、PostgreSQL等关 系型数据库;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期 /时间型等数据类型; b) 支持秒级时延的关系型数据库增量复制能力;同时支持在全量复制的基础上,无缝自动切换到 增量复制模式: C 支持关系型数据库中结构化数据抽取到大数据平台关系型数据存储、非关系型数据存储、分布 式文件存储、实时数据存储及消息队列; 支持对关系型数据库数据的内容和类型转换操作,至少包括不同数据库差异转换、字段类型格 式转换、时区转换等操作; 支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤:
)支持数据复制操作的手动触发、定期调度及外部触发运行。定期调度运行应提供多种调度策略, 至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策 略;外部触发支持标准webservice接口; 应提供中心图形管理界面,应提供源端元数据查看、数据复制场景管理、数据表配置、表字段; 选择配置、字段类型转换配置、触发机制配置、目标端输出配置、运行策略配置、运行监控等 操作界面。
6. 2. 2应用场景
应用过程如下: a)业务系统关系型数据库服务器上部署增量捕获程序: b) 增量捕获程序捕获到增量数据通过TCP或消息队列发送到大数据平台增量接收服务; c)大数据平台解析增量数据,并将增量数据存储到大数据平台中; d)大数据平台分发增量数据到目标数据仓库中
库实时复制应用场景见图
应用要求包括: a) 源数据库应是关系型数据库; b) 源数据库表应包含主键或唯一索引: C 源端数据库应开启附加日志和强制归档模式; d 源端数据库的在线日志文件、归档日志文件应存放在文件系统上。
6. 3. 1 功能要求
数据库实时复制应用场景
网关服务为数据源提供大数据平台中结构化数据或非结 下主要功能 a) 支持接入webservice、RESTful方式的接口; b 支持包括结构化数据、非结构化数据的接口; C 支持接口编排,轻松实现多个接口的功能集成; d 提供图形化管理界面,用于接口数据存储位置、操作用户、目标存储位置的配置: e 提供完善的日志和审计能力,应记录接口数据配置及数据抽取操作配置、运行时发生的各种事 件:
)具备熔断管理机制,接口访问异常情况下的处理策略,保证服务整体可用。
网关服务应用场景描述如下: a 数据源向大数据平台提供接口信息,包括:接口访问地址、输入参数、输出参数、验证方式等 接口信息; 大数据平台根据数据源提供的数据接口进行定义及编排; C 网关服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度: 门 网关服务运行数据传输任务,从数据源的数据接口中抽取数据到大数据平台数据仓库中
网关服务应用场景见图4
网关服务应用要求包括: a)网关服务适用于提供接口类数据的数据源,详细说明见附录B; b)提供数据接口的数据源需做好自身数据操作接口程序的开发。
6. 4. 1 功能要求
图4网关服务应用场景
6. 4. 2应用场景
应用场景描述如下: a)管理信息系统应向大数据平台申请消息队列接入服务; b)大数据平台根据申请创建消息队列主题,返回消息队列名称; c)管理信息系统开发业务处理程序,调用平台消息队列接口,发送数据或接收数据。
6.4. 3应用场景图
横圳水利枢纽工程溢洪闸工程施工组织设计方案消息队列应用场景见图5
图5消息队列应用场景
应用要求如下: a) 消息队列采集适用于管理信息系统主动将数据封装为消息,发送到大数据平台的消息队列中。 基于消息队列的消息缓存进行数据分析,详细说明见附录C; b) 发送的消息内容格式支持字符串,发送的数据对象可通过对象序列化机制转换为字符串格式的 消息内容:
管理信息系统应依照大数据平台提供的消息队列采集接口完成自身数据发送或接收接口的开 发。
管理信息系统应依照大数据平台提供的消息队列采集接口完成自身数据发送或接收接口的开 发。
6.5文件接收FTP服务
6. 5. 1 功能要求
到大数据平台数据仓库的功能。文件采集 应具备以下主要功能: a) 支持标准FTP协议接收数据; b 支持顺序型断点续传功能; C 支持接收的文件的重命名及指定存储目录; d) 应支持对接收文件的完整性校验; e) 应支持对客户端进行认证; f) 支持图形管理功能GTCC-007-2014 机车前照灯-铁路产品质量监督抽查检验实施细则,支持认证配置、文件目标位置配置、校验处理配置