GB_T 41462-2022标准规范下载简介

GB_T 41462-2022 基于文本数据的金融风险防控要求.pdf

GB/T41462—2022

Requirements for financial risks control based on text data

DB37／T 3246-2018 楸树采穗圃建设技术规程国家市场监督管理总局发布国家标准化管理委员会

范围规范性引用文件术语和定义缩略语整体框架文本数据要求预处理信息抽取 8.1 概述 8.2 信息抽取整体框架 8.3 抽取内容及特征分析 8.4 抽取方法数据表示 9.1 总体要求 9.2 数据表示评估 9.3 基于RDFS结构化表示分析预警 10.1 数据清洗 10.2 建模方法 10.3 分析方法用户交互 2 系统评估 12.1 原则 12.2 类别 12.3 评估方法 12.4 评估指标 3 安全防护 13.1 安全技术要求 13.2 安全管理要求 6 软硬件要求 14.1 硬件基本要求 14.2软件基本要求

GB/T 414622022

附录A（规范性）附录B（资料性） RDFS结构化描述附录C（规范性） RDFS表示具体技术流程 2

GB/T414622022

本文件按照GB/T1.1一2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。本文件由中国人民银行提出。本文件由全国金融标准化技术委员会（SAC/TC180）归口。本文件起草单位：中国标准化研究院、中国银行业协会、北京理工大学、中国工商银行股份有限公同、中国农业银行股份有限公司、中国建设银行股份有限公司、中国工商银行股份有限公司深圳分行、华南师范大学、北京工业大学、中国科学院计算技术研究所、中国科学技术信息研究所、北京大学、上海对外经贸大学、中国金融电子化公司、中国人民银行太原中心支行、北京海致星图科技有限公司、聊城大学、江苏科技大学、广东外语外贸大学、北京师范大学、中版集团数字传媒有限公司、北京市科学技术情报研究所。本文件主要起草人：曹馨宇、王海涛、刘涌、赵小林、郝天永、刘磊、王石、李宽、张漪、邢宸睿、刘耀陈玉忠、曹存根、贾世军、穗志芳、刘亮亮、贾仰理、刘嘎琼、丁若尧、杨娟、聂大昕、严可、贺莉丽、李琪薄舜添、邓琳莹、陈文俊、徐浩、陈全保、李辉、邬大港

于文本数据的金融风险防控要求

本文件规定了基于文本数据金融风险防控的整体框架、文本数据要求、预处理、信息抽取、数据表示、分析预警、用户交互、系统评估、安全防护、软硬件要求。本文件适用于金融相关的文本数据处理及金融信息的挖掘、抽取与分析

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB/T4754—2017国民经济行业分类 GB/T20269一2006信息安全技术信息系统安全管理要求 GB/T2027120061 信息安全技术信息系统通用安全技术要求 GB/T32319—2015 银行业产品说明书描述规范 ISO21586：2020 金融服务的参考数据银行产品服务说明描述规范LReferencedatafor financial servicesSpecification forthe description of banking products or services (BPoS)

下列术语和定义适用于本文件。 3.1 学习 learning 一个生物学系统或自动系统获得知识或技能的过程，使它可用于改进其性能。［来源:GB/T5271.31—2006,31.01.01] 3.2 概念 concept 为确定类别成员的抽象实体。注：概念用于客体分类。 [来源：:GB/T5271.31—2006,31.01.06 3.3 语义 semantics 词或词组与它们的含义之间的关系。 [来源:GB/T12200.1—1990,4.1.2.12］ 3.4 文本 text 文本数据 textdata 以字符、符号、字、短语、段落、句子、表格或者其他字符排列形式出现的数据，旨在表达一个意义，其

属性property 个体之间的二元关系。

关源GB/T37965—2019，3.14，有修改

GB/T414622022

下列缩略语适用于本文件。 HTML：超文本标记语言（HyperTextMarkupLanguage） RDF：资源描述框架（ResourceDescriptionFramework） RDFS：资源描述框架模式（ResourceDescriptionFrameworkSchema） SVM：支持向量机（SupportVectorMachines） XML：可扩展标记语言（eXtensibeMarkupLanguage）

a）文本数据的内容与其来源保持一致： b）文本数据规模宜达到一定量级；）文本数据内容能更新

信息抽取和风险分析预警前，宜对原始文本数据做以下处理。 a）净化网页内容：删除网页中与金融内容关联不大的部分，如导航栏、广告等 b）统一文本编码：采用通用的编码转换方法，将不同文本的编码转换为同一种编码。去除数据噪音：删除字符乱码、多余空格、特殊符号、结构性标签等噪音数据，如HTML网页标签等。 d）文本分词与词性标注：利用分词方法，将文本转换成离散的单词序列，并对单词的词性进行标注。目前，中文自动分词方法主要包括： 1 基于规则的方法； 2）基于统计的方法； 3）基于传统机器学习的方法； 4 基于深度学习的方法； 5）基于理解以及混合方法。示例：文本数据：A公司跨界转型"玩游戏”。根据企业的公告，本次重组标的公司的一季度业绩未达标，未实现重组报告中的业绩承诺。对此，公司咋日已经停牌。分词结果：A/ws公司/n跨界/v转型/v“/wp玩游戏/n”/wp。/wp根据/p企业/n的/u公告/n，/wp 本次/r重组/v标的/n公司/n的/u一季度/nt业绩/n未达标/v，/wp未/d实现/v重组/v报告/n中/nd的/u业绩/n 手诺/V。/Wj e）去除停用词：通过构建金融领域适用的停用词表，删除文本中出现频率高但对金融风险分析意义不大的词，如副词、虚词、语气词、介词、连词等示例：在d)示例文本数据中，“的"“根据”“中”均为停用词 f）统一表述形式：将不同表述形式的数据转换为同一种表述形式。示例1：中文数字、特殊数字符号等都转换为阿拉伯数字。示例2：繁体中文转换为简体中文。还原错别字与变种字：通过识别纠错、变种还原等方法，将文本中的错别字和变种字（拆字、火星文等)还原为正确的文字。识别纠错的方法主要包括基于模式和基于统计两种方法。变种还原的方法包括基手词表和基于模型两种方法

8.2信息抽取整体框架

信息抽取的整体框架如图2所示。

8.3抽取内容及特征分析

图2信息抽取框架示意

抽取内容在金融文本中的表达形式及规范化处理

时间、数量、人名、机构名等主要抽取内容在金融文本中有不同的表达形式，不同抽取内容的表达形式如下。 a）时间：金融文本中的时间信息通常由日期、时间词、时间介词短语、特殊名词来表达示例1：日期：2003年1月23日示例2：时间词：今年、春天。示例3：时间介词短语：自2003年以来。示例4：特殊名词：亚洲金融危机时。 b）数量：金融文本中，一条完整的数量信息包含4个组成部分：变量、比较运算符、数值或数值区间、计量单位示例：从金融文本“出口产品超过324.8亿美元”中可以识别出以下数量信息：“出口产品，超过，324.8亿，美元”，其中，“出口产品”是变量，“超过”是比较运算符."324.8亿”是数值，“美元”是计量单位。

基于模式匹配的方法应至少包括以下2个步骤：模式获取：针对不同信息抽取内容的语言描述形式和语言特征，以自动或人工的方式获取相应模式。模式获取包括知识工程和自动训练2种方法： 1）知识工程方法以特定领域知识为基础，针对信息抽取内容，通过人工方式总结归纳与之相符的语言特征，从而构建模式； 2）自动训练方法则利用机器学习从标注语料中自动获取模式。 b）模式匹配：从文本数据中抽取与模式相匹配的文本

8.4.2基于统计和机器学习的方法

本方法通过对文本数据进行人工标注或统计分析，获得分类特征，再结合机器学习模型构造分类器，对文本中的信息进行抽取。具体宜包含以下过程： a）数据标注：制定数据标签集合，从既定的标签集合中选择合适的标签对数据进行标注。数据标注采用人工、半自动或自动化的方式，通过使用统一的标注系统或利用现有的文本表格编辑工具完成。

示例：根据企业盈利能力比率、营运能力比率、短期偿款能力比率、长期偿款能力比率等数据特征，将给定企业的信风险标注为“高"或“低”。数据标注应符合以下原则： 1）标注结果的正确性原则； 2）标注结果的完备性原则； 3）标注符号的一致性原则； 4）标注符号的独立性原则； 5）标注符号的确定性原则 b 特征选择：针对特定的金融风险防控问题，从特征集合中选择对于目标问题求解最有效的特征，从而降低数据集维度，提高学习算法性能。入选特征宜满足以下要求： 1）特征数量尽可能少：用映射或变换的方法精简原始特征的数量： 2）特征具有代表性：从原始特征中挑选出一些最具代表性、最有影响力的特征； 3）特征最具分类信息：用数学的方法进行选取，找出最其分类信息的特征。示例：数学的方法包括特征频度、文本频度、信息增益法、X统计量检验法、互信息法、特征摘、特征权等，推荐算法：推荐采用深度神经网络、SVM、逻辑回归、决策树、K近邻、随机树、随机森林、朴系贝叶斯等统计和机器学习算法

8.4.3基于规则和统计相结合的方法

通过一定的技术流程将基于规则的方法和基于机器学习的方法进行结合

金融文本具有专业性，金融数据的表示要借助金融领域词典、金融风险库词典等领域专业词典，以达到数据表示结果专业并相对全面的效果

应完整的涵盖金融风险相关的关键因素，并尽可能多的包含其他各类相关因素，尽量完整地描述该金融风险相关因素。

针对不同金融风险因素的数据特点，通过对它们进行综合分析，采用合适的方法或技术进行格式 1，使得数据的表示具有可读性，便于专业或非专业人士理解，不会造成阅读困难或重大误解

数据的表示应具有高度的可用性，适配多样的数据处理技术与手段，简化数据使用的操作难度与

GB/T414622022

，采用一定的方法和程序，对表示的主体、客体和属性进行评测或验证。数据表示应符合的主要原则包括但不限于：应力求准确、全面、公正； b) 应充分考察其社会效益和经济效益： C) 应考虑其发展和应用前景： d 应认真考虑来源、语义要素的不同类型和基本特点： e) 应符合有关的国家标准、国际标准以及相关技术规则和规范的要求

利用层次分析法与专家评估相结合的方法，对数据内容的表示进行评价。通过专家评估法，定性的评估数据表示是否满足标准的总体要求。利用层次分析法，给出最终的数据表示评分，判断是否满足数据表示的要求

9.2.3具体评估内容

1#~4#塔式起重机装拆施工方案9.2.3.1指标选取

9.2.3.2权重确定

9.2.3.3指标值获取

图3数据表示评估指标体系图

GB/T414622022

9.2.3.4计算最终评分

利用各层指标的权重向量的组合得到一个由底层指标构成的全局权重向量W：（W，W2，W，），而各个指标值构成一个评分向量△=（，，02GB／T 24813-2018标准下载，,）"，按公式（1)得到数据表示对要求满足的最终评分：

最终评分为0～1之间的数，1为完全满足，0为完全不满足。若最终评分小于0.6，则视为不符风险防控的数据表示要求

9.3基于RDFS结构化表示

铁路运输标准外经贸标准 WH文化标准体育标准民用航空标准广播电影标准旅游标准有色冶金标准汽车标准交通标准稀土标准

资源来自互联网，如有侵权请联系删除

GB_T 41462-2022 基于文本数据的金融风险防控要求.pdf

GB_T 41462-2022标准规范下载简介

1 TSG 21-2016 固定式压力容器安全技术监察规程

2 NB/T 47013.5-2015 承压设备无损检测第5部分：渗透检测

3 NB/T 47013.2-2015 承压设备无损检测第2部分：射线检测

4 NB/T 47013.1-2015 承压设备无损检测第1部分：通用要求

5 NB/T 47013.3-2015 承压设备无损检测第3部分：超声检测

6 TSG T5002-2017 电梯维护保养规则质监局网站发布仅供参考

7 NB/T 10096-2018 电力建设工程施工安全管理导则

8 NB/T 47044-2014 电站阀门

9 NB/T 33008.1-2013 电动汽车充电设备检验试验规范第1部分非车载充电机

10 NB/T 10394-2020 光伏发电系统效能规范

11 NB/T 32043-2018 光伏发电工程可行性研究报告编制规程

12 AQ/T 9009-2015 生产安全事故应急演练评估规范

13 NB/T 47013.10-2015 承压设备无损检测第10部分：衍射时差法超声检测

14 NB/T 47049-2016 管式空气预热器制造技术条件

15 TSG Z7005-2015 特种设备无损检测机构核准规则

16 NB/T 33001-2018 电动汽车非车载传导式充电机技术条件

1 JB/T 2474-1999 液压螺旋压力机基本参数

2 NY/T 215-1992 饲料用胡麻籽粕

3 GB/T 20213-2006 爆竹用膨胀珍珠岩粉

4 DB34T 809-2008 有机何首乌种植技术规程

5 HB 7145.5-1995 大型系列组合夹具定位件过渡定位销

6 QC/T 445-1999 微型货车整车越凸块试验方法

7 HAD 003-01 核电厂质量保证大纲的制定(1988)

8 NY/T 2361-2013 蔬菜夜蛾类害虫抗药性监测技术规程

9 沥青集料及沥青混合料试验—湖南交通科学研究院.pdf

10 施工工艺1【水利投标施工工艺大全】

11 游泳场馆暖通空调设计与安装（2020年版 20K521）

12 奥宸_财富广场2#地块基坑支护工程施工方案

13 通用桥式起重机安装施工组织设计方案

14 研发用房建设项目回填土施工方案

15 商业住宅楼综合工程大体积混凝土施工方案

GB_T 41462-2022 基于文本数据的金融风险防控要求.pdf

GB_T 41462-2022标准规范下载简介

1 TSG 21-2016 固定式压力容器安全技术监察规程

2 NB/T 47013.5-2015 承压设备无损检测 第5部分：渗透检测

3 NB/T 47013.2-2015 承压设备无损检测 第2部分：射线检测

4 NB/T 47013.1-2015 承压设备无损检测 第1部分：通用要求

5 NB/T 47013.3-2015 承压设备无损检测 第3部分：超声检测

6 TSG T5002-2017 电梯维护保养规则 质监局网站发布 仅供参考

7 NB/T 10096-2018 电力建设工程施工安全管理导则

8 NB/T 47044-2014 电站阀门

9 NB/T 33008.1-2013 电动汽车充电设备检验试验规范 第1部分非车载充电机

10 NB/T 10394-2020 光伏发电系统效能规范

11 NB/T 32043-2018 光伏发电工程可行性研究报告编制规程

12 AQ/T 9009-2015 生产安全事故应急演练评估规范

13 NB/T 47013.10-2015 承压设备无损检测 第10部分：衍射时差法超声检测

14 NB/T 47049-2016 管式空气预热器制造技术条件

15 TSG Z7005-2015 特种设备无损检测机构核准规则

16 NB/T 33001-2018 电动汽车非车载传导式充电机技术条件

1 JB/T 2474-1999 液压螺旋压力机 基本参数

2 NY/T 215-1992 饲料用胡麻籽粕

3 GB/T 20213-2006 爆竹用膨胀珍珠岩粉

4 DB34T 809-2008 有机何首乌种植技术规程

5 HB 7145.5-1995 大型系列组合夹具定位件 过渡定位销

6 QC/T 445-1999 微型货车整车越凸块试验方法

7 HAD 003-01 核电厂质量保证大纲的制定(1988)

8 NY/T 2361-2013 蔬菜夜蛾类害虫抗药性监测技术规程

9 沥青集料及沥青混合料试验—湖南交通科学研究院.pdf

10 施工工艺1【水利投标施工工艺大全】

11 游泳场馆暖通空调设计与安装（2020年版 20K521）

12 奥宸_财富广场2#地块基坑支护工程施工方案

13 通用桥式起重机安装施工组织设计方案

14 研发用房建设项目回填土施工方案

15 商业住宅楼综合工程大体积混凝土施工方案

2 NB/T 47013.5-2015 承压设备无损检测第5部分：渗透检测

3 NB/T 47013.2-2015 承压设备无损检测第2部分：射线检测

4 NB/T 47013.1-2015 承压设备无损检测第1部分：通用要求

5 NB/T 47013.3-2015 承压设备无损检测第3部分：超声检测

6 TSG T5002-2017 电梯维护保养规则质监局网站发布仅供参考

9 NB/T 33008.1-2013 电动汽车充电设备检验试验规范第1部分非车载充电机

13 NB/T 47013.10-2015 承压设备无损检测第10部分：衍射时差法超声检测

1 JB/T 2474-1999 液压螺旋压力机基本参数

5 HB 7145.5-1995 大型系列组合夹具定位件过渡定位销