GB_T 41462-2022标准规范下载简介
GB_T 41462-2022 基于文本数据的金融风险防控要求.pdfGB/T41462—2022
Requirements for financial risks control based on text data
DB37/T 3246-2018 楸树采穗圃建设技术规程国家市场监督管理总局 发布 国家标准化管理委员会
范围 规范性引用文件 术语和定义 缩略语 整体框架 文本数据要求 预处理 信息抽取 8.1 概述 8.2 信息抽取整体框架 8.3 抽取内容及特征分析 8.4 抽取方法 数据表示 9.1 总体要求 9.2 数据表示评估 9.3 基于RDFS结构化表示 分析预警 10.1 数据清洗 10.2 建模方法 10.3 分析方法 用户交互 2 系统评估 12.1 原则 12.2 类别 12.3 评估方法 12.4 评估指标 3 安全防护 13.1 安全技术要求 13.2 安全管理要求 6 软硬件要求 14.1 硬件基本要求 14.2软件基本要求
GB/T 414622022
附录A(规范性) 附录B(资料性) RDFS结构化描述 附录C(规范性) RDFS表示具体技术流程 2
GB/T414622022
本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件由中国人民银行提出。 本文件由全国金融标准化技术委员会(SAC/TC180)归口。 本文件起草单位:中国标准化研究院、中国银行业协会、北京理工大学、中国工商银行股份有限公 同、中国农业银行股份有限公司、中国建设银行股份有限公司、中国工商银行股份有限公司深圳分行、华 南师范大学、北京工业大学、中国科学院计算技术研究所、中国科学技术信息研究所、北京大学、上海对 外经贸大学、中国金融电子化公司、中国人民银行太原中心支行、北京海致星图科技有限公司、聊城大 学、江苏科技大学、广东外语外贸大学、北京师范大学、中版集团数字传媒有限公司、北京市科学技术情 报研究所。 本文件主要起草人:曹馨宇、王海涛、刘涌、赵小林、郝天永、刘磊、王石、李宽、张漪、邢宸睿、刘耀 陈玉忠、曹存根、贾世军、穗志芳、刘亮亮、贾仰理、刘嘎琼、丁若尧、杨娟、聂大昕、严可、贺莉丽、李琪 薄舜添、邓琳莹、陈文俊、徐浩、陈全保、李辉、邬大港
于文本数据的金融风险防控要求
本文件规定了基于文本数据金融风险防控的整体框架、文本数据要求、预处理、信息抽取、数据表 示、分析预警、用户交互、系统评估、安全防护、软硬件要求。 本文件适用于金融相关的文本数据处理及金融信息的挖掘、抽取与分析
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件。 GB/T4754—2017国民经济行业分类 GB/T20269一2006信息安全技术信息系统安全管理要求 GB/T2027120061 信息安全技术信息系统通用安全技术要求 GB/T32319—2015 银行业产品说明书描述规范 ISO21586:2020 金融服务的参考数据银行产品服务说明描述规范LReferencedatafor financial servicesSpecification forthe description of banking products or services (BPoS)
下列术语和定义适用于本文件。 3.1 学习 learning 一个生物学系统或自动系统获得知识或技能的过程,使它可用于改进其性能。 [来源:GB/T5271.31—2006,31.01.01] 3.2 概念 concept 为确定类别成员的抽象实体。 注:概念用于客体分类。 [来源::GB/T5271.31—2006,31.01.06 3.3 语义 semantics 词或词组与它们的含义之间的关系。 [来源:GB/T12200.1—1990,4.1.2.12] 3.4 文本 text 文本数据 textdata 以字符、符号、字、短语、段落、句子、表格或者其他字符排列形式出现的数据,旨在表达一个意义,其
属性property 个体之间的二元关系。
关源GB/T37965—2019,3.14,有修改
GB/T414622022
下列缩略语适用于本文件。 HTML:超文本标记语言(HyperTextMarkupLanguage) RDF:资源描述框架(ResourceDescriptionFramework) RDFS:资源描述框架模式(ResourceDescriptionFrameworkSchema) SVM:支持向量机(SupportVectorMachines) XML:可扩展标记语言(eXtensibeMarkupLanguage)
a)文本数据的内容与其来源保持一致: b)文本数据规模宜达到一定量级; )文本数据内容能更新
信息抽取和风险分析预警前,宜对原始文本数据做以下处理。 a)净化网页内容:删除网页中与金融内容关联不大的部分,如导航栏、广告等 b) 统一文本编码:采用通用的编码转换方法,将不同文本的编码转换为同一种编码。 去除数据噪音:删除字符乱码、多余空格、特殊符号、结构性标签等噪音数据,如HTML网页 标签等。 d)文本分词与词性标注:利用分词方法,将文本转换成离散的单词序列,并对单词的词性进行标 注。目前,中文自动分词方法主要包括: 1 基于规则的方法; 2) 基于统计的方法; 3) 基于传统机器学习的方法; 4 基于深度学习的方法; 5) 基于理解以及混合方法。 示例:文本数据:A公司跨界转型"玩游戏”。根据企业的公告,本次重组标的公司的一季度业绩未达标,未实现重 组报告中的业绩承诺。对此,公司咋日已经停牌。 分词结果:A/ws公司/n跨界/v转型/v“/wp玩游戏/n”/wp。/wp根据/p企业/n的/u公告/n,/wp 本次/r重组/v标的/n公司/n的/u一季度/nt业绩/n未达标/v,/wp未/d实现/v重组/v报告/n中/nd的/u业绩/n 手诺/V。/Wj e)去除停用词:通过构建金融领域适用的停用词表,删除文本中出现频率高但对金融风险分析意 义不大的词,如副词、虚词、语气词、介词、连词等 示例:在d)示例文本数据中,“的"“根据”“中”均为停用词 f)统一表述形式:将不同表述形式的数据转换为同一种表述形式。 示例1:中文数字、特殊数字符号等都转换为阿拉伯数字。 示例2:繁体中文转换为简体中文。 还原错别字与变种字:通过识别纠错、变种还原等方法,将文本中的错别字和变种字(拆字、火 星文等)还原为正确的文字。识别纠错的方法主要包括基于模式和基于统计两种方法。变种 还原的方法包括基手词表和基于模型两种方法
8.2信息抽取整体框架
信息抽取的整体框架如图2所示。
8.3抽取内容及特征分析
图2信息抽取框架示意
抽取内容在金融文本中的表达形式及规范化处理
时间、数量、人名、机构名等主要抽取内容在金融文本中有不同的表达形式,不同抽取内容的表达形 式如下。 a)时间:金融文本中的时间信息通常由日期、时间词、时间介词短语、特殊名词来表达 示例1:日期:2003年1月23日 示例2:时间词:今年、春天。 示例3:时间介词短语:自2003年以来。 示例4:特殊名词:亚洲金融危机时。 b)数量:金融文本中,一条完整的数量信息包含4个组成部分:变量、比较运算符、数值或数值区 间、计量单位 示例:从金融文本“出口产品超过324.8亿美元”中可以识别出以下数量信息:“出口产品,超过,324.8亿,美元”,其 中,“出口产品”是变量,“超过”是比较运算符."324.8亿”是数值,“美元”是计量单位。
基于模式匹配的方法应至少包括以下2个步骤: 模式获取:针对不同信息抽取内容的语言描述形式和语言特征,以自动或人工的方式获取相应 模式。模式获取包括知识工程和自动训练2种方法: 1)知识工程方法以特定领域知识为基础,针对信息抽取内容,通过人工方式总结归纳与之相 符的语言特征,从而构建模式; 2)自动训练方法则利用机器学习从标注语料中自动获取模式。 b)模式匹配:从文本数据中抽取与模式相匹配的文本
8.4.2基于统计和机器学习的方法
本方法通过对文本数据进行人工标注或统计分析,获得分类特征,再结合机器学习模型构造分类 器,对文本中的信息进行抽取。具体宜包含以下过程: a)数据标注:制定数据标签集合,从既定的标签集合中选择合适的标签对数据进行标注。数据标 注采用人工、半自动或自动化的方式,通过使用统一的标注系统或利用现有的文本表格编辑工 具完成。
示例:根据企业盈利能力比率、营运能力比率、短期偿款能力比率、长期偿款能力比率等数据特征,将给定企业的信 风险标注为“高"或“低”。 数据标注应符合以下原则: 1)标注结果的正确性原则; 2)标注结果的完备性原则; 3) 标注符号的一致性原则; 4) 标注符号的独立性原则; 5)标注符号的确定性原则 b 特征选择:针对特定的金融风险防控问题,从特征集合中选择对于目标问题求解最有效的特 征,从而降低数据集维度,提高学习算法性能。入选特征宜满足以下要求: 1)特征数量尽可能少:用映射或变换的方法精简原始特征的数量: 2)特征具有代表性:从原始特征中挑选出一些最具代表性、最有影响力的特征; 3)特征最具分类信息:用数学的方法进行选取,找出最其分类信息的特征。 示例:数学的方法包括特征频度、文本频度、信息增益法、X统计量检验法、互信息法、特征摘、特征权等, 推荐算法:推荐采用深度神经网络、SVM、逻辑回归、决策树、K近邻、随机树、随机森林、朴系 贝叶斯等统计和机器学习算法
8.4.3基于规则和统计相结合的方法
通过一定的技术流程将基于规则的方法和基于机器学习的方法进行结合
金融文本具有专业性,金融数据的表示要借助金融领域词典、金融风险库词典等领域专业词典,以 达到数据表示结果专业并相对全面的效果
应完整的涵盖金融风险相关的关键因素,并尽可能多的包含其他各类相关因素,尽量完整地描述该 金融风险相关因素。
针对不同金融风险因素的数据特点,通过对它们进行综合分析,采用合适的方法或技术进行格式 1,使得数据的表示具有可读性,便于专业或非专业人士理解,不会造成阅读困难或重大误解
数据的表示应具有高度的可用性,适配多样的数据处理技术与手段,简化数据使用的操作难度与
GB/T414622022
,采用一定的方法和程序,对表示的主体、客体和属性 进行评测或验证。数据表示应符合的主要原则包括但不限于: 应力求准确、全面、公正; b) 应充分考察其社会效益和经济效益: C) 应考虑其发展和应用前景: d 应认真考虑来源、语义要素的不同类型和基本特点: e) 应符合有关的国家标准、国际标准以及相关技术规则和规范的要求
利用层次分析法与专家评估相结合的方法,对数据内容的表示进行评价。通过专家评估法,定性的 评估数据表示是否满足标准的总体要求。利用层次分析法,给出最终的数据表示评分,判断是否满足数 据表示的要求
9.2.3具体评估内容
1#~4#塔式起重机装拆施工方案9.2.3.1指标选取
9.2.3.2权重确定
9.2.3.3指标值获取
图3数据表示评估指标体系图
GB/T414622022
9.2.3.4计算最终评分
利用各层指标的权重向量的组合得到一个由底层指标构成的全局权重向量W: (W,W2,W,),而各个指标值构成一个评分向量△=(,,02GB/T 24813-2018标准下载,,)",按公式(1)得到数据表示对要 求满足的最终评分:
最终评分为0~1之间的数,1为完全满足,0为完全不满足。若最终评分小于0.6,则视为不符 风险防控的数据表示要求
9.3基于RDFS结构化表示