《CESA-2023 075面向异构计算的数据质量要求团体标准(征求意见稿).docx》由会员分享,可在线阅读,更多相关《CESA-2023 075面向异构计算的数据质量要求团体标准(征求意见稿).docx(9页珍藏版)》请在第一文库网上搜索。
1、ICS35.240CCS170团体标准T/CESAXXXX-202X面向异构计算的数据质量要求Dataqua1ityrequirementsforheterogeneouscomputing(征求意见稿)在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请号和申请日期。202X-XX-XX发布202X-XX-XX实施中国电子工业标准化技术协会版权保护文件版权所有归属于该标准的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得以其他形
2、式或任何手段进行更制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。使用许可可于发布机构获取。目次前言I111范围12规范性引用文件13术语和定义14数据质量概述35输入数据质量要求31.1 1准确性要求31.2 完整性要求41.3 一致性要求41.4 可访问性要求41.5 隐私性要求45.6安全性要求45.7可溯源性要求56输出数据质量要求56.1 准确性要求56.2 完整性要求56.3 可访问性要求56.4 隐私性要求56.5 5安全性要求56.6 可溯源性要求5本文件按照GB/T112023标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件由南京大学提出。
3、本文件由中国电子工业标准化技术协会开放计算工作委员会归口。本文件起草单位:本文件主要起草人:面向异构计算的数据质量要求1范围本文件规定了针对异构智能计算训练场景的数据质量的要求,包含智能计算训练过程的输入数据质量要求和输出数据质量要求。本文件适用于异构智能计算训练场景中的数据准备和数据评估。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T35273信息安全技术个人信息安全规范GB/T41867-2023信息技术人工智能术语3术语和定义下
4、列术语和定义适用于本文件。异构计算heterogeneouscomputing一种计算方式,它使用可由具有不同类型指令集和体系架构的计算单元组成的独立的或分布式系统进行计算。注:常见的计算单元类别包括CPU、GPU、NPU.DSP等处理器以及ASIC、FpGA等芯片。深度学习deep1earning通过训练具有许多隐层的神经网络来创建丰富层次表示的方法。注,深度学习是机器学习的一个子集来源:GB/T41867-2023,3.2.27异构智能计算heterogeneousinteIIigentcomputing一种面向深度学习任务的异构计算范式,涉及到在不同类型指令集和体系架构的计算单元上进行深
5、度学习相关的计算任务。原始数据rawdata为训练所使用和存储的未经处理的数据。注:原始数据可以包括多种形式,例如视频数据、图像数据、音频数据和文本数据以及它们的组合。标签Iabe1对于原始数据的一个或多个特性的具体描述,以指定模型的上下文,从而允许训练得到的模型做出准确的预测。结构化数据structureddata行数据,可以用二维表结构来逻辑表达实现的数据。非结构化数据unstructureddata不方便用数据库二维逻辑表来表现的数据。注:常见的非结构化数据包括文本、语音、图片、图像等。输入数据inputdata指用于智能计算的训练过程的输入数据,通常为对于多源异构数据经过处理后的数据集
6、。3.9输出数据outputdata指经过智能计算的训练过程得到的模型。3.10数据集dataset对原始数据进行统一预处理的数据集合,每项数据可能还包括其对应的标签。3.11模型modeI经过训练后得到的神经网络数据,它包括网络结构和权重参数,能够对于预期任务进行预测。3.12攻击者attacker试图损害、破坏深度学习的训练过程或未经授权访问、篡改训练模型的个人或组织。3. 13脏标签投毒攻击dirty1abe1poisonattack一种攻击方式,攻击者通过恶意篡改数据的标签并与干净的数据混为一体进行训练来达到攻击的目的。干净标签投毒攻击cIean1abe1poisonattack一种攻
7、击方式,攻击者通过精心设计恶意数据并添加到训练数据中来达到攻击的目的。数据后门投毒攻击databackdoorpoisonattack一种攻击方式,攻击者修改原始训练数据集的单个特征或小区域,然后将其作为后门嵌入模型中来达到攻击目的。3.16对抗样本攻击adversariaIexampIeattack一种攻击方式,攻击者在原始样本中添加肉眼不可见或在经处理不影响整体的肉眼可见的细微扰动,致使训练好的模型以高置信度给出与原样本不同的分类输出。4数据质量概述多源异构智能计算场景下,训练过程的数据主要分为输入数据和输出数据。数据质量应符合表1要求。表1面向异构计算的数据质量要求数据阶段质量要求输入数
8、据1)准确性要求2)完整性要求3)一致性要求4)可访问性要求5)隐私性要求6)安全性要求7)可溯源性要求输出数据D准确性要求2)完整性要求3)可访问性要求4)隐私性要求5)安全性要求6)可溯源性要求5输入数据质量要求5.1准确性要求输入数据的准确性符合以下要求:a)对于描述客观真实世界或信息的场景,数据应是来自真实世界的异构数据或基于真实世界的异构数据采用数据增强等技术生成的异构数据;b)对于结构化数据,数据中的数据值应处于预期的区间内;c)对于非结构化数据,数据中存在的噪声不应对数据的分布产生偏移的影响;d)若每项数据存在对应的标签,标签的准确度应该大于99.9%;e)数据中应避免包含重复的
9、数据元素。5.2 完整性要求输入数据的完整性符合以下要求:a)对于结构化数据,针对具体训练任务需要的数据项应完整;b)针对具体训练任务,若每项数据存在标签,标签应完整。5.3 一致性要求输入数据的一致性符合以下要求:a)对于结构化数据,不同数据元素中相同数据项的数据格式应当一致;b)对于非结构化数据,同类数据中的数据格式应当一致。5.4 可访问性要求输入数据的可访问性符合以下要求:a)输入数据应当能够被预期用户所访问;b)输入数据应当能够被预期设备所访问。5.5 隐私性要求输入数据的隐私性符合以下要求:a)对于结构化数据,输入数据不应包含确切能推断出具体用户身份的内容,包括但不限于姓名、身份证
10、号、手机号、卡号、客户号信息等;b)对于非结构化数据,对于具体训练任务和法律法规明确要求进行保护的内容,输入数据不应直接包含这些内容,应采用包括但不限于加密、数据脱敏等隐私技术对于这些内容进行保护;c)对于模态异构的数据,不应包含可通过不同模态间数据组合的方式推断出具体用户身份的内容或其它对于具体训练任务明确要求进行保护的内容。5.6 安全性要求输入数据的安全性符合以下要求:a)输入数据的使用过程应确保合规,即对于异构数据的采集、使用和传输应符合相关法律法规的要求,涉及个人信息应遵守GB/T35273的要求;b)应根据安全策略,采取口令、权限管理等技术措施,对输入数据进行安全保护;c)输入数据
11、的内容应确保合规,即异构数据中不应包含非法、恶意的数据内容;d)对于独立同分布的输入数据,数据之间不应出现特征分布偏移的情况;e)对于非独立同分布的输入数据,当数据之间存在特征分布的偏移时,不同的特征分布均应符合真实情况,不应出现伪造的数据特征分布;f)对于非独立同分布的输入数据,当数据之间存在标签分布的偏移时,不同的标签分布均应符合真实情况,不应出现伪造的数据标签分布;g)对于非独立同分布的输入数据,当数据中出现标签相同特征不同的数据时,不同的特征均应符合真实情况,不应出现伪造的数据特征;h)对于非独立同分布的输入数据,当数据中出现特征相同标签不同的数据时,不同的标签均应当符合真实情况,不应
12、出现伪造的数据标签;i)应对输入数据进行质量检测和过滤,防止数据投毒攻击,包括脏标签投毒攻击、干净标签投寿攻击、数据后门投毒攻击等。5.7 可溯源性要求输入数据的可溯源性符合以下要求:a)异构数据的来源应当明确,以支持根据数据追溯到该数据对应的数据提供方;b)如异构数据中包含数据标签,数据标签的来源应当明确,以支持根据数据标签追溯到对应的标签标定方。6输出数据质量要求6.1 准确性要求输出数据的准确率应当达到任务的预期精度,任务的预期准确率由具体场景和任务而定。6.2 完整性要求应采取加密存储、访问控制等措施,保护输出数据的模型的结构和参数不被攻击者非法篡改。6.3 可访问性要求输出数据的可访
13、问符合以下要求:a)输出数据应当能够被预期用户所访问;b)输出数据应当能够被预期设备所访问。6.4 隐私性要求输出数据的隐私符合以下要求:a)应采取技术措施,确保攻击者无法通过输出数据对于具有较少样本标签的数据进行推断;b)应采取技术措施,确保攻击者无法通过输出数据推理出某个样本是否参与了训练过程;c)应采取技术措施,确保攻击者无法通过输出数据恢复出原始的训练数据。6.5 安全性要求输出数据的安全性符合以下要求:a)输出数据不应包含在训练过程中被攻击后恶意植入的模型后门;b)输出数据不应在训练过程中被进行数据投毒攻击,包括脏标签投毒攻击、干净标签投毒攻击、数据后门投毒攻击等;c)输出数据应能够防御攻击,如对抗样本攻击等;d)应采取口令、访问管理等安全防护措施,不允许未经过授权的用户获取或访问输出数据。6.6 可溯源性要求输出数据的可溯源性符合以下要求:a)输出数据的所属权应当被明确并且可以被验证;b)输出数据能够追溯到参与其训练的参与方。