《CESA-2023 074面向异构计算的协同学习系统技术要求团体标准(征求意见稿).docx》由会员分享,可在线阅读,更多相关《CESA-2023 074面向异构计算的协同学习系统技术要求团体标准(征求意见稿).docx(10页珍藏版)》请在第一文库网上搜索。
1、ICS35.240CCS170团体标准T/CESAXXXX-202X面向异构计算的协同学习系统技术要求Technica1requirementsforco11aborative1earningsystemforheterogeneouscomputing征求意见稿在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请号和申请日期。202X-XX-XX发布202X-XX-XX实施中国电子工业标准化技术协会版权保护文件版权所有归属于该标准的发布机构
2、,除非有其他规定,否则未经许可,此发行物及其章节不得以其他形式或任何手段进行更制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。使用许可可于发布机构获取。目次前言I111范围12规范性引用文件13术语和定义14系统参考架构24.1 逻辑角色24.2 参与节点24.3 中心节点24.4 参考架构25系统技术要求35.1概述35.2 功能要求45.3 兼容性要求45.4 可信要求55.5 数据隐私保护要求6本文件按照GB/T112023标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件由南京大学提出。本文件由中国电子工业标准化技术协会开放计算工作委员会归口。本文件起
3、草单位:本文件主要起草人:面向异构计算的协同学习系统技术要求1范围本文件规定了异构智能计算场景下的协同学习系统在开发和部署所需要的相关技术能力要求,包括功能要求、兼容性要求、可信要求和数据隐私保护要求。本文件适用于异构智能计算场景下,协同学习系统的研发和应用。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T41867-2023信息技术人工智能术语3术语和定义下列术语和定义适用于本文件。异构计算heterogeneouscomputing
4、一种计算方式,它使用可由具有不同类型指令集和体系架构的计算单元组成的独立的或分布式系统进行计算。注,常见的计算单元类别包括CPU、GPU、NPU.DSP等处理器以及ASIC、FPGA等芯片。深度学习deep1earning通过训练具有许多隐层的神经网络来创建丰富层次表示的方法。注:深度学习是机器学习的一个子集。来源:GB/T41867-2023,3.2.27异构智能计算heterogeneousinteIIigentcomputing一种面向深度学习任务的异构计算范式,涉及到在不同类型指令集和体系架构的计算单元上进行深度学习相关的计算任务。协同学习co1Iaborative1earning由多
5、个计算节点共同参与,为了完成某个深度学习训练任务进行联合训练的范式。隐私保护PriVaCypreserving对原始数据的全部或者部分对象进行保护的一类算法,使得算法处理后的结果无法宜接观测到被保护的对象信息。安全审计secureauditing对于协同学习系统的正常运行和异常分析需要具有的安全能力。数据投毒攻击datapoisoningattack一种攻击方式,攻击者通过对深度学习训练数据的修改或者引入新数据来影响训练过程,从而达到恶意篡改模型训练结果的目标。模型投毒攻击mode1poisoningattack一种攻击方式,攻击者通过对本地训练模型结果的参数修改来操纵全局模型训练过程,从而达
6、到恶意篡改模型训练结果的目标。搭便车攻击free-ridingattack一种攻击方式,攻击者假装参与协同学习训练过程,实际上并不消耗或只消耗部分的本地数据和计算资源。通过向服务器发送随机更新或与聚合模型相似的更新,伪装成参与协同学习训练的正常用户,以获得相应利益。3.10女巫攻击sybiIattack一种攻击方式,单个攻击者通过多个合谋的身份加入协同学习系统,从而巧妙地分配攻击,以增强隐蔽性和攻击效果,通常用于数据投毒攻击。4系统参考架构4.1 逻辑角色协同学习系统主要包括参与节点和中心节点两种逻辑角色。4.2 参与节点-组以分布式方式参与协同学习的不必同属于同一参与者的异构设备,能够执行深
7、度学习训练任务,拥有各自的训练数据且不要求不同参与节点间的数据符合独立同分布假设。它们的目标是在各自数据不离开本地设备的前提下,一起协作完成深度学习模型的训练任务。4.3 中心节点一个或多个计算节点,能够直接连接每个参与节点组成星状分布式网络。它的目标是不必被参与节点完全信任的前提下组织、协助和保障各个参与节点完成协同学习任务,并应对可能存在的非正常状况,如异常参与节点或者网络连接。4.4 参考架构在面向异构计算的协同学习架构中,主要包括参与节点和中心节点。参与节点和中心节点彼此交互,经过多轮训练来完成协同学习的训练任务。在每一轮训练开始时,中心节点负责从所有参与节点中选择(部分)参与节点来参
8、与本轮训练,并将当前的全局参数分发给这些参与节点。这些参与节点基于接收到的全局参数,分别在本地的数据上进行本地训练,得到训练后的本地参数。随后,这些参与节点将本轮训练得到的本地参数提供给中心节点,中心节点通过同步或者异步的方式来聚合来自不同参与节点的本地参数,得到下一轮的全局参数并开始下一轮训练。在每一轮训练中,参与节点的本地训练和中心节点的聚合过程都有日志记录。系统参考架构见图1。图1面向异构计算的协同学习系统参考架构5系统技术要求1.1 概述异构智能计算场景下的协同学习系统的主要能力是协调多个可能的异构计算设备完成一个共同的深度学习训练任务,并保障训练过程中的数据隐私和模型安全。本文件主要
9、从功能要求、兼容性要求、可信要求和数据隐私保护要求对相关系统提出技术要求,见表1。表1面向异构计算的协同学习系统技术要求指标技术要求具体要求功能要求数据处理参与节点选择容错机制通信方式通信压缩日志记录兼容性要求异构数据兼容异构模型兼容异构计算平台兼容任务异构调度兼容可信要求训练可信聚合可信安全审计数据隐私保护要求通信数据保护本地数据隐私保护中心聚合隐私保护1.2 功能要求5. 2.1数据处理系统应具备对参与节点的本地数据的深度学习训练的数据预处理能力。6. 2.2参与节点选择系统对于参加训练的节点选择符合以下要求:a)应具备从众多参与节点中随机选择部分参与节点来参与每轮训练的能力;b)应具备基
10、于计算任务类型、计算数据量大小选择合适的参与节点参与训练的能力;c)应具备基于计算任务需求,包括安全性、时延、成本等多个因素选择合适的参与节点参与训练的能力;d)宜具备根据各个参与节点的训练表现来选择节点参与训练的能力;e)宜具备基于各个参与节点的贡献来评估节点数据价值的能力。注,参与节点的训练表现包括但不限于训练时间、模型精度、网络开销等。参与节点贡献评估可以分为:通过数据质量评估和通过数据数量评估。7. 2.3容错机制系统对于参与节点的异常情况,容错机制符合以下要求:a)应具备容忍部分参与节点出现异常情况的能力,即参与节点发生异常时不会造成系统崩溃;b)宜具备当参与节点协同训练出现异常时,
11、恢复至任务下发时的初始状态能力;c)宜具备参与节点备份能力,以解决当参与节点出现异常时快速替代异常参与节点执行计算任务的能力。注:参与节点异常情况可能包括异常终止计算,因网络问题导致的临时下线,以及因训练缓慢带来的超肘问题等。8. 2.4通信方式系统支持的中心节点和参与节点间进行协同训练时,通信方式符合以下要求:a)应具备中心节点和参与节点间的同步通信方式的能力;b)应具备中心节点和参与节点间的异步通信方式的能力。9. 2.5通信压缩系统对中心节点和参与节点间的网络通信压缩符合以下要求:a)应具备对于中心节点下发到参与节点的模型参数的压缩能力,参与节点通过解压功能可获得原始模型参数,压缩不降低
12、精度;b)应具备对于参与节点上传到中心节点的本地参数的压缩能力,中心节点通过解压功能可获得原始模型参数,压缩不降低精度;c)应具备控制参与聚合节点数量来减少中心节点接收的数据量的能力。10. 2.6日志记录系统对整个训练过程的日志记录符合以下要求:a)应具备对于参与节点的每一轮训练初始参数和训练结果参数进行日志记录的能力;b)应具备对于中心节点的每一轮聚合过程进行日志记录的能力。5.3.1异构数据兼容系统对不同参与节点的异构数据兼容符合以下要求:a)应具备允许各个参与节点的非独立同分布数据进行训练的能力;b)应具备处理、缓解、或解决非独立同分布数据导致的模型精度下降问题的能力;c)应具备允许各
13、个参与节点的不同数据量大小进行训练的能力;d)宜具备允许各个参与节点的不同模态数据进行训练的能力。注:异构数据可能表现在数据稀疏性、特征偏度、数据分布等方面。5.3.2异构模型兼容系统对支持的异构模型的兼容符合以下要求:a)应具备对于多种不同种类的模型进行训练的能力;b)应具备对于不同模型大小进行训练的能力。5.3.3异构计算平台兼容系统对异构计算平台的兼容符合以下要求:a)应具备允许本地训练任务运行在不同类型指令集和体系架构的计算平台上的能力;b)应具备允许中心聚合任务运行在不同类型指令集和体系架构的计算平台上的能力;c)宜具备允许中心聚合任务在多于一个的计算节点上以分布式的方式完成的能力。
14、5. 3.4异构调度兼容系统对异构调度兼容符合以下要求:a)应具备允许计算任务在一个计算节点上的不同计算设备上进行计算的能力;b)宜具备允许计算任务根据硬件资源利用率情况动态决定在一个计算节点上哪个计算设备上进行计算的能力;c)宜具备根据各个计算节点的硬件资源利用率情况动态决定哪个计算节点上进行中心聚合任务计算的能力。5.4可信要求5.4.1训练可信系统对于参与节点的训练过程可信保障符合以下要求:a)应具备自我身份证明的能力;b)应具备对于参与节点身份的合法性认证的能力;c)应仅允许身份合法的参与节点参与训练过程;d)应具备阻止或检测参与节点进行数据投毒攻击的能力;e)应具备阻止或检测参与节点
15、进行模型投毒攻击的能力;f)应具备阻止或检测参与节点的搭便车攻击的能力;g)应具备阻止或检测参与节点的女巫攻击的能力;h)当系统提供检测上述某一攻击的能力时,对于训练过程中检测出存在此攻击的参与节点,应将其身份标记为不合法节点,禁止继续参与此次训练。5.4.2聚合可信系统对于中心节点的聚合过程可信保障符合以下要求:a)应具备自我身份证明的能力;b)应具备对于中心节点身份的合法性认证的能力;c)应具备对于来自参与节点的所有合法参数按聚合约定进行正确聚合的能力;d)应具备对于所有参与节点返回正确的聚合结果的能力。5. 4.3安全审计系统对于训练过程的安全审计符合以下要求:a)应提供明确的审计规则;b)应具备审计信息的可追溯与可审查的能力。5.5数据隐私保护要求5.5.1通信数据保护参与节点和中心节点通信过程中的通信数据保护符合以下要求:a)应提供加密算法保护通信双方传输的数据安全;b)加密算法采用的密码技术应符合相关国