《人工智能数据处理活动概述.docx》由会员分享,可在线阅读,更多相关《人工智能数据处理活动概述.docx(2页珍藏版)》请在第一文库网上搜索。
1、人工智能数据处理活动概述A.1人工智能数据概念和分类本文件所述人工智能数据包含人工智能系统全生命周期中通过收集得到的原始数据和开发、运营过程中产生的新数据。根据生命周期阶段不同、数据形态不同、是否有数据标签、数据收集方式不同,可以对人工智能数据进行多种分类。依据人工智能系统生命周期阶段的不同,人工智能数据包含源数据、开发数据和运行数据。源数据是在数据准备阶段通过数据收集和数据加工获得的数据,包含原始数据、数据标签、训练数据、验证数据、测试数据等。原始数据直接来自于数据收集;数据标签是通过人工或自动化方式对原始数据所做的数据标注结果文件;训练数据、验证数据、测试数据是通过对原始数据和数据标签进行
2、数据预处理而获得的数据,用于人工智能模型训练和模型效果的验证。开发数据是在人工智能模型开发阶段获得的数据,包含特征数据、模型参数、模型文件等。特征数据是使用算法提取的训练数据的关键信息;模型参数是对人工智能模型设定的参数数据,例如深度神经网络结构等;模型文件是以文件形式存储的人工智能模型。运行数据是在人工智能模型运行阶段获得的数据,包含实例数据、模型输出等。实例数据是人工智能模型运行的输入数据,来自于运行阶段的数据收集和加工;模型输出是模型对实例数据进行识别和预测的结果,例如人脸识别结果等。依据数据形态不同,可将人工智能数据分为视频数据、图像数据、文本数据、语音数据等非结构化数据以及字符、表格
3、等结构化数据,人工智能数据处理者根据人工智能应用业务需求选择具体形态的数据进行使用。依据数据是否有标签,可将人工智能数据分为有标签数据和无标签数据。有标签数据一般用于人工智能开发中的监督学习任务,例如文本分类;无标签数据一般用于人工智能开发中的无监督学习任务,例如图像生成。依据数据收集方式的不同,可将人工智能相关数据分为开源数据、外部采购数据、真实环境采集数据、业务回流数据。开源数据是权威组织或个人收集整理并提供公开下载的数据;外部采购数据是从外部采购的非公开成品数据或定制化数据;真实环境采集数据是组织或个人通过人工或系统从真实环境采集到的数据,该类数据一般具有私有属性和保密要求;业务回流数据
4、是在真实运行环境下模型推理之后的用于模型更新迭代的运行数据。A.2人工智能数据处理活动如图A.1所示,人工智能数据处理活动主要包括以下环节:a)数据收集:本阶段主要涉及数据主体的数据收集知情同意与授权流程以及数据处理者的数据获取和数据清洗流程,数据处理者会根据模型训练任务需求,获取数据收集授权,并根据任务需求使用直接收集、互联网公开获取、外部采购等收集方式或委托数据收集服务商(受委托方)进行委托收集。如涉及后续模型更新需求,还应考虑收集模型更新任务所需的业务回流数据。同时数据处理者应针对数据收集活动进行监控;b)数据传输:本阶段覆盖整个人工智能数据全生命周期,主要针对数据处理者和受委托方在所有
5、数据处理活动中的数据传输安全要求,并针对数据传输活动实施监控;c)数据存储:本阶段主要涉及数据处理者对于训练、验证数据集的存储要求以及受委托方在临时存储收集数据和标注结果数据时的安全要求,主要包括架构设计、模型设计、数据副本、数据归档、数据留存和存储加密等;d)数据加工:本阶段主要涉及数据脱敏和数据标注流程,数据处理者会根据任务需求,将数据进行脱敏,并将经过脱敏处理的数据委托内部数据标注团队或数据标注服务商(受委托方)进行数据标注,在数据标注流程中应考虑标注人员资质、环境、审查、质检等安全要求;针对金融或医疗等特殊行业,可根据实际业务需求,采用密文计算或数据溯源技术进一步提升数据加工活动安全性
6、;e)数据使用:本阶段主要涉及模型训练、模型部署以及系统运行时的训练数据集、验证数据集和测试数据集等原始数据、模型训练时的梯度数据以及用于维护更新的业务回流数据的安全要求;针对对抗攻击等外部恶意攻击,可采用模型防御手段增强模型,保护模型参数与训练、推理数据;f)数据提供:本阶段主要涉及数据跨域或跨组织的传输需求。因业务需求需向组织内部或外部数据处理者(包含境内和境外数据处理者)提供数据时,数据处理者应考虑在数据提供之前进行个人信息安全影响评估,并应考虑将个人信息提供的目的,接收方身份、接收方数据安全能力、数据类别、可能产生的影响等相关信息单独告知数据主体,并应在提供前征得数据主体单独书面同意。如涉及跨境传输等数据提供需求,数据处理者还应进行数据跨境安全影响评估。g)数据公开:本阶段主要涉及数据发布或在线访问等公开需求。因业务需求需向社会进行数据公开时,数据处理者应考虑明确公开内容、范围、应急处理制度等。h)数据销毁:本阶段主要涉及数据主体的数据删除权益、数据处理者在模型退役下线时的数据删除、归档处理以及受委托方在委托处理任务交付后的数据删除处理等环节的安全要求,同时应考虑存储介质的销毁处理策略。