《人工智能2.0时代的公共智算服务发展指南.docx》由会员分享,可在线阅读,更多相关《人工智能2.0时代的公共智算服务发展指南.docx(26页珍藏版)》请在第一文库网上搜索。
1、目录前言一、Oi(一)基本概念01(二)te011 .云化共享012 .高效计算013 .开放兼容024 .按需服务025 .稳定安全036 .绿色低碳037 .长效运营03二、发展形势05(一)人工智能发展进入2.0时代,智算发展迎来高速增长机遇期05(二)智算资源准公共品特质凸显,公共智算服务需求快速增长05(三)全球“双碳”进程逐渐深入,绿色低碳成为智算服务必然要求06三、现状和问题07(一)发展现状071 .政策体系逐步健全,发展环境持续优化072 .智算服务供给量质齐升,服务模式创新频出10(二)面临挑战12四、服务框架14(一141 .服务资源构件化152 .服务调度智能化153
2、.服级给多元化15(二)服务内容151 .算力资源服务152 .算法模型服务163 .数据资源服务17(三)服务生态18五、推进策略20(一)需求导向,强化产业赋能应用20(二)适度超前,优化部署智算设施20(三)技术先进,提高软硬协同能力20(四)强化运营,培育长效服务生态20(五)以评促建,提升智算服务水平21六、实践案例22(一)面向城市智能应用的公共智算服务221 .北京市:统筹布局突破算力制约222 .杭州市:抓住MaaS模式变革机遇打造模型输出源地23(二)面向科学智能应用的公共智算服务233 .复旦大学智算平台(CFFF):国内高校最大规模异构智算平台23(三)面向行业智能应用的
3、公共智算服务244 .小鹏汽车:借力打造“扶摇”以更低成本实现更强算力245 .百川智能:取长补短强化生态合作打造核心竞争力25(一)基本概念智能计算(简称智算)是指面向算法模型驱动的高并行、高吞吐复杂计算任务需要,基于最新人工智能理论,采用先进的人工智能异构计算架构,配置最优计算策略,实现以最小开销达到最佳效果的一种先进计算形态。智能计算是可以根据具体任务对计算资源进行优化、调度和有效分配的一种新型计算形式。相较于通用计算和超算,智能计算是更为适应A1训练和推理应用的一种算力形态。随着人工智能2.O时代的到来,智算成为关键性基础资源。智算资源具有的初始固定投入高、边际成本递减、边际收益递增特
4、征,决定了采用公共性服务能够更好地匹配供需,有效降低单位使用成本。同时,由于采用云服务方式能够有效屏蔽底层技术差异,实现智算资源弹性调度、按需共享、按量付费。因此,以云服务的方式提供公共智算服务成为破解智算资源获取门槛高、使用成本高、资源易闲置等难题,实现普适普惠供给、高效利用的基本要求。本研究认为,公共智算服务是指面向人工智能技术和产业发展趋势,为有效提升资源利用率、降低获取门槛和使用成本,以基础性、公共性、普适性为原则,以多样化、泛在化、规模化人工智能应用需要为牵引,采用公共云服务方式模块化、组件化、服务化封装算力、算法、数据等智算资源,提供普适普JW艮务,以平台化、生态化、市场化、绿色化
5、、长效化方式实现智算资源高效供给。(二)主要特征1 .云化共享云化共享是指以云服务方式实现智算资源的高效调度和使用,是智算资源能够作为“准公共品”实现普惠便捷服务的必要条件和最有效方式。通过云化共享,一是可以屏蔽底层技术细节,降低用户获取智算资源的技术门槛和转移成本;二是可以实现即时开通和便捷使用,减少用户的初始投入和使用成本;三是可以提高用户的满意度、资源的利用率和服务的性价比,通过共享资源、弹性调度、按量计费,更好满足高弹性资源使用需求。云化共享的实现,有赖于云服务的三个方面技术特点。T资源的多租户共享,支持多个用户共用资源,并确保各用户的业务不互相影响,最大化提升智算资源使用效率;二是资
6、源的弹性调度,支持基于多地域、多中心部署的资源池,根据业需要实时弹性匹配资源,快速扩容满足业务高峰时资源需求,用完即收,释放资源降低成本;三是云原生技术的全面应用,通过服务架构和服务产品的全面无服务器化(SerVeIiess),最大程度屏蔽技术细节,降低使用门槛,提升资源调度能力,实现开箱即用、按量计费,帮助用户更好地聚焦自身业务需求,构建云上应用,充分享受云服务自适应、免运维、高弹性优势带来的红利。2 .高效计算高效计算是指公共智算服务提供的是大规模、高并行、高吞吐的计算服务,这也是公共智算服务面向人工智能2.O时代大模型训练和推理应用的基本要求。基于云化共享方式提供的高效计算服务,一是能够
7、保障和提高大模型训练和推理的效力,缩短训练时间、提升训练稳定性、提升推理应用性能,更好满足2.O时代人工智能应用需求;二是可以提高资源的利用率,让每一块A1芯片发挥更大的算力效能,从而得到更高的服务性价比。实现高效计算需要重点关注四个方面的性能。一是并行计算效率,不仅要能够支持单卡到万卡的并行计算弹性拓展能力,还要保证大规模并行计算的线性加速比,避免因算力节点规模化造成使用效率的过度衰减。二是模型计算效率(Mode1F1OPSUtiIizationjMFU),在同样的硬件配置条件下,提高模型计算效率,可以使模型训练得更快,从而达节约资源、降低成本的效果。三是网络性能,大模型训练所需的(超)大规
8、模算力主要通过GPU并行计算实现,网络性能的优劣将直接影响分布式并行计算的性能,进而影响大模型训练的质量和速度,通过双上联网络架构、GPU直连、高精度拥塞控制等手段能有效拓展带宽、优化通信、减少拥塞和延迟,提供高带宽、低延时、稳定可靠的网络连接支持。四是存储性能,大模型训练过程中存在海量小文件的读写操作,采用并行文件存储(ParaI1eIFi1eStOrage,PFS)等技术,能够有效提供海量数据高并发处理、高吞吐并行存储、向量数据库快速检索、高安全高可靠数据存储等能力,从而减少GPU闲置等待时间、缩短检查点(CheCkPoint)保存时间,提高模型训练的效率和稳定性;采用分层存储等技术,提供
9、存储容量和吞吐性能的线性扩展能力,能够最大程度降低存储成本。3 .开放兼容开放兼容是指提供公共智算服务的技术和服务框架是开放的,能够适配兼容各种技术和服务产品,这是多元协同的公共智算服务生态得以形成的前提基础,也是公共智算服务资源能够有效集成,向用户提供普适服务的必要条件。保持公共智算服务生态的开放兼容,T有利于消除技术壁垒,促进智算资源的标准化供给;二是有利于智算资源共建共享,降低A1开发和使用成本;三是有利于避免同质化竞争,促进协同创新,促进A1生态和A1产业的繁荣发展。面向人工智能技术和应用趋势,开放兼容主要体现为四个方面支持。一是支持“一云多芯”,能够对底层异构芯片进行统一纳管、统一池
10、化和统一调度,屏蔽底层异构芯片差异,避免形成算力孤岛,同时更好满足用户的多样化算力需求。二是支持“一云多算”,能够对异构算力集群进行统一管理,实现混合云管理和跨集群资源协同调度。三是支持主流的深度学习框架,如常见的机器学习框架PyTorCh、TensorF1owCaffe和主流开源分布式训练框架Megatron-1M,DeepSpeed等,提供从数据处理、模型训练、服务部署到预测的一站式服务。四是具备繁荣的模型开源生态,支持多种开源模型和商业模型部署,提供模型开发应用全生命周期服务,支持模型一键调用。4 .按需服务1指在基准硬件设置以峰值F1oPS运行且没有内存或通信开错的情况下观察到的实际吞
11、吐量与理论最大吞吐量的比率。按需服务是指公共智算服务能够快速响应多样化的人工智能应用需要,通过组合标准化封装的服务资源提供定制化服务的能力,直接影响到公共智算服务能否“用起来、用得好”,也是公共智算服务普适性的重要体现。按需服务不仅能够更好地满足多场景、多样化的人工智能应用需求,还能够使公共智算服务被更多用户接受,从而通过更多用户的共享提高资源利用率。实现服务按需供给需要三个方面支持。T资源的逻辑调度方面,支持服务资源的标准化封装、模块化组合、任务化供给,根据客户不同任务需求,提供覆盖模型开发全生命周期的多元服务,并支持按业务需要分类获取、自由组合、定制提供。二是资源的物理部署方面,支持服务资
12、源多节点部署、一体化调度,提供本地化部署和公共云部署等多种方式,支持本地优先、就近服务、多级扩展,在为用户提供最优服务体验的同时,提供最高性价比。三是JJR务的获取方面,支持用户自助服务,如满足用户一站式选择服务配置和升级扩展的需求,支持从配置选择到资源申请、资源创建、资源获取、资源回收的服务全流程自动化,从而最大化降低用户资源获取的技术门槛和等待成本,为用户提供更加友好易用的应用部署和开发体验。5 .稳定安全稳定安全是指公共智能算服务供给的持续性、稳定性和安全性,这既是高质量公共智能算服务的底线要求,也是用户能够放心选择以公共智算服务方式获取智算资源的前提条件。稳定安全主要体现在三个方面。一
13、是公共云服务的稳定性,以各大云服务商公开承诺的服务等级协议(SerViCe1eve1Agreement,S1)衡量,如单实例的可用性、多可用区多实例可用性、云盘可靠性,以及宕机自动迁移、快照备份能力等。二是公共云服务的安全性,主要由云计算服务提供商(C1oudServicePrOVider,CSP)提供的安全工具来实现,如提供DDOS防护、木马查杀等服务,提供可信计算、硬件加密、虚拟化加密计算等功能,可以通过多方国际安全认证、达到信息安全等级保护基本要求(GB/T22239-2019)要求的信息安全等级保护三级水平等进行衡量。三是云服务的容错与恢复机制,由于大模型对训练的稳定性、故障检测与训练
14、容错提出了更高的要求,需要重点关注能够有效缩短故障处理时间的智能容错、自动恢复等保障机制,从而提高大模型训练的效率、降低模型训练成本。6 .绿色低碳绿色低碳是“双碳”目标背景下公共智算服务主动顺应资源环境约束的集中体现,也是公共智算服务支持经济社会绿色可持续发展的内在要求。在数字革命提速的今天,数据中心日益成为“能耗大户”和环境保护风险点,让智算服务更加绿色低碳变得尤为重要。绿色低碳主要体现在两个方面。一是绿色用能,清洁能源的使用,即打造一朵“清洁的云”,主要体现为清洁电力在总用电中占比。二是节能降耗,如利用液冷技术等绿色低碳技术创新和智能运维方式,降低数据中心的PUE;通过提供公共云服务减少
15、对本地化部署机房和服务器的依赖,助力用户以绿色低碳的方式实现数智化转型;通过对资源高效利用和循环利用,如加强设备检测、维修,帮助延长服务器的生命周期,减少资源消耗强度、污染物和温室气体抖璇。7 .长效运营长效运营是指公共智算服务应采用“市场能供给、客户能负担、环境可持续”的建设运营和服务模式,是保证公共智算服务高质量持续稳定供给的必要条件。实现长效运营需要三个方面的支持。一是科学有效的建设运营方案。由于支持公共智算服务的软硬件资源一旦建成短期可调整空间较小,为避免初始固定投入成为不可回收的沉没成本,不仅要关注运营期的资源配置问题,更需要在规划设计阶段就对服务对象、服务范围、服务方式、技术选型等进行充分的调研和论证,最大程度保证供给和需求的匹配性。二是合理可行的盈利模式。通过用户运营、服务运营增强使用者黏性,以用户可以承担的服务价格获得持续的服务收益,实现普惠化的健康可持续发展。三是专业化的运营团队。为保障公共智算服务持续高质量供给,需要服务供给方与用户需求共同成长,不仅能够在当期提供高效的服务,还能够前瞻掌握政策要求、技术发展和用户需求变化趋势,并据此不断优化服务方式、提升服务水平,在用户需求发生变更时快速响应。二、二、发展形势(一)人工智能发展进入2.O时代,智算发展迎来高速增长机遇期得益于计算力的提升、数据量的增长和人们对