《海天瑞声2023年度向特定对象发行A股股票方案论证分析报告.docx》由会员分享,可在线阅读,更多相关《海天瑞声2023年度向特定对象发行A股股票方案论证分析报告.docx(22页珍藏版)》请在第一文库网上搜索。
1、证券代码:688787证券简称:海天瑞声北京海天瑞声科技股份有限公司(BeijingHaitianRuishengScienceTechno1ogy1td.)(北京市海淀区成府路28号4-801)海天瑞声DataoceanA12023年度向特定对象发行A股股票方案论证分析报告北京海天瑞声科技股份有限公司(以下简称“海天瑞声”或“公司”)是上海证券交易所科创板上市的公司。为满足公司业务发展的资金需求,增强公司资本实力,提升盈利能力,根据中华人民共和国公司法中华人民共和国证券法和上市公司证券发行注册管理办法(以下简称“注册管理办法“)等有关法律、行政法规、部门规章或规范性文件和公司章程的规定,公司
2、编制了2023年度向特定对象发行A股股票方案论证分析报告。一、本次向特定对象发行的背景(一)全球人工智能行业快速发展,我国正加速布局和应对随着互联网、云计算、物联网以及穿戴设备的发展,数据要素价值不断释放,数字化转型成为大势所趋。目前,全球主要国家均高度重视发展数字经济,纷纷出台战略规划,重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技术之一,成为数字经济发展的重要战略抓手。2023年底ChatGPT的出现,掀起又一波人工智能发展热潮,以无监督学习模式为代表的预训练+人类反馈强化学习所构成的大模型技术路线的落地意味着人工智能开启发展新范式,基础模型能力通过预训练及基于人类反馈
3、的强化学习得到不断解锁,以解决海量开放式任务。根据艾瑞咨询数据,2023年中国人工智能产业规模达1,948亿元,预计2027年市场规模将达到6,122亿元,年复合增长率为25.6%,主要与智算中心建设以及大模型训练等需求拉动的A1芯片市场、无接触服务需求拉动的智能机器人及对话式A1市场等快速增长相关。图:2023-2027年中国人工智能产业规划(单位:亿元)7,0006.1226.0005.0085.0003.99940003,1443Q002,47320001.S16120001.5461.0002Q2O202120232O23E2024E2025E2G26E2(7E数据来源:艾瑞咨询人工智
4、能大模型因其良好的通用性、泛化性和迁移性,有助于推动人工智能进入大规模落地应用,已成为人工智能发展新赛道。同时其强大的理解和生成能力,将驱动人工智能技术加速与实体产业融合,并深刻改变未来人类的生活和工作方式,发展大模型技术成为全球各国比拼科技实力,提升经济效率,拉升经济增长的重要动能之一。目前,国际巨头纷纷布局以大模型为核心的通用人工智能产业,产业进入加速发展期。在这一信息技术重点领域,我国与国际巨头存在一定差距,正加速布局和应对。国内众多研究机构、企业积极研究生成式AI大模型技术的最优路径,并进行产品发布。近期,在国内科技及投资各领域的高度关注下,百度、商汤、阿里巴巴、华为、科大讯飞、360
5、、京东、字节跳动等企业均有所行动。我国在“十四五”期间,针对人工智能的未来发展陆续出台了相关指导方案和激励政策,对人工智能的整体发展方向和技术发展重点做出重要规划,同时提出加强算法创新与应用、推动算力基础设施建设、完善数据基础支撑体系等关键建议,倡导未来不断夯实产业发展新基础。全国各地亦陆续出台多项数据政策,其中,北京市促进通用人工智能创新发展的若干措施明确提出要“系统构建大模型等通用人工智能技术体系:开展大模型创新算法及关键技术研究;加强大模型训练数据采集及治理工具研发;建设大模型评测开放服务平台;构建大模型基础软硬件体系。推动通用人工智能技术创新场景应用。”北京市加快建设具有全球影响力的人
6、工智能创新策源地实施方案(2023-2025年)提出“到2025年,人工智能基础理论研究取得突破;关键核心技术基本实现自主可控,其中部分技术与应用研究达到世界先进水平;人工智能高水平应用深度赋能实体经济,促进经济高质量发展的目标,并进一步提出了“自然语言、通用视觉、多模态交互大模型等形成完整技术栈;生成式产品成为国内市场主流应用和生态平台”等具体目标。(二)人工智能基础数据服务业规模不断提升,大模型技术发展带来A1范式变革,正催生更多数据及其服务模式新需求在人工智能产业链中,算法、算力和数据共同构成技术发展的三大核心要素。过去十年,人工智能产业以算法为中心,随着算法趋于开源,数据的重要性愈发凸
7、显。在人工智能模型从技术理论到应用落地的过程中,需要依赖大量的训练数据,相较于以模型为中心的训练方法,以海量数据为中心的训练方法能够提升模型推断结论的可靠性。万亿GB量级的数据随着互联网、云计算、物联网、大数据等发展源源不断地产生,但数据质量参差不齐,对海量的复杂数据进行深入挖掘、输出,进而激活和释放数据的深层价值也成为数据市场的发展重点。根据德勤数据,2023年中国人工智能基础数据服务市场规模为45亿元,2027年规模将达到130-160亿元,年复合增长率为23.6%-28.9%o图:2017-2027年中国人工智能基础数据服务市场规模(单位:亿元)130-160140120IOO8030.
8、3ItO450604020020172011201920232023数据来源:德勒随着人工智能进入大模型时代,数据需求和数据服务模式不断提升,数据的质量以及数据清洗的工程化能力会显著拉开大模型预训练阶段的效果差距;同时,更多模型或将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,以使得机器能够以更加接近于人类期望的方式提供答案输出。对于大模型训练而言,不仅需要持续获取大规模、高质量、多模态、多场景、多垂向的数据,更须具备持续迭代的高质量数据清洗和标注策略,以不断提升包括预训练(Pre-training)模型微调(Fine-tune)及奖励模型(RewardMode1)等过程中所需数据(
9、例如提示(PrOmPt)类数据)的质量,确保语言类和常识性知识之外的其他垂直领域的应用场景的能力提升,为大模型精确性、通用性及泛化能力的实现奠定坚实基础。在以上背景下,一方面,大规模、高质量数据集重要性凸显,成为模型训练效果的核心支撑之一。除了在通用基础能力方面需要大量高质量数据训练外,大模型算法训练的需求正逐渐从通用基础能力建设向垂直领域拓展,数据需求向专业化方向发展。为加速实现人工智能产业化落地,行业将衍生出更多垂直场景的数据需求,大模型将通过不断学习各个专业领域的行业高质量数据,实现更广阔的垂直拓展。另一方面,AI发展所面对的数据前沿性及工程化技术的挑战也较为凸显。长期看,只有A1数据处
10、理技术的不断拓新与发展,才能及时适应甚至超前引领大模型技术和应用的发展。()各地推动数据基础制度建设,数据要素市场迎来新发展机遇近年来,我国数字经济蓬勃发展,数据要素因具有基础性战略资源和关键性生产要素的双重属性,相关市场规模持续增长。尤其在中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见出台后,我国系统性布局了数据基础制度体系的“四梁八柱”,加速了数据流通交易和数据要素市场发展,进一步推动了公共数据、企业数据、个人数据合规高效流通使用。为更好响应中央号召,北京、上海、广州、深圳、杭州等地数据政策陆续出台,逐步构建了多层次、多元化数据要素市场生态体系。以北京为例,北京市促进通用人
11、工智能创新发展的若干措施和关于推进北京市数据专区建设的指导意见指出,北京市要加快建设“数据基础制度先行先试示范区(以下简称“先行先试示范区”),探索打造数据训练基地,归集高质量基础训练数据集,推动数据要素高水平开放,提升本市人工智能数据标注库规模和质量,并建设针对重大领域、重点区域或特定场景建设专题数据区域,吸纳市场主体和数据、技术、资本等多元要素参与。北京市陆续出台的多项文件旨在打破数据壁垒,推动数据融合利用,加快推动公共数据开放,促进数据要素流通,激发数字市场创新活力,释放和发展数字化生产力,打造多层级数据要素市场,成为具有竞争力和影响力的数字产业集群。按照“政府引导、市场运作、创新引领、
12、安全可控”的原则,“先行先试示范区”有望成为国际领先的数据要素高效流通核心枢纽。(四)我国具有拥有海量丰富的数据资源,但数据质量亟待提升我国各行业的数据资源较为丰富,根据艾瑞咨询数据,2015年-2030年中国数据量规模由3ZB将增长至175ZB,预计2030年中国数据量约占全球的28.8%,年复合增长率约为31%0图:20152030年中国数据量规模及全球占比数据来源:艾瑞咨询虽然中国数据资源丰富,但由于数据挖掘不足,以及大量数据无法在市场上自由流通等原因,优质中文数据集仍然稀缺。以ChatGPT为例,其模型训练数据中,中文数据来源不足千分之一。目前,国内头部科技企业主要基于公开数据集以及自
13、身特有的数据进行大模型训练,但由于中文优质数据质量以及数据资源的制约,国内大模型的能力与以ChatGPT为代表的国际大模型相比仍存在一定差距。国内缺乏高质量数据集的主要原因包括当前国内数据挖掘和数据治理的力度不足、资金投入较大;数据流通与数据安全保障措施不够健全;国内市场缺乏开源意识,大量数据无法在市场上自由流通;国内相关公司成立较晚,数据积累较少;学术领域中文数据集受重视程度低以及国产数据集市场影响力及普及度较低等。从原始数据到可被应用的数据集产品,需要经历数据集结构设计、数据获取、数据处理(包括数据清洗、数据标注/优化等)等过程,以形成可供使用的优质数据集,国内数据服务市场的发展有助于缓解
14、中文数据集数量不足和质量欠佳等问题。二、本次发行证券及其品种选择的必要性(一)本次发行证券的品种本次发行的股票种类为境内上市人民币普通股(A股),每股面值为1.00元。(二)本次发行证券品种选择的必要性1、丰富公司训练数据集产品类别,拓展AI大模型训练数据集产品及服务领域,探索新型业务公司作为全球领先的人工智能训练数据提供商,一直深耕人工智能行业,在基础数据服务领域居于龙头地位,自成立以来,公司致力于为各类机构提供深度学习算法模型开发训练所需的专业数据集,所提供训练数据涵盖智能语音、计算机数据、自然语言处理等多个核心领域。为更好实现公司业务扩张战略,公司在保障传统业务稳健发展的同时.,不断探索
15、寻求新的业绩增长点。公司将基于过往海量数据服务经验,结合以大模型发展为代表的行业前沿需求,研发生产大模型领域专业数据集,丰富公司数据集产品类别,拓展A1大模型训练数据领域服务能力,力争将大模型训练数据等创新业务打造成为具有潜在高增长价值的新型业务板块。并藉此提升行业内面向大模型训练数据集的类别和质量,实现基于大模型通用能力和垂直领域数据的支撑和训练学习,协助实现公共数据、社会数据等各类高价值数据资源汇聚。2、巩固公司核心技术壁垒,构建大模型数据处理技术通用化能力,构建长期技术实力支撑并提升数据服务综合竞争力数据集生产各项技术与能力和一体化技术支撑平台是公司核心技术的重要体现。本次募集资金投资项
16、目的建设将基于公司在深度学习阶段数据集生产所积累的know-how,自主研发海天瑞声数据生产垂直大模型,构建大模型数据处理技术通用化解决方案能力,实现完整、可持续迭代的大模型数据技术框架和数据策略;并以数据生产垂直大模型为核心,升级海天瑞声一体化技术支撑平台中包括设计、获取、清洗、标注、安全管理、质控评测等不同的环节的功能,对大模型时代的数据处理需求形成全面支撑。以上举措均将进一步提高公司在人工智能基础数据服务领域的智能化水平,巩固公司的核心技术壁垒,形成长期技术实力支撑。此外,本项目有助于进一步优化公司的数据处理技术,促进数据资源处理经验的进一步沉淀,长期来看,可以大幅提高公司的数据处理能力、效率,提升服务范围和水平,适应人工智能发展的新阶段