海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx

资源描述

《海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx》由会员分享，可在线阅读，更多相关《海天瑞声2023年度向特定对象发行A股股票募集资金使用可行性分析报告.docx（25页珍藏版）》请在第一文库网上搜索。

1、股票代码：688787股票简称：海天瑞声北京海天瑞声科技股份有限公司(BeijingHaitianRuishengScienceTechno1ogy1td.)(北京市海淀区成府路28号4-801)海天瑞声DzvtaoceanA12023年度向特定对象发行A股股票募集资金使用可行性分析报告除非文义另有所指，下列简称具有如下含义:专业术语人工智能/AI指英文为Artificia1Inte11igence,缩写为A1是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。生成式人工智能/生成式AI指生成式人工智能(GeneratiVeA1)是使用机器学习和深度学习算法，从

2、现有数据中学习并生成新内容的一种人工智能技术。它可以生成各种形式的数据，如图像、音频、视频和文本，并在虚拟现实、自然语言处理、艺术创作和模拟实验等领域有广泛应用。大模型指大模型就是FoundationMOde1(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。数据生产垂直大模型指海天瑞声数据生产垂直大模型，是公司利用大模型理论和算法，自主打造的面向人工智能数据基础服务的技术底座，实现面向多个下游数据任务的设计与处理等规则及内容的多项生成能力模型。多模态指多模态机器学习(MU1ti-moda1Machine1earning)是一种机器学习方法，用于处理多种类型的数据，

3、如图像、文本、音频等。它通过将来自不同模态的数据进行整合和联合建模，以提取和学习不同模态之间的相关信息和特征。多模态数据是指用于多模态机器学习训练使用的跨形态数据类型。深度学习指英文为Deep1eaming,缩写为D1,是从机器学习中的人工神经网络发展而来的多层人工神经网络和它的训练方法是一种基于人工神经网络的机器学习，其中多层处理被用来从数据中逐步提取更高层次的特征。人类反馈强化学习指英文为Reinforcement1earningfromHumanFeedback,缩写为R1HF,是一种机器学习方法，旨在使智能系统从环境中学习，通过引入“奖励”和“惩罚”信号，让系统自行探索环境并学习最佳行

4、为策略，以最大化某种特定目标。人工智能基础数据、训练数据、人工智能基础数据服务指人工智能基础数据、训练数据均指通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据；人工智能基础数据服务指为A1算法训练及优化提供的数据集设计、数据采集/获取、清洗、标注/优化、评测等服务。计算机视觉指英文为ComputerVision,缩写为CV,是一门研究如何使机器“看”的科学，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等。自然语言处理指英文为Natura11anguageProcessing,缩写为N1P,是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用

5、自然语言进行有效通信的各种理论和方法。AIGC指AIGeneratedContent,是指利用人工智能技术来生成内容。ChatGPT指美国OPenA1研发的聊天机器人程序，ChatGpT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。GB指千兆字节，是数字信息存储容量的一个单位。它被用来衡量文件、文档和数据存储设备的大小。一个千兆字节是1024兆字节。TB指太字节，是数字信息存储容量的一个单位。一个太字节是1024个千兆字节。ZB指Zettaby

6、te,是数字信息存储容量的一个单位。一个Zetta字节是100万太字节。它代表了一个巨大的数据存储容量，通常在讨论大规模数据中心、全球数据流量或主要组织或行业的存储需求时使用。Transformer技术指Transformer技术是一种基于自注意力机制的神经网络架构，广泛应用于自然语言处理和计算机视觉等领域。TranSfOrmer技术在机器翻译、文本生成、语言理解等任务中取得了显著的成果，并成为目前自然语言处理领域的主流模型。OpenAI指OPenA1是一家美国人工智能研究实验室和公司，在人工智能的各个领域进行前沿研究。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、

7、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。Prompt提示文本，提供模型完成下游任务所需的上下文等信息，以帮助模型更好地理解任务需求，从而更好地完成下游任务。预训练/Pre-training指预训练是通过在大规模数据集上进行初始训练，学习通用特征和表示的机器学习方法。预训练模型可用于后续任务，并在多个领域应用广泛。模型微调/Fine-tune指微调，是一种常用于预训练模型的模型优化技术，基于己经训练好的预训练模型进行微调，使模型能够更好地适应目标任务。奖励模型/RewardMode1指奖励模型(ReWardMOde1)是在强化学习中使用的一种关键概念。它定义了在特定任

8、务中，智能体所追求的目标和奖励的方式。奖励模型通过指定在智能体采取行动后，所获得的奖励信号来引导智能体的学习和决策过程。奖励模型可以基于任务的目标设定，对智能体的行为进行正向奖励或负向惩罚，从而影响智能体的策略优化和决策选择。智算中心指全称人工智能计算中心，指为人工智能(AI)开发和应用提供所需算力服务、数据服务和算法服务的机构。Stab1eDiffusion指由Stabi1iIyA1公司(英国一家人工智能企业)于2023年推出的图文生成模型，用于从提示信息的自然语言描述中生成图像。本次募集资金使用计划北京海天瑞声科技股份有限公司（以下简称“公司”）2023年度拟向特定对象发行A股股票（以下简

9、称“本次发行”），募集资金总额不超过人民币78,989.00万元（含本数），扣除相关发行费用后的募集资金净额拟用于以下项目：序号项目名称项目投资总额（万元）拟投入募集资金额（万元）1AI大模型训练数据集建设项目38,337.3638,337.362数据生产垂直大模型研发项目40,651.6440,651.64合计78,989.0078,989.00注：项目名称最终以主管部门核准或备案名称为准在本次发行募集资金到位前，公司将根据募集资金投资项目的实际情况，以自筹资金先行投入，并在募集资金到位后按照相关法律、法规规定的程序予以置换。募集资金到位后，若扣除发行费用后的实际募集资金净额少于拟投入募集资

10、金总额，在本次发行募集资金投资项目范围内，公司将根据实际募集资金数额，按照项目的轻重缓急等情况，调整并决定募集资金的具体投资项目、优先顺序及各项目的具体投资金额，募集资金不足部分由公司自筹解决。若本次发行募集资金总额因监管政策变化或发行注册文件的要求予以调整的，则届时将相应调整。二、募集资金投资项目基本情况及可行性分析（-）A1大模型训练数据集建设项目1、项目背景（1）人工智能产业加速发展，基础数据服务业规模不断提升随着互联网、云计算、物联网以及穿戴设备的发展，数据要素价值不断释放，数字化转型成为大势所趋。人工智能作为数字经济发展的底层核心技术之一，成为数字经济发展的重要战略抓手。2023年底

11、ChatGPT的出现，掀起又一波人工智能发展热潮，以无监督学习模式为代表的预训练+人类反馈强化学习所构成的大模型技术路线的落地意味着人工智能开启发展新范式，基础模型能力通过预训练及基于人类反馈的强化学习得到不断解锁，以解决海量开放式任务。根据艾瑞咨询数据，2023年中国人工智能产业规模为1,948亿元，预计2027年市场规模将达到6,122亿元，年复合增长率为25.6%,主要与智算中心建设以及大模型训练等需求拉动的A1芯片市场、无接触服务需求拉动的智能机器人及对话式A1市场等快速增长相关。图12023-2027年中国人工智能产业规划（单位：亿元）在人工智能产业链中，算法、算力和数据共同构成技术

12、发展的三大核心要素。过去十年，人工智能产业以算法为中心，随着算法趋于开源，数据的重要性愈发凸显。在人工智能模型从技术理论到应用落地的过程中，需要依赖大量的训练数据，相较于以模型为中心的训练方法，以海量数据为中心的训练方法能够提升模型推断结论的可靠性。万亿GB量级的数据随着互联网、云计算、物联网、大数据等发展源源不断地产生，但数据质量参差不齐，对海量的复杂数据进行深入挖掘、输出，进而激活和释放数据的深层价值也成为数据市场的发展重点。根据德勤数据，2023年中国人工智能基础数据服务市场规模为45亿元，2027年规模将达到130-160亿元，年复合增长率为23.6%-28.9%o图22017-202

13、7年中国人工智能基础数据服务市场规模（单位：亿元）18016014012010080604020045.030.318.08.2m1382017201820192023202320232027E数据来源：德勤（2）大模型技术发展带来AI范式变革，催生新型数据服务需求，进一步提升数据市场空间人工智能大模型由于其强大的通用性能以及泛化能力正在加快人工智能发展路径，在大幅增强人工智能体验感的同时降低再开发门槛，使得人工智能产业具备在各实体产业快速落地发展的潜能。随着大模型技术的发展，算法训练对数据的依赖程度逐渐加深，催生了新的数据需求和新的数据服务模式。一方面，数据的质量以及数据清洗的工程化能力会显

14、著拉开大模型预训练阶段的效果差距；另一方面，预期更多模型将采用类强化学习模式来进行特定领域或特定方向上的优化迭代，以使得机器能够以更加接近于人类期望的方式提供答案输出。未来数据处理将不再局限在传统的有监督学习下的定向采集与精细化标注，而将叠加数据规模化获取、清洗以及类强化学习等方向。此外，随着深度学习技术的不断突破，人工智能发展已经进入2.0时代，AI技术与传统产业的融合将成为数字经济时代的新发展趋势。大模型算法训练需求正逐渐从通用基础能力建设向垂直领域拓展，数据需求向专业化方向发展。目前，AI技术在金融、医疗、工业等传统行业中的渗透率和应用不断提升，展现出可观的商业价值和较强的发展潜力。为加

15、速实现A1产业化落地，行业将衍生出更多垂直场景的数据需求，大模型将通过不断学习各个专业领域的行业高质量数据,实现更广阔的垂向拓展。与此同时，国内科技互联网巨头纷纷布局多模态大模型，基于公开数据及自身特有数据训练多模态大模型，多模态数据集需求快速提升，多模态成为大模型时代下新发展范式。（3）各地推动数据基础制度建设，数据要素市场迎来新发展机遇近年来，我国数字经济蓬勃发展，数据要素因具有基础性战略资源和关键性生产要素的双重属性，相关市场规模持续增长。尤其在中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见出台后，我国系统性布局了数据基础制度体系的“四梁八柱”，加速了数据流通交易和数据要素市场发展，进一步推动了公共数据、企业数据、个人数据合规高效流通使用。为更好响应中央号召，北京、上海、广州、深圳、杭州等地数据政策陆续出台，逐步构建了多层次、多元化数据要素市场生态体系。以北京为例，北京市促进通用人工智能创新发展的若干措施和关于推进北京市数据专区建设的指导意见指出，北京市要加快建设“数据基础制度先行先试示范区”（以下简称“先行先试示范区”），探索打造数据训练基地，归集高质量基础训练数据集，推动数据要素高水

展开阅读全文