Alpha掘金系列之八:沪深300另类舆情增强因子FinGPT对金融论坛数据情感的精准识别.docx

上传人:lao****ou 文档编号:995290 上传时间:2024-08-28 格式:DOCX 页数:20 大小:384.87KB
下载 相关 举报
Alpha掘金系列之八:沪深300另类舆情增强因子FinGPT对金融论坛数据情感的精准识别.docx_第1页
第1页 / 共20页
Alpha掘金系列之八:沪深300另类舆情增强因子FinGPT对金融论坛数据情感的精准识别.docx_第2页
第2页 / 共20页
Alpha掘金系列之八:沪深300另类舆情增强因子FinGPT对金融论坛数据情感的精准识别.docx_第3页
第3页 / 共20页
Alpha掘金系列之八:沪深300另类舆情增强因子FinGPT对金融论坛数据情感的精准识别.docx_第4页
第4页 / 共20页
Alpha掘金系列之八:沪深300另类舆情增强因子FinGPT对金融论坛数据情感的精准识别.docx_第5页
第5页 / 共20页
亲,该文档总共20页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《Alpha掘金系列之八:沪深300另类舆情增强因子FinGPT对金融论坛数据情感的精准识别.docx》由会员分享,可在线阅读,更多相关《Alpha掘金系列之八:沪深300另类舆情增强因子FinGPT对金融论坛数据情感的精准识别.docx(20页珍藏版)》请在第一文库网上搜索。

1、内容目录一、另类数据情感分析的新方法5二、金融论坛评论的数据特征52.1数据来源52.2什么是1KM(1argeKnow1edgeMode1)52.3论坛的主帖和评论的区别7三、大语言开源模型落地81 .1利用大语言模型进行情感分析81.1.1 大模型强大的语言理解和更好的泛化能力81.1.2 GPT情感分析效果最佳,但成本过于高昂92 .2本地化部署的开源模型93 .2.1开源模型94 .2.2ChatG1M与FinGPT10四、情绪打分体系构建114.1 因子测试方法124.2 为什么要选择金融论坛评论数据124.3 大模型舆情情感因子134.4 因子相关性与因子收益15五、大模型金融论坛

2、舆情增强策略165.1策略构建165.2 策略表现16六、总结18七、附录18Z1FinGPT的推理代码样例185.3 推演的算力需求与微调的算力需求1873模型输入的“参数敏感性”19风险提示21图表目录图表1:1KM知识模型的核心5图表2:大知识模型的模型构建流程6图表3:1KM的情感打分优势6图表4:11M与1KM的推导区别7图表5:人工智能的发展周期7图表6:金融论坛主帖与评论的区别8图表7:自回归语言模型的输出步骤9图表8:HE1M大语言模型情感分析排行榜9图表9:ChatGPT情感分析得分比较9图表10:ChatGPTAP1调用价格9图表11:开源11M时间线10图表12:Chat

3、G1M的英文能力10图表13:ChatG1M的中文能力10图表14:FinGPT架构11图表15:FinGPT在情感打分任务上表现优异11图表16:国金金工股票情感打分体系12图表17:主帖内容示例12图表18:金融论坛评论的不同类型样例12图表19:主帖与评论相同构造情感因子的IC测试统计指标13图表20:评论数量分布13图表21:评论数最多的20只股票13图表22:评论的FinGPT情感打分分布13图表23:评论的1KM情感打分分布13图表24:大模型舆情情感因子含义与计算14图表25:大模型舆情情感因子IC测试统计结果14图表26:乐观情感和因子分位数组合测试统计指标15图表27:乐观情

4、感和因子分位数组合年化收益率15图表28:乐观情感和因子分位数组合净值曲线15图表29:大模型舆情情感因子与大类因子相关性15图表30:情感因子与市值因子相关性16图表31:常见基本面与技术因子的IC测试16图表32:大模型金融论坛舆情增强策略条件设置16图表33:大模型金融论坛舆情增强策略指标17图表34:大模型金融论坛舆情增强策略分年度收益17图表35:大模型金融论坛舆情增强策略净值曲线17图表36:FinGPT的推理demo18图表37:大语言模型训练的硬件与训练时间19图表38:没有任何input结构的11aMA2输出19图表39:A1paca-input结构下的11aMA2输出19图

5、表40:财联社新闻标题20图表41:不同提示词20图表42:不同提示词下博迁新材新闻的情感分析20图表43:不同提示词下酱香咖啡新闻的情感分析21一、另类数据情感分析的新方法情感分析是自然语言处理(N1P)的一个重要分支,通过运用N1P技术和机器学习算法,可以对文本的语义、情感表达和上下文进行分析,判断文本所表达的情感,从而得出文本的情绪例如正面、负面或中立的结论。在金融领域,情感分析在金融论坛评论上的分析有重要应用,因为金融论坛的情绪很大程度上反映了投资者的集体心态,投资者的心态、预期和信心可以对股票价格产生重大影响。我们从多个学术假设利结论拆解了情绪对股票价格产生影响的背后逻辑:情绪与决策

6、制定:投资者在决定买卖股票时,除了基于对公司基本面和技术分析的认知,还会受到其他投资者情绪的影响。乐观情绪往往促使投资者采取积极的投资行为,而消极情绪可能导致他们采取保守或逃避策略。从众心理:当大部分投资者在论坛上显示乐观情绪时,其他投资者可能会受到影响,从而产生相同的投资决策,导致股价上涨。相反,当论坛上的情绪普遍不乐观时,股价可能会受到压力并下跌。信息扩散:金融论坛通常是投资者获取和分享信息的平台。这些信息,无论其真实性如何,都可能引起市场反应。如果论坛上传播的信息让投资者感到乐观,股价可能上涨;相反,如果信息是消极的,股价可能会下跌。注意力偏差:当某个特定的股票或事件在论坛上被大量讨论,

7、这会导致更多的投资者将注意力集中在这个话题上,或者由于注意力偏差,投资者可能会过于专注于论坛上热门的话题,而忽视其他同样重要但未被广泛讨论的信息。这可能会导致投资者做出基于不完整信息的决策,强化了情绪反应或者忽视了其他重要信息。本篇报告是A1pha掘金系列的第八篇,我们通过开源的大语言模型FinGPT对子长科技公司提供的大量金融论坛评论进行了情感分析,通过验证论坛情感与股票价格之间的关系探索了大语言模型模和大知识模型情感分析在量化策略上的宜接应用。二.金融论坛评论的数据特征2.1 数据来源子长科技创建于2018年,创始团队包括前路透社,亚马逊,谷歌等人工智能及金融数据专家。公司创立以来,以包括

8、知识图谱和自然语言处理的知识模型1KM为核心技术,始终致力于打造垂直金融行.业的人工智能核心能力,推出多款数据及金融终端产品,有效服务投研、量化和风控等多个场景。本报告采用子长科技提供的金融论坛股民情绪数据。子长科技基于公开社交媒体信息,包括股民及股市大V的各类言论,结合公司,行业,产品,相关技术等数据,运用AT知识模型1KM,准确将股民情绪关联及定位到相关股票。并根据情绪表达,产生实时的量化情绪分数,及统计信息。从而充分体现个股的股民情绪,关注变化,捕捉市场信号。基于知识模型1KM体系的数据,具有精准,实时,可溯源等优势。通过知识模型,AI准确进行实体对齐,将股民评论精准定位到相关股票,准确

9、产生情绪数据。效果远超于基于情绪关键词的上一代技术。图表1:1KM知识模型的核心来源:子长科技,2.2 什么是1KM(1argeKnow1edgeMode1)对于金融论坛评论数据而言,自然语言处理的难点之一在于如何确认股票与评论之间的联系,一方面,股票的代称可能会复杂,完全通过人工维护的方式是困难的,例如“宁德时代”对应“宁王”;另一方面,评论中可能完全没有提到股票的名字。而1KM大知识模型可以通过不断地评论学习学会这样地代称和复杂对应逻辑,能够更好得完成评论对应上市公司的标注。进一步地,因为大知识模型“学到”的知识不仅限于上市公司,在另类数据拆解产业链上下游信息、寻找非线性景气度关系时都有重

10、要应用。图表2:大知识模型的模型构建流程分类C1assify题Extract蹴Data社效咻Socia1Media研究机构Institute企业信诚Company证券交易所1xchdngeiWsGovernment行业组0Industry法律诉讼1ega1知识产权IPUnc1assified行业Industry嘀.Content可信度Credibi1ityC1assifiedC1assified事件提取Event蹦领Summary关系提取Re1ationTrans1ation数据提取NumberStructuriza-tionButterf1yInvestmentOpportunity行业矩阵

11、IndustryMatrix(分析、IAna1ysis知识图谱Know1edgeGraphPo1icyImpact来源:子长科技,从技术路线上来说,1KM属于决策智能,11U属于生成型人工智能。生成型人工智能(GCneratiVeAI)主要用于生成新的、未见过的数据或内容,如图像、文本或音乐。它的核心目标是学习和模拟特定数据集的分布。其可以进行创作(例如画作、音乐、文本、代码)、数据增强、模拟和虚拟现实内容生成等。常见的技术包括生成对抗网络(GANs)、变分自编码器(VAES)和特定的深度学习架构如TranSfOrn1er(ChatGPT采用)。主要解决的是“如何从现有的数据中学习并生成新的、

12、相似但独特的内容”。决策智能(DeCiSionIntCI1igenCe)是一个跨学科的领域,目标是帮助组织或个人做出更有根据和更好的决策。它结合了决策科学、人工智能和数学建模等领域的知识。其可以优化业务流程、增强策略决策、提高资源分配的效率、预测和风险评估和供应链管理等。常见的技术包括决策树、优化算法、模拟、风险分析、复杂的系统建模等。主要解决的是“如何结合多种数据和知识源来做出最佳或最有根据的决策“O在金融领域,如将股票与金融评论进行映射,当需要高度的可解释性、实时反馈以及从系统整体视角进行考量时,决策智能会是一个更为合适的选择。决策智能不仅提供了对数据的深入分析,还允许我们理解背后的决策逻

13、辑和推理过程。实时反馈能够确保我们迅速地应对变化,调整策略,而从系统视角考虑则意味着我们不仅关注局部的最优解,而是寻求整体的最佳方案。这种综合性的分析和全局视野有助于制定更为全面、均衡和持久的决策策略。来源:子长科技,在另类数据情感打分能力上,11M与1KM各有优劣,11M解释性差但是拥有令人惊讶的0样本和少样本的分析能力,1KM解释性强并且能够通过全局视角进行实时反馈,但其对数据的质量要求会更高。图表4:11M与1KM的推导区别11Mvs1KM来源:子长科技,图表5:人工智能的发展周期tMMMiaBNfA*tn1-23论坛的主帖和评论的区别金融论坛的数据主要可以分为两种类型,主帖和评论。两者

14、数据主要有以下共同特征:信噪比低:由于每个人都可以发表意见,结果不一定都是基于事实或深入的分析,会出现很多“无关评论”、“段子评论”等。随事件波动:特定的金融事件或新闻可能引发大量的帖子和情感反应,如股市大涨或大跌、重大并购事件、政策变化等,短期某只股票的评论数量可能会出现快速上升。比如有的社会化事件会让某只股票在周度的评论数量上万,而大部分时候股票被提到次数的平均值是56次。受到特定类型评论影响:有些评论和主帖可能出于特定的目的,例如推广某个股票、产品或服务,或试图影响其他投资者的观点和决策。而金融论坛的评论数据还有一个额外属性。金融论坛的评论是多样性和高度情绪化的:金融论坛上的用户来自各种

15、背景,因此意见和表达情感可能非常多样化。有的人可能是资深的投资者,有的可能是刚接触投资的学习者,评论的深度和角度会有所不同。并且金融和投资涉及到金钱和未来的不确定性,因此评论可能带有强烈的情感宣泄,过多的焦虑、兴奋等情感词汇也会对文本情感分析产生干扰。但评论数据也更能反应参与者对股票的情感看法。2018年1月1日至2023年6月30日,子长科技跟踪的金融论坛一共有超过1300万条主帖数据和超过480万条评论数据,每周平均可对应沪深300中超过260只股票。主帖数量显著更多的主要原因是其充斥着大量新闻、公告和因论坛规则自动转化的部分首发评论(基于论坛规则,部分客户端的评论会直接显示为主帖)。主帖和评论的测试区别我们将在第4节中讨论。图表6:金融论坛主帖与评论的区别来源:子长科技,三.大培言开源模型落地

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服