《智AI科技慧投未来(上).docx》由会员分享,可在线阅读,更多相关《智AI科技慧投未来(上).docx(47页珍藏版)》请在第一文库网上搜索。
1、、 商 Ja才殳才匡 51.1 基本逻辑51.2 因子选取71.3 模型基本方法7、 数据预处理82.1 夕 82.2 多周期分解数据应用场景9、 大宗商品因子模型103 1口口 I()3.2 基础因子11a 1 1 1.183 2 13 2 2刃山区J3.2.3商品板块指数及商品全市场指数324商品板块指数及商品全市场指数历史表现193.3 构建截面因子213.4 因子测试253.5 大宗商品因子模型26四、 期股联动284.1 中性板块相关性284.2 板块与风格因子相关,性30彳;cJ和 325.1 深度神经网络模型介绍325.2 深度神经网络模型构建365.3 因子重要性判断37415
2、.4 AI模型预测结果对比六、 总结42七、 参考文献43八、 附录45图表目录图I:按照周期分解数据9图2:原油期货的三维期限结构 12图3:原油期货月度curve (多第三个合约,空近月合约)12图4:商品板块累计收益率表现 19图5:板块的 月均持仓金额 (亿元) 20图6:板块的月均持仓金额占比20图7: 202()年板块收益率以及月均持仓金额增长情况(截止2020-11-25) 20图先 与wind板块分类的相关系数(2010至2015年)21图9:与wind板块分类的相关系数(2016至今)21图10多因子收益率的历史相关性(2010-06至2020-09) 24表格1: CCFI
3、对各个因子的测试结果26图II: 商品和股票板块之间相关性29图12材料(股票)与基本金属(商品)之间的协相关性30图13商品板块、商品风格因子及股票风格因子之间相关性31图14期限结构因子(商品)和beta风格因子(股票)之间的协相关性 32图15深度神经网络模型与AI33图16简单神经网络样式34图17卷积不申经网络结构35图18多个输入节点,单一输出结果(平行学习层+汇合学习层)37图19多个输入节点,多个输出结果(平行学习层+汇合学习层)37图20随机森林原理示意图 38图21因子重要性示意图39图22最小分裂节点示意图40表格2:平均rmse和平均胜率随着树颗数增长表现41表格3:商
4、品板块指数预测结果对比(随机森林vs.深度神经网络)42表格4:华泰板块的划分标准45表格5:华泰商品,股票因子代码附录46商品投研框架1.1基本逻辑量化投研方法的核心目标是通过模型化方法提取各类金融(甚至密切相关的非金融类)数据背后蕴含的对标的物未来价格判断的信息。有两个重要假设与本文密切相关,需要深入探讨:1) 数据集是否蕴含了标的物定价信息2) 量化模型是否能够提取数据中的有效信息第一个问题的复杂度较高,我们将其分解成几个层次来考虑:首先,在经济学层面,经济运行周期对大宗商品定价至关重要。无论是从库存周期(Kitchininventory cycle40个月),还是固定资产投资周期(Ju
5、glar cycle-7-ll年),其综合作用的效果将投射到各类生产要素价格的相对强弱上,并体现出价格上下波动。同时,这一类型的影响因素不仅有更加坚实的理论依据和内在规律性,也是定性判断市场宏观特征的主要参考依据。但是,另一个方面,参考这类数据的市场参与者(或规则制定者),也越发娴熟利用这些经济周期规律,甚至为了抑制系统性风险,主动参与市场的逆周期操作。这为提取中长周期宏观数据的有效特征带来了越来越大的难度。其次,从驱动力角度来看。金融工具一般来说,都有多个驱动因素,而在不同时段不同因素的重要性也有可能发生变化,极端情况下还有可能某个因素成为绝对的主导因素,而难以体现其他因素的影响效果。所以,
6、一般意义上,对于驱动因素的判断主要基于历史数据(针对基本面、宏观指标数据等)的统计分析;同时,结合国内政经环境和更大范围的全球经济态势做出阶段性判断。再次,从市场博弈角度来看。任何标的物价格的形成都是交易者与其对手方在一次次的交易中形成。虽然,交易者的交易目的,持仓周期和风险偏好各不相同,但是一般都是基于明确的主观目标,并根据自身掌握信息来进行交易。一段时间内的价格形态和技术指标分析,都有助于对市场博弈情绪的判断,从而更敏感把握市场动态。综上所述,市场的复杂度造成了我们提取市场有效信息的难度。究其原因,上面所提到的各个层面的信息最终都将叠合到市场交易行为中来形成价格,并且一般而言难以确定单笔交
7、易的关键属性。所以,统计分析工具目前依然是金融数据分析的基础性工具;而新引入的数据分析方法是否能够更助于分解出数据中有用的信息就是我们投研方法论的一个重点研究方向。进一步,金融市场背后的价格影响因素无外乎上面我们分析的几个主要类型,那么其中若干关键因素,我们依然可以用简化且量化的逻辑来理解一多因子模型。本文下一章将会详细介绍商品因子的制作和测试结果。就我们所知,目前国内业界针对大宗商品体系并未有此类多因子模型体系,特别是针对结构化投资模式或全市场beta类型风险敞口而设计的市值中性化多因子体系。所以,我们会详细介绍挑选因子的主要考虑依据、制作方法、单因子测试效果、多因子组回归结果,以及和同类型
8、股票因子的对比分析结果。这里我们的因子组分为四种类型:1)国家因子2) 宏观因子3) 风格因子4) 商品板块因子这些类型因子的挑选和制作,正是基于我们上述对市场复杂性的认识,把对国内期货全市场(从截面和时序两个角度)都较有效的指标量化为影响因子。在和同类型股票因子的对比中,可以看到这一套因子组对全品种期货市场具有很好的整体解释力,同时每个因子都代表了关键的独立风险敞口,若干类型的风格因子还表现出了很好的投资潜力(如商品价值因子)。 有趣的是,这些商品因子与股票因子之间表现出了十分紧密的联动特性(领先/滞后相关性)。更进一步,我们将利用线性模型和AI模型,测试商品、股票因子间的价格(波动)传导规
9、律,以及因子对标的物的影响力强弱,从更坚实的预测性角度,为我们研究跨品种金融资产投资奠定数据基础。第二个问题,直接关系到我们的投研框架是否具备一定效率而非仅仅历史信息的解读。由于真实的金融市场并没有一个第一驱动力的“真实”模型,所以我们观察到的各种金融数据并不能直接对“真实”模型进行拟合,从而进一步判断数据拟合程度(如参数精度),甚至估算数据噪音水平等。相反,我们必须不断尝试不同模型去解读数据,对比它们的模型效能,利用最优模型总结出有用的市场规律,指导我们的投资行为。随着算法技术的高速发展,模型优化迭代的竞争态势越发激烈。本文我们将看到多种跨学科技术的整合应用,汇聚来自传统金工领域的统计类型时
10、序模型、信号分析方法和受到高度关注的AI技术等,挖掘多种新技术在投入到金融领域以后所发挥的各自效能。这里我们关注的重点将集中在不同方法对比的结果。首先,对于跨领域的技术移植而言,技术的适用性是我们最为关心的,那么是否能发挥出比原有技术更好的效率就是一个比较客观的评判标准。其次,技术的跨领域应用往往还涉及到算法本身的逻辑深化,信息提取方式的优化,以及特征工程优化等方面。这将是大量新旧技术融合的地方,也是本文将会深入讨论的部分。1.2 因子选取商品因子一直是一个讨论热度很高,但却体现出较大分化的领域。这方面,海内外都出现了大量的参考文献,在投资领域更是热度难减。这其中最主要的出发点是基于大宗商品的
11、经济学特征和市场交易特点出发,选取合适的多因子组,既能最大程度描述市场的系统性收益/风险敞口,又能作为数据基础为新型模型开发铺平道路。下文将详细介绍我们推出的国内全商品市场多因子模型构建方案,并在年报下篇展示更多(技术性)测试结果。1.3 模型基本方法本文将对比多种模型方法进行数据处理,因子效率判断,期股联动观察,因子解释力&预测能力的研究结果。数据处理:沿用我们之前开发的多周期数据分解方法11,将相关金融数据按周期长度分解为长/短周期,分别建模分析。相关性特征:1) 使用传统金工方法分析标的物与因子之间,期股因子之间相关性;2) 并利用协相关性的方法,观察上述因子间领先/滞后相关性 因子对标
12、的物的重要性判断及回测结果:1) 随机森林模型(Random Forest);2)基于进一步特征分析的深度学习模型。二、数据预处理2.1 多周期数据分解从上一年开始,我们就系统性的引入了多周期数据分解的方法,已累计了相当数量的研究报告,包括:高频策略研究;商品因子研究;CTA策略开发;套期保值研究等。该方法持续深化、推广的主要原因是从数据预处理的层面,多周期数据分解方法就能最大程度帮助我们拆分数据中不同周期范围上的主导驱动因素。现在该方法已经全面融入了我们的研究体系,实际上,其深刻地改变了我们看待数据的角度和提取信息的方式,比如深度神经网络模型就是根据这样的数据分析方式而量身定制了模型拓扑结构
13、。金融数据是一个低信噪比的系统。数据之间的关联性几乎难以通过统计方法在原始数据中挖掘,即使一段时间内出现的高度相关性,也难以保持其稳定的联系而外推到预测场景中去。所以,为了降低数据噪音,并提取不同周期上的数据特征,我们在对基础因子数据,截面类型商品因子数据分析研究时,都将对数据做适当的多周期分解,并在不同周期尺度上分别观察标的物的时序特征、挑选影响力较强的影响因子、分析因子之间的相关性等。我们使用测试数据的历史长度是2010年以来的国内商品期货数据,数据量较少,难以使用中长周期数据进行测试(如月度数据);而日度数据则又频率过高,从更广的实际投资角度来说有较高的门槛和技术性限制,所以本文主要给出周度的测试结果。我们的数据分解将分出短周期和长周期两类。图1:按照周期分解数据短周期整体分布70 0 3 0 8 0 3 9 8 0- 89 3 0- 8 9g8O分解i-6950502508*0090-OT90*90.0L00250分析&建模数据来源:Wind天软2.2 多周期分解数据应用场景1)寻找标的物主导定价因素:我们尝试用多周期分解的数据来把握本文最开始提出的第一个问题。不同层面的影响因素往往具