基于舞弊三角理论的GA-BP舞弊智能识别与大数据应用研究.docx

上传人:lao****ou 文档编号:68642 上传时间:2023-01-19 格式:DOCX 页数:8 大小:15KB
下载 相关 举报
基于舞弊三角理论的GA-BP舞弊智能识别与大数据应用研究.docx_第1页
第1页 / 共8页
基于舞弊三角理论的GA-BP舞弊智能识别与大数据应用研究.docx_第2页
第2页 / 共8页
基于舞弊三角理论的GA-BP舞弊智能识别与大数据应用研究.docx_第3页
第3页 / 共8页
基于舞弊三角理论的GA-BP舞弊智能识别与大数据应用研究.docx_第4页
第4页 / 共8页
基于舞弊三角理论的GA-BP舞弊智能识别与大数据应用研究.docx_第5页
第5页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于舞弊三角理论的GA-BP舞弊智能识别与大数据应用研究.docx》由会员分享,可在线阅读,更多相关《基于舞弊三角理论的GA-BP舞弊智能识别与大数据应用研究.docx(8页珍藏版)》请在第一文库网上搜索。

1、arrnnmii蝴 ga-bp与大煽应用研究近年来国内财务舞弊案件迭出,如2019年的康美药业、康得新以及2020年的瑞幸等,不仅损害了投资者利益和市场可信度,影响证券市场资源配置功能的发挥,还对中国上市公司的声誉造成严重影响。舞弊动因更加复杂多样,舞弊方式不断新式化,国家对上市公司的监管也日益加强,识别公司财务舞弊的方法成为社会焦点。本文以舞弊三角理论为基础,结合前人已有研究,构建了基于财务信息与非财务信息的指标体系,共计64个指标,作为智能算法识别舞弊的基础。根据412个公司样本拟合,并用70个样本进行测试,得到了一个精准有效的GA-BP舞弊识别模型。同时将模型进行扩展,为构建一个以数据处

2、理为核心组织,基于大数据技术进行自动分析与识别的审计框架提供了初步方案。1文献综述1.1 舞弊动因理论孙丽亚(2010)从“三元素”理论出发,分析三元素的内在关系,创建了与舞弊特征相关的识别卡。洪宏等(2012)利用“GONE”理论探究得出影响五项舞弊发生的重大因素。此外,管杨威等(2014)选择“CRIME”舞弊动机五因素论为研究依据,对60个上市公司舞弊与非舞弊样本进行对比检验获得较好应用能力的识别模型。1.2 舞弊指标彭子坤等(2013)立足非财务指标从舞弊行为的根本原因出发认识该行为,以公司治理信息和外部环境信息来对非财务信息进行分类,分析现在舞弊识别中的缺陷与滞后性。而熊方军(201

3、5)立足财务指标,通过对几十家舞弊和非舞弊公司的16个财务指标构建以Logistic模型为基石的舞弊识别方法,对数据进行剖析后认为:公司财务指标的数据样本容量大小影响着预测正确率,容量越小正确率越高。1.3 舞弊识别模型夏明等(2015)选取神经网络组合模型,以BP、RPF神经网络的实验结果为基础,提出RPF-BP组合模型,效法于生物体内神经网络,具有较好的自适应及容错性和应用性,为有效识别会计舞弊提供了新的思路和方法。与之不同的是杨贵军等(2019)使用基于Benford律的Logistic模型,创造性地提出创建一个Benford因子并将其带入到Logistic模型。另外,潘梦雪(2019)

4、基于有较高准确率的预测算法随机森林,结合20142017年400多家有舞弊行为的公司进行建模验证,得到具有实用价值的风险识别模型。由上述的文献可以得知,在舞弊识别模型、指标、舞弊动因理论的选择上,学术界针对不同方向都得到了较为丰富的成果。本文旨在前人研究的基磁上进行创新性优化,以期获得具有更高可信度和实用价值的舞弊识别模型。2 GA-BP模型构建2.1 神经网络选取人工神经网络中的BP (Back Propagation)神经网络应用最为广泛,其常见结构有三层,分别是输入、隐含与输出层,不同层之间的神经元之间可以利用通道进行信息传输。神经元与通道构成了一个非线性有向图,具有很强的学习能力与处理

5、能力,可以根据输入数据修改每条通道的权重,从而映射出未知结构的数据关系。该模型的重点在于权矩阵的确定。选取个学习样本,每个样本有个指标值和1个输出值,所以期望输出值构成了目标向量,输出值构成了向量,把与之间的误差逐层逆向传递给上一层,通过不断修正神经元间信号通道的权重来减少误差,当误差减小到预先设定的标准,则学习状态结束。2.2 遗传算法优化虽然BP神经网络的学习能力较强,但收敛速度较慢,易困于局部最优解,为克服这一缺点选用遗传算法(Genetic Algorithm , GA)进行优化。遗传算法借鉴自然界遗传机制与适者生存思想,模拟生物遗传进化过程,通过选择、交叉、变异等操作循环繁殖来挖掘最

6、优个体,缩小最优解范围,用于优化BP神经网络模型的权值阈值。2.3 GA-BP模型构建GA-BP模型算法的主要步骤如下。2.3.1 网络初始化首先需要确定神经网络的拓扑结构,包括网络层数和权值阈值个数,并赋予初始值,确定网络的学习规则,这里引入动量项,使得学习因子可以根据需要变化。其中为学习因子,影响网络收敛速度;为动量因子,影响误差修正力度,一般取0.9o2.3.2 种群初始化确定染色体的长度并进行编码,产生一个初始种群,每一个都代表网络中一个对应的权重。2.3.3 适应度函数将网络预测误差绝对值和的倒数作为遗传算法中的适应度函数。2.3.4 遗传操作(1)选择操作根据适应度函数计算个体适应

7、值作为筛选依据,采用轮盘赌注法确定父代染色体,适应度值越大被选中的概率越高,体现了适者生存思想。第个染色体被选中的概率为:(2)交叉操作根据数值交叉法,以交叉概率对染色体、的第个基因进行交叉操作,产生新个体和,其余部分直接进行复制。(3)变异操作以突变概率对染色体的第个基因进行突变操作产生新个体。2.3.5 寻找最优个体根据每次计算的适应度值进行判断,若达到设定的精度要求,或循环次数达到所设的最大迭代次数,则循环终止得到最优个体,解码便可获取最优权值、阈值。2.3.6 训练BP神经网络将最优权值、阈值赋给BP神经网络进行训练,计算输出向量与目标向量的总误差,若未达到预定标准则反向更新权值、阈值

8、,通过正反向的交替过程逐步提高预测精度,如图1所示。3样本及指标体系3.1 样本选择本文研究数据全部来自证监会、国泰安CSMAR数据库以及沪深证券交易所。(1)舞弊样本选择。考虑到处罚决定与行为发生相比存在一定的时滞性,近期存在舞弊行为的公司可能未被处罚,导致被误认为非舞弊公司,本文所选取的舞弊公司样本来源于20152019年证监会处罚公告,最终选取了20142018年发生舞弊的263个公司。样本筛选过程考虑以下方面。由于处罚原因并非都是舞弊,所以擅自改变资金用途、操纵股价等非舞弊行为导致违规的样本需剔除;部分上市公司多年度发生了舞弊行为,为避免样本重复仅选择第一次发生舞弊年份的信息;剔除金融

9、业上市公司,因报表结构与其他行业差异较大;剔除ST公司及上市未满三年的公司,具体如表1所示。(2)非舞弊样本选择。为了避免样本规模因素对模型构建产生影响,按照舞弊样本与非舞弊样本1 : 1的原则选取对应年度的263个非舞弊公司样本。筛选原则为可比性。配对的两个公司资产总额比值控制在80%120%;具有相同的股票代码开头;所处行业相同,行业划分以证监会行业分类(2012)中的第一级作为依据。非舞弊公司在配对年度需已上市满三年。3.2 指标选取(1)财务信息指标。根据舞弊三角理论可知财务指标可以在一定程度上反映出公司的经营压力,基于客观性和可行性的原则,本文从偿债能力、经营能力、盈利能力等七大方面

10、选取了典型财务指标,以反映公司的发展状况,如表3所示。(2)财务信息增量指标。当公司处于稳定发展阶段时,其财务指标不会发生较大波动,若公司试图通过虚增利润或虚列资产等方式粉饰数据,其相关的财务指标便会发生较大的波动,偏离真实的发展趋势。针对上述23值I财务指标分别将舞弊年份与上一年进行对比,求出增量数据AX1, AX2, .AX23,其中是从营业收入变动率与总资产变动率的差距探讨与舞弊的关系。(3)非财务信息指标。当公司有较好的治理水平和股权结构,能做到权利相互制衡、职务分离时,则在一定程度上制约舞弊行为发生。本文从机会角度选取股权结构、治理综合信息以及三会情况相关指标。三因素之一的借口可以通

11、过薪酬合理体现,其与高管对公司的不满情绪有反向关系,具体选取17个指标如表4所示。4实证分析4.1 独立样本T检验在模型拟合过程中,舞弊组与非舞弊组间没有显著差异的指标贡献度较低,故采用独立样本T检验的方法,确定舞弊样本与非舞弊样本对同一指标的表现是否有显著差别,即均值和方差是否来源于同一总体。从而对已选定的变量进行初步筛选,便于高效构建模型。为了尽可能保证数据的真实性,减少缺失值对检验的干扰,应剔除指标缺失较多的公司,并删除其配对公司,得到482个公司样本,剩余空缺值用所属的舞弊组或非舞弊组的平均值填补,然后通过SPSS进行检验。在分析上述64个指标的独立样本T检验结果时,首先根据莱文方差等

12、同性检验值判断指标是否具有方差齐性,然后选择对应类别的Sig.检验结果,如表5所示。共筛选出8个在0.05显著水平下具有显著差异的指标,分别为资产负债率增量AX3应收账款周转率增量AX6、固定资产周转率增量AX8、营业毛利率、财务杠杆、营业收入变动率与总资产变动率之差、流通股比例和股东大会召开次数。4.2 数据预处理因为不同指标的量纲和数量级都有差异,为了消除其对模型的影响,首先应对指标进行标准化处理,具体处理公式为其中,为第个指标的第个数据,为第个指标的最小值,为第个指标的最大值。主成分分析法可进一步浓缩指标,但根据8个指标的KMO和巴特利特检验可知,KMO=0.528不符合主成分分析的前提

13、条件,故不进行降维转换,如表6所示。4.3 GA-BP模型训练与分析在本文构建的舞弊识别模型中,将筛选出的8个指标作为输入量,是否为舞弊公司作为输出数据,其中代表非舞弊,1代表舞弊,用MATLAB2016B进行神经网络训练。将482个公司样本分为训练组和测试组,训练组412个样本用于神经网络的学习,测试组70个样本用于对神经网络的有效性进行检验,得到GA-BP模型的识别准确度如表7所示。综合来看,不论是训练样本还是测试样本,其对舞弊组识别的准确率都要高于非舞弊组,即倾向于误判为舞弊组。根据预测准确度来看,模型对未知公司的舞弊识别能力较高,大致为79%,说明构建的GA-BP模型可以作为信度较高的

14、舞弊识别模型之一,在未来大数据环境下可以进一步挖掘更具有代表性的指标,探究如何更加有效地利用智能算法识别舞弊行为。5应用与展望5.1 大数据在财务审计中的应用特点信息化时代使会计信息由孤立的系统变成一个关于财务信息、人力资源、产品生产供应与销售为一体的综合复杂信息系统。而大数据时代的到来,正是使这种信息数据结构由单一、局部变成多维、全面,使得多种舞弊行为更易被分析识别,压缩了企业舞弊空间。5.1.1 对象全面性大数据时代不再是对单一的财务报表或财务信息进行分析,而是对财务指标与非财务指标多个方面的信息进行分析,对所有可能获得的公司财务信息进行分析,大大提高了审计对象的全面性和审计结果的准确性。

15、5.1.2 过程便捷性大数据分析模式下,因为可以获得全部数据与指标,因此通过智能化选择对实时获得的数据信息进行筛选和处理,对于多个可能性同时进行信息处理,精准找到将要得到的数据结果。5.2 大数据在财务审计中的风险5.2.1 信息数据更改随着电子信息技术日益增强,企业的信息数据面临企业内部与外界两部分干扰,通过公司内部信息技术更改企业数据,达成舞弊结果,外部人员通过信息技术手段恶意更改企业数据,两方面皆会对审计结果产生重大影响。5.2.2 信息数据缺失电子形式的审计数据存在的稳定性严重依赖于信息系统,因此信息系统平台的安全性与可靠性变得至关重要。其次电子审计数据在传递过程中极易发生更改与缺失,使得审计数据的真实性、可靠性、安全性有极大的隐患。5.2.3 系统处理可靠性在计算机根据模型进行审计识别时,识别模型对于审计数据处理的结果存在不确定性,即审计模型结果的可信度问题。局限于审计识别模型的科学方法,多数审计模型的结果准确性存在信任问题。5.3 大数据对企业财

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服