2023年整理贝叶斯网络预测信用卡欺诈行为.docx

上传人:lao****ou 文档编号:492271 上传时间:2023-12-19 格式:DOCX 页数:6 大小:111.56KB
下载 相关 举报
2023年整理贝叶斯网络预测信用卡欺诈行为.docx_第1页
第1页 / 共6页
2023年整理贝叶斯网络预测信用卡欺诈行为.docx_第2页
第2页 / 共6页
2023年整理贝叶斯网络预测信用卡欺诈行为.docx_第3页
第3页 / 共6页
2023年整理贝叶斯网络预测信用卡欺诈行为.docx_第4页
第4页 / 共6页
2023年整理贝叶斯网络预测信用卡欺诈行为.docx_第5页
第5页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2023年整理贝叶斯网络预测信用卡欺诈行为.docx》由会员分享,可在线阅读,更多相关《2023年整理贝叶斯网络预测信用卡欺诈行为.docx(6页珍藏版)》请在第一文库网上搜索。

1、贝叶斯网络预测信用卡欺诈行为贝叶斯网络应用(1)一、理论说明1 .贝叶斯网络的应用使用贝叶斯网络,可以通过将观察到并记录下的数据与实际常识结合起来构建概率模型,以通过使用表面看上去不相关的属性确定发生的可能性,找出一个结果到底与哪些影响变量相关,或者说,究竟是什么因素影响了结果。贝叶斯分类模型继承了贝叶斯网络的优点并具有良好的分类精度,正受到越来越多的关注,并广泛的应用在欺诈识别、客户管理、医学诊断上、互联网搜索上,比如,利用贝叶斯分类模型建立客户的等级分类,如信用等级、忠诚等级,当新客户出现时,即可以按该分类模型对其等级情况做出分类预测。又比如本文所例举的,根据信用卡用户的信用记录及相关信息

2、建立用户的信用模型,并监测哪些用户会做出贷款拖欠的行为。2 .贝叶斯网络模型(1)贝叶斯原理统计学分成两派,一派是传统的频率学派,一派是贝叶斯派,能够在统计学界自成一派,可见其影响。贝叶斯的核心思想在于一个公式P(AIX)=P(XIA)P(A)ZP(X)其中A是随机变量,X是数据,P(X1A)是似然,P(A)是先验分布,P(AIX)是后验分布,P(X)是一个数。这个公式的意义在于,我们可以通过一个经验的概率,加上数据的实践,来得出一个后验的概率,也就是说“经验+数据=结果”。那么将这个原理用在贝叶斯网络上,即将先验贝叶斯网络和数据相结合而得到一个后验贝叶斯网络。那么什么是贝叶斯网络?(2)贝叶

3、斯网络模型概述贝叶斯网络(BayeSiannetwork),又叫概率因果网络、信任网络、知识图等,是一种有向无环图。一个贝叶斯网络由两个部分构成,一个是具有K个节点的有向无环图,图中有节点和连接节点的有向边,节点代表随机变量,有向边代表了节点间的相互关联关系。另一个是与每个节点相关的条件概率表(COnditiona1PrObabi1itieSTab1e,CPT)P,它表示了节点和父节点之前的相关关系,这个关系就是条件概率。那么由这个图G和概率表P构成的网络就是贝叶斯网络,贝叶斯网络有如下假设(或者规定):给定一个父节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节点子集。即如

4、果用A(Vi)表示非Vi后代节点构成的任何节点子集,用(Vi)表示Vi的直接双亲节点,则p(ViA(Vi),(Vi)=p(Vi(Vi)在这个假定下,变量Vi的联合概率就是:给定每个节点的父节点情况下,每个节点条件概率只积,如图中的联合概率为p(V1,V2,.,V6)=p(V6V5)p(V5V2,V3)p(V4V2)p(V3V1)p(V2VI)p(VI)这就是贝叶斯网络和其网络的概率.我们可以让贝叶斯网络通过数据不断的学习修正,上次修正的贝叶斯网络又是下次学习的先验贝叶斯网络,持续的学习使得网络更能体现数据的意义,即,让数据来说话!(2)树增强朴素贝叶斯网络模型概述尽管贝叶斯网络有良好的逻辑性、

5、预测性、并在处理复杂相关问题上有很大的优势,但它的假设还是带给了它一定的局限性(还记得刚才说的贝叶斯网络那拗口的假设?一一给定一个父节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节点子集)。近年来,很多学者对贝叶斯网络模型做了改进,其中一个重要的改进模型就是树增强的朴素贝叶斯网络模型(TreeAugmentedNaiveBayes),英文简称TANoTAN放松了独立性的假设,它的核心在于:除了父节点之外,每个节点还可以有一个节点的边指向它。树增强的朴素贝叶斯主要用来分类,由于他允许一个节点被除父节点之外的另一个节点指向,因此有更高的分类精度。但是TAN要求节点,即随机变量均

6、为离散型,因此有必要将连续的变量离散化,但这却损失了连续变量中包含的信息。(3)马尔科夫链贝叶斯网络模型概述马尔科夫毯贝叶斯网络模型(MarkovBIanketA1gorithms),事前不对节点之前做边指向,换句话说,初试图是一个只有节点没有边的空图,而后通过一定的检验来辨认变量之间的条件独立,并逐步识别出贝叶斯网络的结构。但这也会带来计算的复杂性,并花费更长的时间,一个办法是用特征选择过程(FeatureSe1ection)来筛选对目标变量关系显著的变量。二、项目案例分析1 .项目案例说明某银行希望依据现有的客户贷款拖欠数据,来预测未来哪些潜在客户可能在偿还贷款时有相关问题,以便对这些“不

7、良风险的客户减少贷款,或者为他们提供其他产品。现有的客户数据包含了当前贷款拖欠情况(defau1t)、客户年龄(age).受教育程度(ed)、职业(emp1oy)、家庭地址(address)、收入(income)、负债率(debtinc)、信用卡债务(creddebt),其他债务(Othdebt)和三个其他相关变量Preddef1、Preddef2、predde,现在用SPSSC1EMENTINE对已有的数据进行三种贝叶斯网络模型的建模一一TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网络,并同时用人工神经网络模型建模,以比较这四个模型的分类效果。ageedemp1oyaddress

8、incomedebtinccreddebtothdebtdefau1tpreddef1preddef2preddef347117214300560591.8200030600201142622813626001000432.1702939323604228902918627.9.80.402.24010680.20413224282121216.0018.00.242.641.62978.620464596925402320017602.143.49086131773744466445292669.00670713.9200164601520161264312521640016.70.959.

9、740.00144.0006441758332128580018.403.087.590.27671.21953.472792632137.001420205.050503324794534036451315200021011320076420529209498301110220010.501.141.170.43370.40523.240722732726.006.00.72.840.28874.23306J4918251427.0014401022.8702311017780346202518135.002900894007496048001044226267450026.006.055.

10、650.95005.94642.70916302104220016.101.412.130.21196.254183985132212154.0014403.204.580336004174234622 .软件实现使用C1EMENTINE读入数据,并将defau1t的字段方向改为输出,用过滤节点过滤掉无效的空值。接着用对数据创建TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网络,和人工神经网络(也可以用来预测)。*一三f二一&TANMarkovMarkov-FS:人工神绘3 .结果说明(1)TAN模型如下图:贝叶斯网络iyj安僦亚要性H1.df*u1t可以看出,TAN模型创建的结果是

11、变量preddef2对是否拖欠贷款最重要,其次是变量preddef1和其他负债情况(Othdebt)(2)马尔科夫毯模型结果如下:贝叶斯网络Tjt*堇要性()2520015Ooio变心及IC性*i11*海攵/可以看出,马尔科夫毯模型结果是变量Preddef3对是否拖欠贷款最重要,其次是变量preddef2和preddef1.(3)特征选择的马尔科夫毯模型结果如下:由于进行了特征选择,图中可以看出只选择了两个变量,对拖欠贷款最重要的是Preddef2。(4)人工神经网络结果:变量重要性人工神经网络结果是preddef2对是否拖欠贷款最重要,其次是变量PreddefI,地址(address).(5

12、)四种模型效果评估C1EMENT1NE提供了“分析”节点,以评估模型的预测效果。将分析节点添加入流,执行得到评估结果如下:白单独模型比较TAN与defau1t确误计正错总5938471%10715.29%700比较MarkOV与defau1t丽误计止错总bU4bb.1s为9613.71%700B比较Markov-FS与defau1t正确57381.86%错误12718.14%总计700白比较人工神经网络与defau1t57882.57%12217.43%700正错总确误计52890.1%589.9%586可以看出,准确率最高的是马尔科夫毯模型,在数据学习后,对现有数据中贷款的拖欠情况预测的正确率是86.29%,此外,特征选择的马尔科夫毯模型只用了两个变量,就达到了81.86%的效果,节省了数据收集和输入的时间以及处理时间。(6)预测建模的最终目的还是要来预测,根据模型比较结果,决定用正确率最高的马尔科夫毯模型,该银行在新的数据的基础上,可以直接用刚才生成的马尔科夫毯模型进行预测。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服