机器学习实验报告.docx

上传人:lao****ou 文档编号:101967 上传时间:2023-03-10 格式:DOCX 页数:7 大小:15.36KB
下载 相关 举报
机器学习实验报告.docx_第1页
第1页 / 共7页
机器学习实验报告.docx_第2页
第2页 / 共7页
机器学习实验报告.docx_第3页
第3页 / 共7页
机器学习实验报告.docx_第4页
第4页 / 共7页
机器学习实验报告.docx_第5页
第5页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《机器学习实验报告.docx》由会员分享,可在线阅读,更多相关《机器学习实验报告.docx(7页珍藏版)》请在第一文库网上搜索。

1、机器学习试验报告朴实贝叶斯学习和分类文本(2022年度秋季学期)一、试验内容问题:通过朴实贝叶斯学习和分类文本目标:可以通过训练好的贝叶斯分类器对文本正确分类二、试验设计试验原理与设计:在分类(classification)问题中,经常需要把一个事物分到某个类别。一个事物具有许多属性,把它的众多属性看做一个向量,即x=(xl,x2,x3,.,xn),用x这个向量来代表这个事物。类别也是有许多种,用集合Y=yl,y2,ym表示。假如属于yl类别,就可以给打上yl标签,意思是说属于yl类别。这就是所谓的分类(Classification)。x的集合记为X,称为属性集。一般X和Y的关系是不确定的,你

2、只能在某种程度上说x有多大可能性属于类yl,比如说x有80%的可能性属于类yl,这时可以把X和Y看做是随机变量,P(YX)称为Y的后验概率(posterior probability),与之相对的,P(Y)称为Y的先验概率(priorprobability) lo在训练阶段,我们要依据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P(YX)o分类时,来了一个实例x,在刚才训练得到的一堆后验概率中找出全部的P(Y),其中最大的那个y,即为x所属分类。依据贝叶斯公式,后验概率为p(yx)=P(XY)P(Y)P(X)在比较不同Y值的后验概率时,分母P(X)总是常数,因此可以忽视。先验概率P

3、(Y)可以通过计算训练集中属于每一个类的训练样本所占的比例简单地估量。在文本分类中,假设我们有一个文档dx, X是文档向量空间(documentspace),和一个固定的类集合C=cl,c2,cj,类别又称为标签。明显,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合作为训练样本,XCo 例如:=Beijing joins the World Trade Organization,China对于这个只有一句话的文档,我们把它归类到China,即打上china标签。我们期望用某种训练算法,训练出一个函数,能够将文档映射到某一个类别:y:X玲C这种类型的学习方法叫做有监督学习,由于事先有

4、一个监督者(我们事先给出了一堆打好标签的文档)像个老师一样监督着整个学习过程。朴实贝叶斯分类器是一种有监督学习。试验主要代码:1、由于中文本身是没有自然分割符(如空格之类符号),所以要获得中文文本的特征变量向量首先需要对文本进行中文分词。这里采纳极易中文分词组件public class ChineseSpliter * 归备定的文*迸行中文一* 0param text洽定的文加* param splitToken用于分鸵的椁记,江”|* return分M亮辛的文本* /public static String split(String textString splitToke(String r

5、esult = null;hMAnalyer analyzer = new MMAnalyzer();tryresult = analyzersegment(textj splitToken);catch (IOException e)(eprintStackTrace(); Ireturn result;)2、先验概率计算,N表示训练文本集总数量。public class FriorFrcbability(private static TrainingData2anager td =new Training2ataMansger ();*/* 先验概率* 6param c给定的分类* Ret

6、urn给定条件下的先始概率* /public 3tatic flcat calculatePc(String c)(float ret OF;flcat Nc = tdngetTrainingFileCount0fCls33ification(c);flcat N = tdr. getTrainingFileCcunt ();ret = Nc / N;return ret;3、条件概率计算,为在条件A下发生的条件大事B发生的条件概率。x给定的文本属性,c给定的分类public static float calculatePxc(String x. String c)float ret = OF

7、;float Nxc = tdm.getCountConrainKeyOfCla33ification(cr x);float Nc = t. getTraininFileC,cuntOfClassification(c);float V = tdm. ge*Traning21a33ificatic3().length;ret = (Nxc 1) / (Nc + M + V); 为了避免出现二这样极端情况,进行加权处理return reu;4、对给定的文本进行分类public String classify(String *ex)(String( erxs = null;terms= Chin

8、eseSplizer.split(ztf n ) .spliz( ) /中文分词处理(分词后结果可能还包含有信用词)terms = DiopStopWards (grms);去掉信用词,以免星狮)分类Spring Cls33e3 = tdr.etTrningCla33ificazion3 ()float probility = 0.0F;Li3u era = new ArrayLi3C();/分类结果for (int i = 0; i Cla33e3.length; i+)(String Ci = Classes i; 第1个分类prebility = calcProd(terms. Ci);

9、计算给定的文本属性向里一皿在给定的分类Ci中的分类条件概率保存分类结果Cl33ifyResult cr = new ClassifyResult();cr. classification = Ci; 分类cr.prcbility = probi工icy; 关键字在分类的条件概率Syswm.out.printin(wIn process-.w);System.outprintln(Ci + + probiliLy);era.add(cr);三、测试数据训练集文本:数据样例选用Sogou试验室的文本分类数据的mini版本C000007COOO8COO1OCOO13C0014COO16COO2OCO

10、O22COO23C0024ClassList.txt类别及标号2016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182006/10/26 11:37文件夹文件夹文件夹文件夹文件夹文件交文件失文件夹文件交文件突乂4义相C000013C000014C000016C000020C000022C000023C000024车经事;财Iwwx 车测试数据文本:微软公司堤出以4虹亿美元

11、的价格收购雅虎中国网月1日报道美联社消息,微软公司堤出以戛亿美元现金加股票的价格收购搜索网站是虎公司。微软提出以每股式美元的价格收购雅虎。微软的收购报价较雅虎:月31日的收盘价少美元溢价及配微软公司称雅虎公司的股东可以选择以现金或股票进行交易。微软和雅虎公司在2。灾年底和20年初已在寻求双方合作。而近两年,雅虎一直处于困境:市场份额下滑、运营业绩不佳、股价大幅下趺。对于力图在互联网市场有所作为的微软来说,收购雅虎无疑是一条捷径,因为双方具有非常强的互补性。(小桥通过观看可知,该文本预期为IT类文章三、试验结果运行结果如下图In process.C000007: 4.0854457E-7In p

12、rocess.C000008: 3.7337093E-9In process.C000010: 3.9367328E-4In process.C000013: 4.6463947E-11In process.C00O014: 1.3958673E-20In process.Cael6 1.4360195E-15In process.C000020: 6.3035146E-18In process. C000022: 5.2257925E-16In process.C00023 9.089387E-22In process. Ca024= 3.545727E-18李属于C000010依据数据集的分类编号可知,该测试文本属于IT,与预期相符五、遇到的困难及解决方法、心得体会通过此次试验,让我对朴实贝叶斯有了更深刻的理解,原本只是了解基本的先验概率公式。试验过程中学习了中文的分词以及停用词的使用,使分类更加的精确,也熟悉到了贝叶斯宽阔的有用空间,对于机器学习这门课的爱好也更加深厚。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服