《Python中文自然语言处理基础与实战(教案)第7章文本向量化.docx》由会员分享,可在线阅读,更多相关《Python中文自然语言处理基础与实战(教案)第7章文本向量化.docx(4页珍藏版)》请在第一文库网上搜索。
1、第7章文本向量化教案课程名称:Python中文自然语言处理基础与实战课程类别:选修适用专业:人工智能类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:6学时一、材料清单(1)Python中文自然语言处理基础与实战教材。(2)配套PpT。(3)引导性提问。(4)探究性问题。(5)拓展性问题。二、教学目标与基本要求1教学目标主要介绍文本向量化的基本概念和两种表示方法。首先介绍词向量和文本向量化的基本概念。接着分别介绍文本的离散表示和分布式表示方法,其中离散表示介绍了one-hot.BOW模型和TF-IDF3种表示方法,分布式表示介绍Word2Vec模型和Doc
2、2Vec模型各自的两个模型。最后结合代码详细介绍利用gensim进行向量化的模型训练和应用。2.基本要求(1) 了解文本向量化的基本概念。(2) 了解文本离散表示的常用方法。(3)熟悉文本向量化模型Word2Vec和Doc2Vec的基本原理。(4)掌握Word2Vec和Doc2Vec模型训练的流程和文本相似度的计算方法。三、问题1 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。(I)文本向量化是什么?(2)文本向量化有哪些形式?2 .探究性问题探究性问题需要教师深入钻研教材的基础上精心
3、设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。(1)离散表示和分布式表示的区别是什么?(2) WOrd2Vec模型与神经网络模型的关系是什么?(3) Doc2Vec模型与Word2Vec模型又有什么不同?3 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。(1)如何计算文本的相似度?(2)如何使用文本向量化进行论文查重?四、主要知识点、重点与难点1主要知识点(1)文本向量化的基
4、本概念。(2)文本离散表示的常用方法。(3)文本向量化模型Word2Vec和Doc2Vec的基本原理。(4) Word2Vec和Doc2Vec模型训练的流程。(5)文本相似度的计算方法。2.重点(1)文本向量化模型Word2Vec和Doc2Vec的基本原理。(5) Word2Vec和Doc2Vec模型训练的流程。(3)文本相似度的计算方法。3.难点(1)文本向量化模型Word2Vec和Doc2Vec的基本原理。(6) Word2Vec和Doc2Vec模型训练的流程。五、教学过程设计1.理论教学过程(1)文本向量化的基本概念。(2)文本离散表示的常用方法。(7) WOrd2Vec的基本原理。(8
5、) Doc2Vec的基本原理。(9) WOrd2Vec模型训练的流程(10) Doc2Vec模型训练的流程。(7)文本相似度的计算方法。2.实验教学过程(1)使用Word2Vec模型计算文本的相似度。(2)使用Doc2Vec模型计算文本的相似度。六、教材与参考资料1 .教材肖刚,张良均.Python中文自然语言处理基础与实战M.北京:人民邮电出版社.2023.2 .参考资料I张良均.Python数据分析与挖掘实战M.北京:机械工业出版社.2015.2张良均.PythOn与数据挖掘M.北京:机械工业出版社.2016.3宗成庆,统计自然语言处理,清华大学出版社,北京,2013年4李航,统计学习方法,清华大学出版社,北京,2012年