《Python中文自然语言处理基础与实战(教案)第4章中文分词技术.docx》由会员分享,可在线阅读,更多相关《Python中文自然语言处理基础与实战(教案)第4章中文分词技术.docx(5页珍藏版)》请在第一文库网上搜索。
1、第4章中文分词技术教案课程名称:Python中文自然语言处理基础与实战课程类别:选修适用专业:人工智能类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分:4.0学分本章学时:6学时一、材料清单(1)Python中文自然语言处理基础与实战教材。(2)配套PpT。(3)引导性提问。(4)探究性问题。(5)拓展性问题。二、教学目标与基本要求1教学目标主要介绍了基于规则的分词方法、基于统计的分词方法以及使用jieba进行分词。首先介绍了基于规则的正向最大匹配法、逆向最大匹配法和双向最大匹配法3种中文分词方法的基本原理,并使用Python实现逆向最大匹配法分词。接着对基于统计的n元语法模
2、型和HMM分词方法的原理进行讲解,使用Python实现基于HMM的分词。最后介绍中文分词工具jieba库的分词模式,通过jieba库完成高频词提取。2.基本要求(I)了解中文分词的基本概念。(2)熟悉基于规则分词的基本概念和常用方法。(3)熟悉基于统计分词的基本概念、n元语法模型和隐马尔可夫模型基本原理。(4)掌握中文分词工具jieba库的使用方法。(5)掌握基于隐马尔可夫模型分词和基于jieba分词的实现方法。三、问题1.引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。(1)中文分词是什
3、么?(2)分词的作用是什么?(3)分词方法有哪些?(4)jieba分词的步骤是什么?2.探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。(1)不同的基于规则的分词方法有哪些区别?(2)基于规则的分词方法有什么缺陷?(3)基于统计的分词方法有什么优势?3.拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。(1)如何统计词频?(2)如何
4、使用隐马尔可夫模型进行分词?四、主要知识点、重点与难点1.主要知识点(1)中文分词的基本概念。(2)基于规则分词的基本概念和常用方法。(3)基于统计分词的基本概念。(4)n元语法模型和隐马尔可夫模型基本原理。(5)中文分词工具jieba库的使用方法。(6)基于隐马尔可夫模型分词的实现方法。(7)基于jieba分词的实现方法。2.重点(1)基于规则分词的基本概念和常用方法。(2)中文分词工具jieba库的使用方法。(3)基于jieba分词的实现方法。3.难点(I)n元语法模型和隐马尔可夫模型基本原理。(2)基于隐马尔可夫模型分词的实现方法。五、教学过程设计1理论教学过程(1)中文分词的基本概念。
5、(2)基于规则分词的基本概念。(3)基于规则分词的常用方法。(4)基于统计分词的基本概念。(5)n元语法模型的基本原理。(6)隐马尔可夫模型基本原理。(7)中文分词工具jieba库的使用方法。(8)基于隐马尔可夫模型分词的实现方法。(9)基于jieba分词的实现方法。2.实验教学过程(1)使用隐马尔可夫模型进行中文分词。(2)使用jieba分词进行分词并统计词频。六、教材与参考资料1 .教材肖刚,张良均.Python中文自然语言处理基础与实战M.北京:人民邮电出版社.2023.2 .参考资料I张良均.Python数据分析与挖掘实战M.北京:机械工业出版社.2015.2张良均.Python与数据挖掘M.北京:机械工业出版社.2016.3宗成庆,统计自然语言处理,清华大学出版社,北京,2013年4李航,统计学习方法,清华大学出版社,北京,2012年