Skip to content

如何利用HMM+Viterbi算法进行人民日报语料库的中文词性标注。

Notifications You must be signed in to change notification settings

Surge-Dan/NLP-Part-Of-Speech-tagging

Repository files navigation

基于HMM和Viterbi算法的中文词性标注(NLP-Part-Of-Speech-tagging)

如何利用HMM+Viterbi算法进行人民日报语料库的中文词性标注。

理论描述

词性标注又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。

目的

利用隐马尔可夫模型(HMM)和维特比算法(Viterbi)实现人民日报语料库的词性标注。

Usage

1、get_trans.py文件用于获取转移概率矩阵

2、get_emit.py文件用于获取发射概率矩阵

3、A.txt为转移概率矩阵

4、B.txt为发射概率矩阵

5、PeopleDaily_Clean.txt为做了词性标注的人民日报语料库

6、PeopleDaily_Token.txt为去除词性标注的人民日报语料库

说明

在词性标注代码中没有用到A.txt和B.txt文件,因为在代码中定义好了转移矩阵和发射矩阵,将两个矩阵输出为txt文件是在另外的代码中实现的,因此这两个部分是相互独立的。

About

如何利用HMM+Viterbi算法进行人民日报语料库的中文词性标注。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages