基于HMM和Viterbi算法的中文词性标注（NLP-Part-Of-Speech-tagging）

如何利用HMM+Viterbi算法进行人民日报语料库的中文词性标注。

理论描述

词性标注又称为词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或者其他词性的过程。词性标注是很多NLP任务的预处理步骤，如句法分析，经过词性标注后的文本会带来很大的便利性，但也不是不可或缺的步骤。

利用隐马尔可夫模型（HMM）和维特比算法（Viterbi）实现人民日报语料库的词性标注。

1、get_trans.py文件用于获取转移概率矩阵

2、get_emit.py文件用于获取发射概率矩阵

3、A.txt为转移概率矩阵

4、B.txt为发射概率矩阵

5、PeopleDaily_Clean.txt为做了词性标注的人民日报语料库

6、PeopleDaily_Token.txt为去除词性标注的人民日报语料库

在词性标注代码中没有用到A.txt和B.txt文件，因为在代码中定义好了转移矩阵和发射矩阵，将两个矩阵输出为txt文件是在另外的代码中实现的，因此这两个部分是相互独立的。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
A.txt		A.txt
B.txt		B.txt
HMM+Viterbi.py		HMM+Viterbi.py
PeopleDaily_Clean.txt		PeopleDaily_Clean.txt
PeopleDaily_Token.txt		PeopleDaily_Token.txt
README.md		README.md
get_emit.py		get_emit.py
get_trans.py		get_trans.py