如何利用HMM+Viterbi算法进行人民日报语料库的中文词性标注。
词性标注又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。
利用隐马尔可夫模型(HMM)和维特比算法(Viterbi)实现人民日报语料库的词性标注。
1、get_trans.py文件用于获取转移概率矩阵
2、get_emit.py文件用于获取发射概率矩阵
3、A.txt为转移概率矩阵
4、B.txt为发射概率矩阵
5、PeopleDaily_Clean.txt为做了词性标注的人民日报语料库
6、PeopleDaily_Token.txt为去除词性标注的人民日报语料库
在词性标注代码中没有用到A.txt和B.txt文件,因为在代码中定义好了转移矩阵和发射矩阵,将两个矩阵输出为txt文件是在另外的代码中实现的,因此这两个部分是相互独立的。