%0 Journal Article %A 张 虎 %A 郑家恒 %T 基于分类的汉语语料库词性标注一致性检查 %D 2008 %R 10.3969/j.issn.1000-3428.2008.08.031 %J 计算机工程 %P 90-92 %V 34 %N 8 %X 制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。
%U http://www.ecice06.com/CN/10.3969/j.issn.1000-3428.2008.08.031