用于中文缺省识别研究的机器学习方法

doi:10.3969/j.issn.1000-3428.2012.22.032

计算机工程 ›› 2012, Vol. 38 ›› Issue (22): 130-132. doi: 10.3969/j.issn.1000-3428.2012.22.032

所属专题：机器学习；

用于中文缺省识别研究的机器学习方法

秦凯伟 ^1,2，孔芳 ^1,2，李培峰 ^1,2，朱巧明^1,2，徐生芹 ^1,2

(1. 苏州大学计算机科学与技术学院，江苏苏州 215006；2. 江苏省计算机信息处理技术重点实验室，江苏苏州 215006)

收稿日期:2012-02-29 修回日期:2012-03-20 出版日期:2012-11-20 发布日期:2012-11-17
作者简介:秦凯伟(1987－)，男，硕士研究生，主研方向：自然语言处理；孔芳、李培峰，副教授；朱巧明，教授、博士生导师；徐生芹，硕士研究生
基金资助:
国家自然科学基金资助项目(90920004, 60970056, 61070123, 61003153)；江苏省高校自然科学重大基础研究基金资助项目(08KJA520002)；苏州市科技计划基金资助项目(SYG201112)

Machine Learning Approach for Chinese Ellipsis Identification Study

QIN Kai-wei ^1,2, KONG Fang ^1,2, LI Pei-feng ^1,2, ZHU Qiao-ming ^1,2, XU Sheng-qin ^1,2

(1. School of Computer Science & Technology, Soochow University, Suzhou 215006, China; 2. Key Lab of Computer Information Processing Technology of Jiangsu Province, Suzhou 215006, China)

Received:2012-02-29 Revised:2012-03-20 Online:2012-11-20 Published:2012-11-17

摘要/Abstract

摘要： 实现一个基于机器学习的中文缺省项识别系统，对语料库进行预处理，选取多个特征及其组合，通过支持向量模型(SVM)构建的缺省识别模型进行中文缺省识别。研究系统在不同句法分析树上的性能。实验结果证明，该识别系统在标准的句法分析树上F值能达到84.01%，在自动句法树上能达到68.22%。

关键词: 缺省, 自然语言处理, 句法分析树, 机器学习, 语料, 缺省识别

Abstract: This paper presents a system for ellipsis identification in Chinese which is based on machine learning. The system can be used to select a number of features and feature combinations through preprocessing the corpus. And Chinese ellipsis identification can also be achieved by the ellipsis identification model built by Support Vector Machine(SVM). The performance of the system in different parser tree is studied as well. Experimental result shows that the system has F value of 84.01% on the standard parser tree, and 68.22% on automatic sentence parser tree.

Key words: ellipsis, natural language processing, sentence parse tree, machine learning, corpus, ellipsis identification

中图分类号:

TP391

秦凯伟, 孔芳, 李培峰, 朱巧明, 徐生芹. 用于中文缺省识别研究的机器学习方法[J]. 计算机工程, 2012, 38(22): 130-132.

QIN Kai-Wei, KONG Fang, LI Pei-Feng, SHU Qiao-Meng, XU Sheng-Qin. Machine Learning Approach for Chinese Ellipsis Identification Study[J]. Computer Engineering, 2012, 38(22): 130-132.

http://www.ecice06.com/CN/Y2012/V38/I22/130

[1]	郭艳霞, 金勇, 唐宏, 彭金枝. 基于动态卷积与残差门控的多模态情感识别[J]. 计算机工程, 2023, 49(7): 94-101.
[2]	李静雯, 赵奎. 基于改进PCFG算法的口令猜测方法[J]. 计算机工程, 2023, 49(5): 38-47.
[3]	陈治旭, 靳雁霞, 芦烨, 杨晶, 刘亚变, 史志儒. 基于子图卷积神经网络的多精度服装建模方法[J]. 计算机工程, 2023, 49(4): 174-181.
[4]	杨文忠, 丁甜甜, 康鹏, 卜文秀. 基于舆情新闻的中文关键词抽取综述[J]. 计算机工程, 2023, 49(3): 1-17.
[5]	蔡瑞初, 张盛强, 许柏炎. 基于结构感知混合编码模型的代码注释生成方法[J]. 计算机工程, 2023, 49(2): 61-69.
[6]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[7]	刘金硕, 詹岱依, 邓娟, 王丽娜. 基于深度神经网络和联邦学习的网络入侵检测[J]. 计算机工程, 2023, 49(1): 15-21,30.
[8]	田乔鑫, 孔韦韦, 滕金保, 王照乾. 基于并行混合网络与注意力机制的文本情感分析模型[J]. 计算机工程, 2022, 48(8): 266-273.
[9]	葛昕, 邹福泰, 郭万达, 谭越, 李林森. 社交僵尸网络发展综述[J]. 计算机工程, 2022, 48(8): 12-24.
[10]	俞莎莎, 牛保宁. 基于交易不可信度的比特币非法交易检测[J]. 计算机工程, 2022, 48(8): 166-172.
[11]	司逸晨, 管有庆. 基于Transformer编码器的中文命名实体识别模型[J]. 计算机工程, 2022, 48(7): 66-72.
[12]	金海波, 赵欣越. 共形预测框架下的高可靠入侵检测算法[J]. 计算机工程, 2022, 48(7): 130-140.
[13]	钱龙, 赵静, 韩京宇, 毛毅. 基于标签相关性的K近邻多标签学习[J]. 计算机工程, 2022, 48(6): 73-78,88.
[14]	付叶蔷, 李军辉. AMR文本生成的数据扩充方法[J]. 计算机工程, 2022, 48(5): 91-97.
[15]	李莉, 任振康, 石可欣. 代价敏感的Boosting软件缺陷预测方法[J]. 计算机工程, 2022, 48(3): 175-180.

选择文件类型/文献管理软件名称

选择包含的内容

用于中文缺省识别研究的机器学习方法

Machine Learning Approach for Chinese Ellipsis Identification Study

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

用于中文缺省识别研究的机器学习方法

Machine Learning Approach for Chinese Ellipsis Identification Study

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价