中文自动文摘关键技术的研究与实现
【摘要】:现有中文自动文摘技术存在原文内容覆盖不全面以及信息冗余的问题。针对上述问题,本文开展了相关的研究工作。
结合已有的“统计全切分中文分词系统”,本文首先提出了基于通用分词词典的最长组合模式逆向匹配算法来修正通用分词词典分词粒度过细的问题,并在分词的基础上进行特征计算与筛选,将文本以特征词表示。此后设计了基于形式特征的语句加权函数应用于分句过程,并且结合最大边缘相关(Maximal Marginal Relevance, MMR)思想提出了应用于自动文摘的MMR公式以降低文摘的冗余,并将该公式作为语句评价标准,据此给出了一种新的文摘句选取算法。最后本文阐述了一个中文自动文摘系统的设计与实现,并通过实验证明由本系统抽取的文摘具有良好的完备性和低冗余性。
|
|
|
|
1 |
耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年 |
2 |
张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年 |
3 |
;中文版权目录[A];计算机在土木工程中的应用——第十届全国工程设计计算机应用学术会议论文集[C];2000年 |
4 |
;中文版权目录[A];浙江省电源学会第十一届学术年会暨省科协重点科技活动“高效节能电力电子新技术”研讨会论文集[C];2008年 |
5 |
吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年 |
6 |
;Author Index(中文)[A];Proceedings of the 16th Annual Conference of Hong Kong Society of Theoretical and Applied Mechanics 2012、The 1st Mainland-Hong Kong Youth Forum on Mechanics 2012、The 8th Shanghai-Hong Kong Forum on Mechanics and Its Application 2012[C];2012年 |
7 |
彭崇铭;林一中;王慧明;江东辉;;中文口语交谈系统之设计[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年 |
8 |
支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年 |
9 |
王睿;姚天昉;;基于实体语义关系的中文问题-答案关系研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年 |
10 |
王树西;白硕;;中文问答系统中的模式推理[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年 |
|