收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于TF-IDF与TextRank的自动摘要抽取

张志尧  
【摘要】:文本自动摘要技术可以压缩文本中冗余的文本,且不影响文本中心内容,能方便用户快速了解文本包含的信息。在现实生活中具有很大的应用价值。例如:新闻专题中包含新闻内容;文本情感分析;自动问答等领域。自动摘要抽取流程划分为两个模块:第一部分,文本主题词抽取模块和第二部分的文本句子抽取模块。文本主题词抽取模块,传统的TF-IDF算法主要以词出现在文本中的频率度量词的重要性,未考虑词的语义和位置等有用信息,容易造成抽取的主题词不准确,进而影响到后面句子抽取的性能。在文本句子抽取模块,传统的TextRank算法以共现词作为图模型的边来度量句子之间相似度,未考虑句子的语义和位置等有用信息,容易造成抽取的句子之间存在冗余度,可读性差。基于传统TF-IDF算法和TextRank算法存在的问题,本论文做了如下的主要工作:(1)提出融入词的语义和位置信息的基于TF-IDF主题词提取算法。算法首先运用jieba分词工具实现词的切分、词性标注、停用词的去除以及非名词的去除;其次利用原有TF-IDF算法统计文本中各词出现的频率即计算TF值和IDF值,计算TF*IDF的值即为该词的暂时值;接着是融入词的位置信息,根据词的位置赋相应权重P_i,得到新值TF*IDF*P_i。最后采用Word2Vec中CBOW模型将词转化为词向量表示,以函数WORDSIM度量词与词之间的相似度,将语义相似度高的同义词进行合并,完成文本主题词的最终确定。并以文本《2018中国人工智能白皮书》进行了TF-IDF算法和改进的TF-IDF两种算法的对比实验,结果表明,后者抽取的主题词值分布更合理,更有利于主题词的抽取。(2)基于TextRank算法改进句子处理。TextRank算法以句子作为顶点,以共现词作为边的度量。为避免TextRank算法模型中边以共现词度量无法客观反映出两个句子的相似性,对边的相似性作了改进,以孪生神经网络度量两个句子的相似性。对句子在段落中不同位置赋予不同权重,同时对主题词信息和非主题词信息句子赋予不同权重,修改其相似值,由此得到句子得分。按照主题词顺序对含主题词句子排序。含同一主题词的句子再以时间等信息排序,然后根据句子得分来选择文本相似性句子,去除冗余的相似句子,最后根据句子数值将阈值以下的句子剔除,剩下的句子组合即为摘要。实验以ROUGE-N、Recall和Precision为评价指标进行对比实验,结果表明了本文改进算法的有效性。(3)最后,以python和JavaScript实现了其原型系统,并对该系统功能和性能进行测试,取得较好的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 石元兵;周俊;魏忠;;一种基于TextRank的中文自动摘要方法[J];通信技术;2019年09期
2 余珊珊;苏锦钿;李鹏飞;;基于改进的TextRank的自动摘要提取方法[J];计算机科学;2016年06期
3 唐晓波;顾娜;谭明亮;;基于句子主题发现的中文多文档自动摘要研究[J];情报科学;2020年03期
4 陈尔聃;;文本自动摘要的迁移学习技术[J];数码世界;2018年12期
5 刘茂福;余博;胡慧君;;基于维基百科的多文档自动摘要系统研究[J];微型机与应用;2011年16期
6 仇丽青;李伟明;;上下文敏感的多文档自动摘要生成方法[J];计算机工程;2010年21期
7 洪田玉;陈志刚;;一种跨语言的自动摘要技术[J];电脑与信息技术;2009年04期
8 郭琳虹;张小松;;文本自动摘要的方法研究[J];福建电脑;2008年06期
9 ;中英文自动摘要系统软件问世[J];情报理论与实践;2001年01期
10 唐建权;何洪波;王闰强;;一种基于聚类的文章自动摘要方法及实现[J];科研信息化技术与应用;2019年01期
11 章芝青;;基于语义的单文档自动摘要算法[J];计算机应用;2010年06期
12 王永成;刘功申;刘传汉;胡佩华;孙展;;论文本的自动摘要[J];中国索引;2003年02期
13 彭敏;高斌龙;黄济民;刘纪平;;基于高质量信息提取的微博自动摘要[J];计算机工程;2015年07期
14 刘思佳;;内容自动摘要系统的研究[J];数码世界;2019年04期
15 陈晨;;浅谈自动摘要技术在边防情报公开文献收集中的应用[J];科技信息(学术研究);2008年05期
16 吴世鑫;黄德根;张云霞;;基于多特征融合模型的自动摘要[J];计算机工程与设计;2020年03期
17 徐如阳;曾碧卿;韩旭丽;周武;;卷积自注意力编码过滤的强化自动摘要模型[J];小型微型计算机系统;2020年02期
18 罗森林;白建敏;潘丽敏;韩磊;孟强;;融合句义特征的多文档自动摘要算法研究[J];北京理工大学学报;2016年10期
19 陈海华;黄永;张炯;陆伟;;基于引文上下文的学术文本自动摘要技术研究[J];数字图书馆论坛;2016年08期
20 仇丽青;刘瑞;张辉;;基于词频统计的多文档自动摘要生成方案[J];微计算机信息;2009年06期
中国重要会议论文全文数据库 前8条
1 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年
2 吴中勤;黄萱菁;吴立德;;基于有监督分类技术的文本自动摘要研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
6 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 杨洁;季铎;蔡东风;代翠;;基于TextRank的多文档关键词抽取技术[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前4条
1 王勇臻;基于深度学习的学术文献自动摘要方法研究[D];大连海事大学;2018年
2 张世博;面向网络评论信息的自动摘要技术研究与应用[D];北京邮电大学;2019年
3 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
4 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 张志尧;基于TF-IDF与TextRank的自动摘要抽取[D];江苏大学;2019年
2 易志伟;基于深度学习的多语种自动摘要系统的研究与实现[D];延边大学;2019年
3 贾星宇;基于深度学习的短文自动摘要生成算法研究[D];西安科技大学;2019年
4 李伟男;基于深度学习的新闻自动摘要技术[D];西安电子科技大学;2019年
5 王帅;面向长文本的两阶段自动摘要算法关键技术研究[D];国防科技大学;2017年
6 杨成荣;基于门控卷积神经网络的代码自动摘要算法[D];云南大学;2019年
7 肖树一;基于指针生成网络模型的自动摘要研究[D];山东科技大学;2018年
8 赵君;基于TextRank算法的中文文献自动摘要提取研究[D];华中科技大学;2019年
9 柳斌;基于深度学习的中文自动摘要生成[D];南京邮电大学;2019年
10 赵雨薇;社交网络中基于话题发现的自动摘要算法研究[D];南京信息工程大学;2019年
中国重要报纸全文数据库 前1条
1 横舟;你爱机器,但它不会爱你[N];检察日报;2017年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978