收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于改进的TFIDF关键词自动提取算法研究

杨凯艳  
【摘要】:传统TFIDF算法的不足存在于两方面:文本内部,忽略了特征项的除词频外的其他特征对词语重要程度的表现力;文本外部,没有考虑特征项与文本集合类别的依存关系。目前对TFIDF的改进大多是从文本外部方面进行的,或者直接改进IDF计算公式,或者基于类别分布信息加入新的计算因子调整IDF的计算结果。这些改进算法应用于文本分类上都能得到较好地分类效果,但若要应用于关键词提取算法中,则不是不能直接应用,就是对关键词的提取效果不理想。论文针对TFIDF算法中计算IDF时没有考虑词语在文本集上的分布情况而高度依赖词语文档频数的问题,提出结合信息增益和离散度量化词语在文本集上的分布信息,对IDF计算结果进行调整的改进方案;针对TFIDF算法中词频TF对文本内部信息表现不足的问题,提出在词频基础上融合词长、词性、词位置与词跨度等多个特征来表现词语对文本的重要性程度的改进方法。实验结果表明该算法对关键词的提取效果明显。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李静月;李培峰;朱巧明;;一种改进的TFIDF网页关键词提取方法[J];计算机应用与软件;2011年05期
2 张建娥;;基于TFIDF和词语关联度的中文关键词提取方法[J];情报科学;2012年10期
3 许晓昕;李安贵;;一种基于TFIDF的网络聊天关键词提取算法[J];计算机技术与发展;2006年03期
4 徐振强;李保利;;结合词语分布信息的TFIDF关键词抽取方法研究[J];中原工学院学报;2014年06期
5 黄磊;伍雁鹏;朱群峰;;关键词自动提取方法的研究与改进[J];计算机科学;2014年06期
6 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期
7 胡局新;鞠训光;;基于贝叶斯推理和TFIDF算法的中文关键词智能抽取[J];微电子学与计算机;2012年09期
8 王立霞;淮晓永;;基于语义的中文文本关键词提取算法[J];计算机工程;2012年01期
9 方俊;郭雷;王晓东;;基于语义的关键词提取算法[J];计算机科学;2008年06期
10 章志华;陆海良;郁钢;;基于TFIDF算法的关键词提取方法[J];信息技术与信息化;2015年08期
11 秦鹏;张华平;刘金刚;;基于新词发现技术的关键词提算法的研究[J];微计算机信息;2010年33期
12 施鸿宝;;检索中关键词对相关性及其算法[J];情报学报;1983年04期
13 崔诚煜;冉晓旻;;基于频繁模式挖掘的中文关键词提取算法[J];太赫兹科学与电子信息学报;2015年02期
14 马志柔;叶屹;;一种有效的多关键词词频统计方法[J];计算机工程;2006年10期
15 刘典;李石君;;基于用户反馈的关键词提取[J];计算机工程与设计;2015年08期
16 王锦波;王莲芝;高万林;喻健;;一种改进的朴素贝叶斯关键词提取算法研究[J];计算机应用与软件;2014年02期
17 罗准辰;王挺;;基于分离模型的中文关键词提取算法研究[J];中文信息学报;2009年01期
18 唐强;;以“教师”的名义走访家庭[J];内蒙古教育;2019年03期
19 ;关键词[J];中国医学影像技术;2019年01期
20 ;《临床肝胆病杂志》关于文章中关键词撰写的要求[J];临床肝胆病杂志;2019年02期
中国重要会议论文全文数据库 前10条
1 ;关键词[A];中国神经科学学会第六届学术会议暨学会成立十周年庆祝大会论文摘要汇编[C];2005年
2 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 盖世华;;五个关键词读懂改革开放40年的伟大觉醒[A];对接京津——生态优先 绿色发展论文集[C];2018年
4 郑方;吴文虎;方棣棠;;连续无限制语音流中关键词识别的研究现状[A];第四届全国人机语音通讯学术会议(NCMMSC1996)论文集[C];1996年
5 王丽伟;李梅;曹玉莹;王俏;韩正琪;;关键词网络在领域知识发现中的实证研究[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年
6 李烯;;基于关键词共现的教育信息化工程发展初探[A];全国计算机辅助教育学会“计算机辅助教育软件开发与应用”研讨会论文集[C];2009年
7 任为民;王承发;周健;徐近霈;高文;;电话语流中的关键词检出算法[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年
8 戴礼荣;王仁华;;一个用于自动语声对话系统的关键词识别新算法[A];第四届全国人机语音通讯学术会议(NCMMSC1996)论文集[C];1996年
9 马莹莹;刘慧慧;;付费搜索广告中的关键词细分和个性化定价[A];第八届(2013)中国管理学年会——商务智能分会场论文集[C];2013年
10 ;中国家庭育儿行业用户洞察报告[A];艾瑞咨询系列研究报告(2018年第5期)[C];2018年
中国博士学位论文全文数据库 前7条
1 丁卓冶;面向主题的关键词抽取方法研究[D];复旦大学;2013年
2 李海洋;汉语语音关键词检测中置信测度研究[D];哈尔滨工业大学;2014年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 薛晓芳;知识可视化理论、方法和工具及军事医学应用研究[D];中国人民解放军军事医学科学院;2014年
5 宣俊宇;基于关键词关联语义链网络的Web事件演化研究[D];上海大学;2016年
6 王楠;植物适应干旱梯度变化的水分利用效率和氮磷计量机制研究[D];浙江大学;2013年
7 刘刚;面向领域的软件需求一致性验证方法研究[D];哈尔滨工程大学;2008年
中国硕士学位论文全文数据库 前10条
1 杨凯艳;基于改进的TFIDF关键词自动提取算法研究[D];湘潭大学;2015年
2 肖根胜;改进TFIDF和谱分割的关键词自动抽取方法研究[D];华中师范大学;2012年
3 管瑞霞;基于基因表达式编程的中文文本关键词提取算法研究[D];杭州电子科技大学;2009年
4 邱诗定;一种基于背景知识的关键词提取算法[D];暨南大学;2014年
5 李华灿;基于统计与协同过滤的关键词提取研究[D];西安电子科技大学;2015年
6 刘亚妮;搜索竞价广告关键词优化算法与实验[D];电子科技大学;2011年
7 左晓飞;基于复杂网络的关键词提取研究[D];西安电子科技大学;2013年
8 杨林;基于文本的关键词提取方法研究与实现[D];安徽工业大学;2013年
9 王煦祥;面向问答的问句关键词提取技术研究[D];哈尔滨工业大学;2016年
10 肖琳玲;网络传播中舆论关键词(句)研究[D];华中师范大学;2013年
中国重要报纸全文数据库 前10条
1 记者 王钢锋;把握认识精准安全联防关键词 夯实基础确保春防工作全胜[N];大兴安岭日报;2019年
2 记者 梁敏;七大部委年终工作会议勾勒2019年投资关键词[N];上海证券报;2019年
3 本报评论员 黄娴;紧扣“高质量发展”这个关键词[N];北海日报;2019年
4 通讯员 胡斌;关键词:澎湃动力[N];黄冈日报;2018年
5 ;2018年文化产业十大关键词[N];中国文化报;2019年
6 班威;2018大变局之关键词:冲击与调整[N];国际商报;2019年
7 记者 赵加仑;刘永富细数中国40年扶贫6关键词[N];中国财经报;2018年
8 扬发宣;5个关键词,描绘40年扬州服务业高质量发展史[N];新华日报;2018年
9 本报记者 王鑫;2018年 过去这一年 让成都人生活更美好的“关键词”[N];成都日报;2018年
10 ;贝壳租房“2018年租房十大关键词”出炉[N];北京商报;2019年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978