收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

微博短文本检索关键技术研究

李绪维  
【摘要】:微博是通过某个社会媒体分享的不超过140个字符的短文本消息,比如Twitter或者新浪微博。微博能够吸引上亿用户的使用,是因为用户通过关注自己感兴趣的人可以获得实时的消息。经过近五年的快速发展,微博已经成为社会媒体的典型代表,更是人们不可或缺的重要实时信息来源。在本文,微博特指通过Twitter分享的微博。 微博数据剧烈增长,从大量的微博信息中帮助用户更加准确地找到他们感兴趣的微博就成了微博检索的重要任务。由于微博文本短小,书写随意,噪声大,而且实时性强的特点,传统信息检索技术在海量微博检索中遇到巨大挑战。为了解决这一问题,本文针对微博检索任务的几个关键技术进行了研究。本文主要分成以下四个方面进行研究: 1.基于热点时间的文档语言模型建模。在本章中,首先我们调研了两类典型的基于时间的语言模型,其基本假设是文档越新鲜,文档越重要。然后对微博真实查询的相关文档的时间分布进行了分析,证实了传统的假设并不总是成立的。最后对查询的热点时间进行了定义,并建立了基于热点时间的语言模型方法用于微博检索,并和传统方法进行了实验性对比。 2.融入时间信息的查询建模。在本章中我们利用时间特性(实时性,时间变化)对用户查询进行扩展,提高检索精度。具体的讲,探索了三种查询扩展方法。一种是基于实时性的查询扩展,能够对实时性的查询提供候选词。第二种是针对相关文档时间分布波峰离查询时间点较远或者出现多波峰的情况,此方法获取原始查询和扩展查询的时间属性,基于这两个分布的最小KL-分散度选择好的扩展词。第三种方法利用对文档年龄进行高斯分布建模巧妙的将前两种查询扩展方法进行了融合,是一种自适应权重的有效方法。 3.基于参考文档模型的微博文本检索。在本章中我们通过对微博短文本模型建模遇到的潜在困难进行分析的基础上,引入参考文档模型对微博文本进行扩展,提高微博文本的模型估计精度,探究了文档信息增益对检索性能的影响。进一步利用参考文档同时对查询和文档进行伪反馈。实验结果表明,对查询和文档同时进行伪反馈的性能是最好的,远远好于传统反馈方法。本文还发现利用微博文本中的URL链向的网页内容对提高微博的检索性能有很大贡献作用。 4.基于排序学习模型的微博检索。在本章中我们采用了一种新的排序策略,在排序中不仅考虑了文本相似度,而且同时考虑了微博用户和微博独有的一些特征信息。因此采用了排序学习方法,融合多个特征,来产生更好的排序函数。进行了一系列实验,通过对单个特征的分析和尝试不同的特征子集选择方案,来获取能达最佳微博检索性能的特征子集。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 曹冬林;林达真;;文本检索模型综述[J];心智与计算;2007年04期
2 ;文本检索[J];计算机应用研究;1986年02期
3 张霞;于崇兰;;医学图像检索研究[J];医学信息;2010年07期
4 郭少友;;一种基于词语上下文关系的文本检索算法[J];情报理论与实践;2008年04期
5 刘永泰;全文文本检索技术及其发展[J];中国信息导报;1998年04期
6 乔冬梅;搜索引擎文本检索界面设计分析[J];图书情报知识;2003年06期
7 陆皓,徐伟;自然语言计算机情报检索的初探——一个自动文本检索原型系统[J];现代图书情报技术;1991年02期
8 李斌;TREC-3:文本检索会议[J];管理科学文摘;1997年05期
9 贡大跃;基于查询扩充机制的中文文本检索模型[J];辽宁师专学报(自然科学版);2000年01期
10 于水英;王辉;贾翔;;一种文本检索与信息化系统的设计[J];信息安全与通信保密;2011年06期
11 戚志峰;文本检索的硬件实现[J];计算机工程;1985年04期
12 郭玉滨;;Web文本挖掘技术及其应用的研究[J];电脑知识与技术(学术交流);2006年08期
13 王晓黎;王文杰;;基于向量空间模型的文本检索系统[J];微电子学与计算机;2006年06期
14 高仕龙;;基于奇异值分解的英文文本检索算法[J];计算机工程;2011年01期
15 郭彦铮;岳建华;;基于内容的医学图像检索[J];医疗设备信息;2006年01期
16 高俊波;栾翠菊;王晓峰;;新的关键字提取算法研究[J];计算机工程与设计;2008年03期
17 韩毅;张克菊;金碧辉;;集成概念空间与潜在语义索引的文本聚类检索研究[J];情报理论与实践;2009年06期
18 高仕龙;;一种新的英文文本检索算法[J];计算机工程与应用;2010年05期
19 施侃晟;刘海涛;舒平达;;一种提高文本检索准确性的关联方法[J];计算机应用与软件;2010年05期
20 周绮凤;杨小青;洪文财;邵桂芳;;内嵌空间排序支持向量机及其在文本检索中的应用[J];信息与控制;2010年05期
中国重要会议论文全文数据库 前10条
1 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
2 周水庚;胡江滔;胡运发;周傲英;;基于隐含语义索引的中文文本检索[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 王灿辉;茹立云;张敏;马少平;;基于伪反馈与分类的文本检索[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 丁凡;王斌;白硕;刘宜轩;李亚楠;;文本检索中句法信息的有效利用研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
7 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
8 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 韩中元;李生;杨沐昀;齐浩亮;;面向信息检索的近邻语言模型[A];第六届全国信息检索学术会议论文集[C];2010年
10 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
4 史庆伟;基于小世界模型的P2P网络文本检索[D];天津大学;2008年
5 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
6 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年
7 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
8 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
9 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年
10 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 张斌;基于主题的文本检索[D];北京邮电大学;2011年
2 李绪维;微博短文本检索关键技术研究[D];哈尔滨工业大学;2013年
3 邹俊杰;受限域问答系统文本检索研究[D];昆明理工大学;2011年
4 孙贶恺;基于领域本体的生物医学文本检索[D];电子科技大学;2013年
5 赵显亮;基于小世界理论的P2P文本检索研究[D];西安电子科技大学;2011年
6 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
7 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
8 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
9 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年
10 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
中国重要报纸全文数据库 前10条
1 记者 龚杰;IBM推出电子商务数据库[N];计算机世界;2000年
2 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
3 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
4 燕舞;大地上的那些往事[N];中华读书报;2008年
5 清华大学 刘加;语音识别应用促进技术发展[N];计算机世界;2006年
6 ;IBM DB2:业界一致的选择[N];网络世界;2001年
7 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
8 郝亭;软件是怎样“炼”成的[N];工人日报;2000年
9 商报记者 江文兵;旅游搜索引擎遭遇寒冬[N];北京现代商报;2005年
10 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978