收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于独立分量分析的语义聚类技术在信息检索中的应用研究

蒲强  
【摘要】: 随着计算机技术及网络技术的飞速发展,世界上的数据正以惊人的速度增长着。面对现代纷繁复杂的海量信息资源,人们反而有了“淹没在信息海洋中”的困惑。如何快捷、准确地得到所需信息已成为人们关注的焦点问题。信息检索技术能够帮助不同领域的人们从文本、图像、声音等庞大的数据资料中寻找其所需的信息。以信息检索技术为核心技术的Web搜索引擎已经成为人们从互联网发现所需信息的最依赖的工具,显示出这一领域巨大的市场价值和经济利益。在庞大用户需求的驱动下,信息检索技术不断发展和创新,成为近年来信息领域研究的热点。 本文的研究基于统计信号处理技术和信息检索技术的结合,这是源于将文本文档看成不同主题信号混合的产物,利用统计信号领域中独立分量分析(Independent Component Analysis,ICA)技术对文档进行处理,分离的独立分量能很好地表示文档的语义主题结构。基于这一认识,全文以概率模型、信息论、线性代数及有关统计方法为理论基础,配合大量详实的实验分别研究了基于ICA的语义聚类理论模型及其应用、基于ICA语义聚类的相关模型和查询模型的估计,同时还对信息检索领域最常用的查询扩展技术进行了研究。论文主要的贡献和创新之处包括五个方面: 1.提出ICA语义聚类激活的概念,并在理论上证明了利用激活ICA语义聚类下文档估计的语义主题在语义距离上比使用全部反馈文档估计的语义主题更接近于真实语义主题。以用户查询为导向的激活方式在语义上将聚类下的文档与查询关联起来,克服了反馈文档主题分散同现带来的风险。由于激活语义聚类下文档数量是确定的,因此查询扩展或者语言模型估计中避免了设置反馈文档数量这个参数,查询扩展和模型估计更为强健。 2.在相关模型和查询模型的估计中,提出了利用ICA语义聚类信息配合语料集对文档模型估计进行语义平滑的概念,利用语义关键词条聚类强化反馈文档主题模型估计部分,给出了文档未出现词条的语义关键词条聚类概率,克服了传统文档模型估计中只使用语料集模型平滑的不合理性,即未出现词条以相同语料集概率出现在不同文档中的假设的不合理性。 3.利用了文档属于语义聚类的概率作为文档先验概率参与模型估计,一方面区别对待了每个文档在相关模型或查询模型估计中的作用,克服了语言模型估计中所有文档先验概率服从均匀分布这个假设的不合理性;另一方面利用了语义聚类模型参与了相关模型或查询模型的估计,改变了传统模型的估计只使用单一文档模型这一现象,可利用的统计语言模型总集得到扩展。 4.提出了利用语义聚类在用户兴趣和文档之间建立动态语义映射关系,这种映射关系将文档和用户组织在同一类别下,克服了现有文档和用户兴趣之间松散的关系。信息推荐系统利用映射关系主动发现同类中的文档信息推荐给用户。 5.基于潜在语义空间能发现词条同现关系的原理,发现了潜在语义索引技术和独立分量分析技术配合使用时,一方面同现词条可以较好地弥补短文档词条重叠度低的问题,另一方面短文档在ICA语义空间中分类能够改善其分类准确率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李卫疆;赵铁军;王宪刚;;基于统计机器翻译模型的查询扩展[J];电子与信息学报;2008年03期
2 李卫疆;赵铁军;王宪刚;;基于上下文的查询扩展[J];计算机研究与发展;2010年02期
3 谭义红;李学勇;陈治平;;关联规则挖掘在Web信息检索中的应用[J];计算机工程;2006年09期
4 李大高;程显毅;张冬慧;;基于关联规则与聚类算法的查询扩展算法[J];计算机工程;2009年06期
5 楼炉群;牛军钰;;信息检索中语言模型的研究[J];计算机工程;2007年04期
6 陈志敏;姜艺;赵耀;;基于用户查询扩展的自动摘要技术[J];计算机应用研究;2011年06期
7 王俊义;叶新铭;;个性化信息检索方法研究[J];计算机科学;2010年06期
8 贾可亮;庞秀玲;林培光;;基于集合论的中文问答系统查询扩展(英文)[J];江西师范大学学报(自然科学版);2008年02期
9 韩中元;李生;齐浩亮;杨沐昀;;面向信息检索的近邻语言模型[J];中文信息学报;2011年01期
10 蒋辉;阳小华;;基于文档与搜索结果上下文的查询扩展方法[J];计算机应用;2009年03期
11 阳小华;蒋辉;马家宇;;基于任务上下文的查询扩展方法[J];郑州大学学报(理学版);2010年01期
12 黄名选;陈燕红;张师超;;基于关联规则挖掘的查询扩展模型研究[J];现代图书情报技术;2007年10期
13 李宁;徐虹;;基于文本分类的语义平滑在语言模型中的应用(英文)[J];成都信息工程学院学报;2008年03期
14 陈锐;张蕾;卢春俊;牟力科;;基于概念图的信息检索的查询扩展模型[J];计算机应用;2009年02期
15 王秀娟;郑康锋;;基于文档空间向量距离的查询扩展[J];计算机工程;2009年18期
16 徐建民;崔琰;刘清江;;基于同义词关系改进的局部共现查询扩展[J];情报杂志;2010年09期
17 黄名选;严小卫;;基于查询语义树的语义查询扩展研究[J];情报理论与实践;2007年06期
18 黄名选;张师超;严小卫;;基于查询行为和关联规则的相关反馈查询扩展[J];计算机工程;2009年10期
19 吴谋硕;;基于用户信息的信息检索效果提高策略[J];电脑知识与技术;2011年21期
20 殷亚玲;张蕾;李海军;;基于概念图的相关反馈技术研究[J];计算机工程与应用;2006年03期
中国重要会议论文全文数据库 前10条
1 周博;岑荣伟;刘奕群;张敏;马少平;;相关反馈任务中一种基于文档相似度的检索结果重排序方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 刘全升;姚天昉;;基于关联度模型的文本倾向性检索研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年
4 王秉卿;张奇;吴立德;黄萱菁;;机器学习的查询扩展在博客检索中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 张亮;陈肇雄;黄河燕;张孝飞;;Ontology在智能信息检索中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 张伟;马建庆;钟亦平;;基于滑动窗口提取和IDF过滤方法的专家搜索系统研究[A];第五届全国信息检索学术会议论文集[C];2009年
8 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
9 汪云凤;李心科;;云服务环境下的服务聚合方法研究[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
10 冯宇;王川川;杨璇;;本体论及其在产品信息组织中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
2 叶正;基于网络挖掘与机器学习技术的相关反馈研究[D];大连理工大学;2011年
3 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
4 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
5 周仲兴;复合下肢想象动作电位的特征识别新技术研究[D];天津大学;2009年
6 韩军;内燃机的非平稳信号分析方法及其噪声源小波识别技术的研究[D];天津大学;2004年
7 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
8 焦卫东;基于独立分量分析的旋转机械故障诊断方法研究[D];浙江大学;2003年
9 许宏吉;发射分集和波束形成优化设计及其盲接收技术研究[D];山东大学;2005年
10 林秋华;基于盲源分离的图像与语音加密新方法研究[D];大连理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
2 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
3 罗建利;基于用户兴趣的概念查询扩展研究[D];扬州大学;2005年
4 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
5 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
6 王银丽;限定领域内智能问答系统的研究与实现[D];内蒙古大学;2008年
7 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
8 王威;基于上下文的个性化信息检索技术研究[D];厦门大学;2009年
9 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
10 方勇;基于语义的信息检索方法研究与应用[D];浙江大学;2010年
中国重要报纸全文数据库 前10条
1 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
2 希安;微软试水信息检索[N];经济日报;2004年
3 乐天编译;语义Web何时展翅高飞?[N];计算机世界;2007年
4 周凤章;药品包装图形语义浅析[N];中国包装报;2001年
5 乐天 编译;语义Web:电脑能懂的网络[N];计算机世界;2011年
6 叶静;开辟信息检索的新天地[N];人民邮电;2001年
7 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
8 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
9 沈敬怡;谁叩响了Web3.0之门[N];中国高新技术产业导报;2008年
10 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978