收藏本站
《电子科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于独立分量分析的语义聚类技术在信息检索中的应用研究

蒲强  
【摘要】: 随着计算机技术及网络技术的飞速发展,世界上的数据正以惊人的速度增长着。面对现代纷繁复杂的海量信息资源,人们反而有了“淹没在信息海洋中”的困惑。如何快捷、准确地得到所需信息已成为人们关注的焦点问题。信息检索技术能够帮助不同领域的人们从文本、图像、声音等庞大的数据资料中寻找其所需的信息。以信息检索技术为核心技术的Web搜索引擎已经成为人们从互联网发现所需信息的最依赖的工具,显示出这一领域巨大的市场价值和经济利益。在庞大用户需求的驱动下,信息检索技术不断发展和创新,成为近年来信息领域研究的热点。 本文的研究基于统计信号处理技术和信息检索技术的结合,这是源于将文本文档看成不同主题信号混合的产物,利用统计信号领域中独立分量分析(Independent Component Analysis,ICA)技术对文档进行处理,分离的独立分量能很好地表示文档的语义主题结构。基于这一认识,全文以概率模型、信息论、线性代数及有关统计方法为理论基础,配合大量详实的实验分别研究了基于ICA的语义聚类理论模型及其应用、基于ICA语义聚类的相关模型和查询模型的估计,同时还对信息检索领域最常用的查询扩展技术进行了研究。论文主要的贡献和创新之处包括五个方面: 1.提出ICA语义聚类激活的概念,并在理论上证明了利用激活ICA语义聚类下文档估计的语义主题在语义距离上比使用全部反馈文档估计的语义主题更接近于真实语义主题。以用户查询为导向的激活方式在语义上将聚类下的文档与查询关联起来,克服了反馈文档主题分散同现带来的风险。由于激活语义聚类下文档数量是确定的,因此查询扩展或者语言模型估计中避免了设置反馈文档数量这个参数,查询扩展和模型估计更为强健。 2.在相关模型和查询模型的估计中,提出了利用ICA语义聚类信息配合语料集对文档模型估计进行语义平滑的概念,利用语义关键词条聚类强化反馈文档主题模型估计部分,给出了文档未出现词条的语义关键词条聚类概率,克服了传统文档模型估计中只使用语料集模型平滑的不合理性,即未出现词条以相同语料集概率出现在不同文档中的假设的不合理性。 3.利用了文档属于语义聚类的概率作为文档先验概率参与模型估计,一方面区别对待了每个文档在相关模型或查询模型估计中的作用,克服了语言模型估计中所有文档先验概率服从均匀分布这个假设的不合理性;另一方面利用了语义聚类模型参与了相关模型或查询模型的估计,改变了传统模型的估计只使用单一文档模型这一现象,可利用的统计语言模型总集得到扩展。 4.提出了利用语义聚类在用户兴趣和文档之间建立动态语义映射关系,这种映射关系将文档和用户组织在同一类别下,克服了现有文档和用户兴趣之间松散的关系。信息推荐系统利用映射关系主动发现同类中的文档信息推荐给用户。 5.基于潜在语义空间能发现词条同现关系的原理,发现了潜在语义索引技术和独立分量分析技术配合使用时,一方面同现词条可以较好地弥补短文档词条重叠度低的问题,另一方面短文档在ICA语义空间中分类能够改善其分类准确率。
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前5条
1 崔宇红;基于手机短信平台的图书馆信息推送服务[J];大学图书馆学报;2004年04期
2 蒲强;何大庆;杨国纬;;一种基于统计语义聚类的查询语言模型估计[J];计算机研究与发展;2011年02期
3 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
4 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
5 封化民,刘飚,刘艳敏,方勇,宋国森;含有位置坐标树的Web页面分析和内容提取框架[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 王春腾;杨厚群;符传谊;邢洁清;;基于独立成分分析的谱聚类方法[J];安徽电子信息职业技术学院学报;2011年03期
2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 杨德斌;杨聚星;阳建宏;章立军;;基于声信号分析的齿轮故障诊断方法[J];北京科技大学学报;2008年04期
5 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
6 金明生;;关于倡导在县级以上公共图书馆开通“手机短信服务平台”的建议案[J];图书与情报;2008年03期
7 徐忻;娄路;;基于3G的手机图书馆服务系统构建研究[J];图书与情报;2009年03期
8 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
9 冯海军;祝华;章艺;柳瑞锋;;基于独立分量的信息极大化法机械振动盲分离研究[J];船舶工程;2008年01期
10 张毅;张辉;罗元;胡豁生;;采用Emotiv感知的智能轮椅运动控制的研究[J];重庆邮电大学学报(自然科学版);2012年03期
【二级参考文献】
中国期刊全文数据库 前4条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
3 曲卫民,张俊林,孙乐;基于主题的汉语语言模型的研究[J];计算机研究与发展;2003年09期
4 王强 ,王继成 ,武港山 ,张福炎;Web文档清洗系统中HTML解析器的开发[J];计算机应用研究;2002年02期
【相似文献】
中国期刊全文数据库 前10条
1 曹建荣;蔡安妮;;基于支持向量机的语义视频摘要[J];北京邮电大学学报;2006年04期
2 李亚丽;徐为群;颜永红;;语义类的提取及其在语音搜索系统中的应用[J];声学学报;2011年05期
3 周笑天;;决策树中数字型连续属性的语义化研究[J];计算机系统应用;2009年02期
4 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期
5 温苗苗;吴云芳;;基于SVM融合多特征的介词结构自动识别[J];中文信息学报;2009年05期
6 ;汉语语义范畴的计算机模拟[J];中文信息;1994年04期
7 张晶,姚建民,赵铁军,李生;基于Word Net和How Net建设双语语义词典[J];高技术通讯;2001年12期
8 黄鸿森;;这样的辞书,何必引进——评《建宏成语义类辞典》[J];中国出版;2007年10期
9 董明楷;张明义;;语义类比:AI的一个重要发展方向[J];计算机科学;1996年06期
10 孙广路;郎非;薛一波;;基于条件随机域和语义类的中文组块分析方法[J];哈尔滨工业大学学报;2011年07期
中国重要会议论文全文数据库 前10条
1 贾玉祥;俞士汶;;语义选择限制的自动获取及其在隐喻处理中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 王惠;;汉英机器翻译中基于大型语义词典的汉语词义消歧[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
4 邱立坤;;现代汉语动名语串结构关系的判定[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 王萌;贾玉祥;俞士汶;;基于语料统计的量词对名词语义选择倾向的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 海银花;那顺乌日图;;面向“蒙古语语义信息词典”的名词语义分类体系[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 吴平;;“NP+在+处所+VP”句式的逻辑语义分析[A];2004年逻辑研究专辑[C];2004年
8 李斌;曲维光;陈小荷;;名词转喻的自动理解[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 刘秉权;张凯;王晓龙;;语音识别中基于规则的语言模型的研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
10 李向阳;张亚非;;一种基于语义的汉语短语识别方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 颜红菊;现代汉语复合词语义结构研究[D];首都师范大学;2007年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年
5 王欣;类型逻辑语法与现代汉语“是”和“的”[D];北京语言大学;2009年
6 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
7 凌坚;新闻视频主题识别与跟踪的研究[D];浙江大学;2007年
8 孟凯;现代汉语“X+N_(役事)”致使复合词研究[D];北京语言大学;2009年
9 李线宜;上海手语类标记结构调查研究[D];复旦大学;2010年
10 海银花;面向信息处理的蒙古语名词语义研究[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 方利;“外X”词语的多角度考察[D];华中师范大学;2012年
2 韩娟;《韩非子》形容词研究[D];河南大学;2008年
3 陈文慧;HSK名词的图片可表达性和表达方法研究[D];北京语言大学;2004年
4 沈新宇;基于直推式支持向量机的图像分类算法研究与应用[D];北京交通大学;2008年
5 刘丽丽;汉英民用陆地交通工具词语语义对比研究[D];鲁东大学;2008年
6 刘宗保;形、名语素构成复合词的语义类组合分析[D];南京师范大学;2008年
7 高研博;汉语动词论元约束优选信息的获取[D];上海交通大学;2008年
8 刘蓉;违反合作原则的汉语语义类修辞格及其语用功能研究[D];湖南农业大学;2011年
9 贾晓东;汉语动宾搭配识别研究[D];大连理工大学;2008年
10 张涛;中文文本中未知词语的词义知识获取[D];山西大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026