收藏本站
《华中科技大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

潜在语义分析在文本信息检索中的应用研究

卢健  
【摘要】:传统的文本信息检索方法的基本思路为,用户提出提问式,系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。但是大量事实表明,这种通过词汇简单匹配检索出的结果并不是最优的,原因在于词汇间的同义性和单个词汇的歧义性。 本文分析了一种智能型信息检索方式—潜在语义分析法(Latent Semantic Analysis, LSA),它不同于传统的基于词汇匹配的检索方法,将计算机科学、数学、情报学的思想、技术和手段融合起来,对文本的潜在含义进行挖掘,根据词汇、文本、提问式三者在语义上的关联产生检索结果,达到优化检索结果的目的。基于LSA的信息检索方法以一个词汇与文档相联系的大规模矩阵开始,自动地建造了一个语义空间,使得使用者能够发现相关信息,即使提问式中没有任何词与之相关,只要在概念上与该文档的主体思想联系相一致,在语意空间中它们仍然紧靠在该文档附近。因此词汇和文档在语意空间的位置可以用来作为一种语意指引,提取信息的过程就是利用提问式中的关键词来识别空间的一个点,在这个点附近的文档按词汇向量与文档向量之间点乘的余弦值的大小排列,即按关键词与文档相关程度排列返回给使用者。 文章在简述潜在语义分析法产生的背景与研究概况、基本原理与思路的基础上,进一步对LSA 关键技术—奇异值分解进行推导,并对一个中文样本进行潜在语义分析测试和结果分析,最后,介绍了潜在语义分析法在其它方面的特殊应用。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前6条
1 李淑鹏;基于神经网络的文本自动分类系统的研究[D];武汉理工大学;2008年
2 王礼礼;基于潜在语义索引的文本聚类算法研究[D];西南交通大学;2008年
3 李媛媛;基于潜在语义索引的中文文本检索研究[D];西南交通大学;2008年
4 张孝国;基于语义的Web服务发现技术研究[D];河南科技大学;2008年
5 刘恒文;基于网络语义挖掘的舆情监测预警研究[D];武汉理工大学;2010年
6 黄霞;基于本体的图像检索数据库的关键技术研究[D];中南大学;2012年
【参考文献】
中国期刊全文数据库 前8条
1 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
2 刘军万,刘飞飞;基于潜在语义索引的文本结构分析方法的研究[J];情报杂志;2004年01期
3 瞿艳,卢增祥,李衍达;分布式网络信息查询系统[J];清华大学学报(自然科学版);2000年01期
4 田范江,李丛蓉,王鼎兴;进化式信息过滤方法研究[J];软件学报;2000年03期
5 杨守捷,胡祥恩;应用潜在语意索引提取信息[J];天津师范大学学报(自然科学版);2002年01期
6 陶跃华,孙茂松;基于潜语义标引的自然语言检索[J];现代图书情报技术;2001年05期
7 陈越,郭力;隐含语义检索及其应用[J];现代图书情报技术;2001年06期
8 冯项云;LSI潜在语义标引方法在情报检索中的应用[J];现代图书情报技术;1998年04期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 董玉德,王志诚,王明保,李道伦;基于WEB课件中动态题库的设计与开发[J];安徽纺织职业技术学院学报;2003年01期
3 耿骞,刘畅;分布式检索系统及其体系结构[J];国家图书馆学刊;2004年02期
4 高庆狮;李莉;刘宏岚;;基于语义单元表示树剪枝的关键字过滤方法[J];北京科技大学学报;2006年12期
5 敖成龙,苏英,龚元明;基于相似度的复杂数据对象比较[J];北京理工大学学报;2003年05期
6 柳胜国;;网络信息过滤方法与高校文科读者的信息个性化服务[J];宝鸡文理学院学报(社会科学版);2009年03期
7 赵静;个性化信息检索及功能模型[J];图书与情报;2004年01期
8 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
9 马乐;翁智生;罗军;;一种基于SVM的网页层次分类算法[J];北京师范大学学报(自然科学版);2009年03期
10 宋伟,王举成,马根峰,赵济林;Internet数据挖掘原理及实现[J];重庆邮电学院学报(自然科学版);2001年02期
中国重要会议论文全文数据库 前10条
1 闭剑婷;邓琦;卢佳佳;曹波;;A Model of Bi-directional Translation based on Latent Semantic Analysis[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年
3 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
5 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
6 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
7 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
8 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 陈黎黎;冯嘉礼;;基于属性坐标学习和分析的教学质量评估模型[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 李雪竹;周国祥;;基于本体的语义网技术在信息检索中的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
4 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
5 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
6 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
7 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
8 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
9 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
10 周晓红;基于内容与链接的页面价值算法研究[D];电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
3 姚绍文,余江,周明天;面向语义Web的逻辑描述原语扩展[J];电子学报;2002年S1期
4 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
5 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
6 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
7 吴绍忠;李淑华;;互联网络舆情预警机制研究[J];中国人民公安大学学报(自然科学版);2008年03期
8 顿毅杰;张小峰;孙昊;赵丽;;一种基于粒度的规则挖掘方法[J];兰州理工大学学报;2006年01期
9 徐宝祥;刘春艳;刘姝宏;;两种典型语义Web服务方法的比较研究[J];情报科学;2006年02期
10 刘海峰;王元元;张学仁;;基于潜在语义空间的文本检索问题研究[J];情报科学;2007年05期
中国重要会议论文全文数据库 前1条
1 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
3 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
4 张兰轩;基于潜在语义分析的大学概况中文问答系统[D];大连理工大学;2004年
5 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
6 贺扬;基于潜在语义索引模型的查询语义扩展模型[D];西南交通大学;2004年
7 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
8 贺瑞芳;基于内容的教学资源搜索引擎研究[D];东北师范大学;2005年
9 全德;基于潜在语义索引的文本分类技术的研究[D];东北大学;2005年
10 赵慧;基于.NET平台的智能答疑系统的研究与实现[D];江苏大学;2005年
【二级引证文献】
中国期刊全文数据库 前3条
1 黄炜;程宝生;杨青;;基于本体的网络群体性事件主题发现研究[J];图书情报工作;2012年20期
2 殷聪;黄炜;;网络群体性事件的源信息获取研究初探[J];现代情报;2012年07期
3 卢卉;黄建忠;;国内网络舆情研究热点与趋势分析[J];预防医学情报杂志;2011年11期
中国硕士学位论文全文数据库 前10条
1 杨克强;LVQ神经网络在齿轮箱故障诊断中的研究[D];安徽农业大学;2010年
2 邹圣容;基于方证的症状与证素关系的量化分析研究[D];成都中医药大学;2010年
3 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
4 安增文;垂直搜索中信息属性抽取和分类模型研究与实现[D];中国石油大学;2010年
5 高慧超;大学生网络集群行为及其导控策略研究[D];广西师范学院;2011年
6 陆洋;基于语义分析的文本挖掘研究[D];浙江工业大学;2012年
7 孙逸飞;半自动本体构建方法研究[D];吉林大学;2009年
8 王艳;基于内容管理的文本自动分类的研究与应用[D];大连海事大学;2009年
9 张东娜;基于WordNet的短文本语义相似性计算研究[D];吉林大学;2010年
10 连慧平;基于本体的语义索引策略研究[D];曲阜师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前3条
1 邹涛,黄源,张福炎;基于WWW的文本信息挖掘[J];情报学报;1999年04期
2 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
3 杨晓江,张福炎;基于Z39.50的联机书目检索服务[J];软件学报;1999年08期
【相似文献】
中国期刊全文数据库 前10条
1 茅琴娇;冯博琴;潘善亮;;Deep web站点查询界面的潜在语义分析(英文)[J];Journal of Southeast University(English Edition);2008年03期
2 李莉;张太红;;LSA在中文短文自动判分系统中的应用研究[J];计算机工程与应用;2007年20期
3 郭恒明;雷咏梅;李利杰;王雄;;潜在语义分析中词汇-文本矩阵奇异值分解的并行实现[J];计算机应用与软件;2009年02期
4 俞辉;;基于LSA和pLSA的多文档自动文摘[J];计算机工程与科学;2009年09期
5 熊忠阳;暴自强;李智星;张玉芳;;结合LSA的中文谱聚类算法研究[J];计算机应用研究;2010年03期
6 周文,龚礼明,蒋岚;隐含语义检索及中文样本分析实例[J];计算机应用;2004年S1期
7 谭巧玲,陈郴永;生物化学专利文献的检索[J];中国生化药物杂志;1997年02期
8 陈文凯;中国科学引文数据库浅析[J];医学情报工作;2001年02期
9 朱继民;数据库检索技术浅谈[J];华南金融电脑;2002年12期
10 皇甫宝霞;探析《中国学术期刊(光盘版)》[J];焦作大学学报;2003年03期
中国重要会议论文全文数据库 前10条
1 岳红;蒋慰孙;;基于奇异值分解的改进Bayes集员辨识递推算法[A];1995中国控制与决策学术年会论文集[C];1995年
2 张友民;陈洪亮;戴冠中;;基于奇异值分解的固定区间平滑新方法[A];1995年中国控制会议论文集(上)[C];1995年
3 曾建国;陈光梦;;基于张量分解的动态纹理合成技术研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
4 吴晓颖;吴俊;董滨江;;TK方法在γ谱分析中的应用[A];第7届全国核电子学与核探测技术学术年会论文集(三)[C];1994年
5 王修运;柏森;李秀;刘阳;粘永健;;基于图像直方图不变矩和奇异值分解的图像认证方法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
6 徐慧英;朱信忠;赵建民;殷建平;;基于分块奇异值分解的数字水印算法及实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
7 李蓓;金聪;;基于奇异值分解的数字水印算法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 曾亮;;时变参数的全最小二乘递推辨识法[A];1996中国控制与决策学术年会论文集[C];1996年
9 杨莲;杨虎;;关于泛岭估计的影响分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
10 张卓奎;陈慧婵;;广义离散线性系统的极点配置方法[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
中国重要报纸全文数据库 前10条
1 ;2002中国经济亮点检索[N];经理日报;2002年
2 刘洪;检索在线销售的附加值[N];中国商报;2002年
3 本报记者 陈文波;检索年内北京奥运关键词[N];市场报;2002年
4 本报记者 余方;2001,我们走过的路[N];中国质量报;2001年
5 何杰;中学时代就该学会用图书馆[N];中国教育报;2002年
6 杜斌;利用“搜狐”引擎检索因特网信息[N];福建日报;2000年
7 张力;“网事通”:一切尽可掌握[N];国际商报;2001年
8 屈彩霞;档案题名拟写对档案著录和检索的影响[N];中国档案报;2002年
9 本报记者 大川;2001我国证券市场理论热点回顾[N];中国证券报;2001年
10 记者杨健 斯壮;全国博硕士学位论文实现共享[N];人民日报;2002年
中国博士学位论文全文数据库 前10条
1 从飞云;基于滑移向量序列奇异值分解的滚动轴承故障诊断研究[D];上海交通大学;2012年
2 赵艳菊;强噪声背景下机械设备微弱信号的提取与检测技术研究[D];天津大学;2009年
3 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
4 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
5 吕连港;东海PN断面黑潮区域的声层析研究[D];中国科学院研究生院(海洋研究所);2002年
6 夏天;研究性学习支持系统[D];华东师范大学;2007年
7 郭文彬;奇异值分解及其在广义逆理论中的应用[D];华东师范大学;2004年
8 张前前;东海典型赤潮藻检测的荧光光谱特征研究[D];中国海洋大学;2005年
9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
10 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 卢健;潜在语义分析在文本信息检索中的应用研究[D];华中科技大学;2005年
2 翟琳琳;基于潜在语义分析的智能检索系统[D];上海师范大学;2007年
3 唐朝辉;潜在语义分析在互联网数据挖掘中的应用研究[D];湖南大学;2009年
4 蔡云雷;基于潜在语义分析的专利文本分类技术研究[D];沈阳航空航天大学;2011年
5 郑翠翠;面向领域文本的潜在语义分析研究[D];南京理工大学;2010年
6 张剑豪;基于潜在语义分析的军事情报检索系统的研究与实现[D];东北大学;2009年
7 鲍光余;基于潜在语义分析的农户个性化推荐系统[D];海南大学;2011年
8 李锋;控制系统传感器鲁棒故障检测方法研究[D];华北电力大学(河北);2004年
9 龙开文;基于模板匹配的人脸检测[D];四川大学;2005年
10 廖文彬;基于矩阵奇异值分解的图像压缩方法研究[D];成都理工大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026