收藏本站
《哈尔滨工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

互联网文本聚类与检索技术研究

孟宪军  
【摘要】: 随着互联网技术的高速发展,网络上文本信息的容量与日俱增,人们迫切需要提高在互联网上的信息获取效率。文本挖掘技术用于对文本数据进行知识挖掘,试图有效的解决当前信息过载的问题。 文本作为自然语言的语义载体,通过引入相关的自然语言处理技术,深度挖掘文本在语义上的特征,能提高相应的文本挖掘算法在文本挖掘中的准确性和效率。本文主要研究了自然语言处理技术在文本聚类和信息检索系统中相关问题的应用。针对搜索引擎和互联网环境下的文本数据挖掘任务,本文提出了一系列基于相关的自然语言处理技术的方法来改善文本聚类算法的效果以及提高信息检索系统中查询结果与查询的相关性质量,论文的主要内容包括以下四个方面。 本文首先提出了一种基于相关自然语言处理技术的文本聚类语义特征降维方法。文本聚类作为一种无监督的数据挖掘方法,相对于有监督的文本分类算法而言,特征的选择通常没有很有效的方法。因此不同特征对聚类效果的影响就无法得到有效的控制,维度过大,聚类结果的准确性易受噪音特征的影响。本文提出了一种基于词法分析技术的特征降维方法,通过提取文本中名词性的词语作为特征进行聚类,有效的降低了文本集合中特征的维数,同时保证了特征的辨别能力。由于名词存在同义性的问题,使得相同的语义有不同的词语表现形式,影响了文本相似度的衡量。本文通过采用相关的语义知识词典对词语进行类别扩展,在一定程度上降低了特征的同义性,在进一步降低特征的维数的同时,促进了聚类结果的准确性。实验表明,基于词法分析技术和语义知识词典扩展的特征降维方法在显著的降低文本特征空间的大小的同时,有效的提高了聚类结果的准确性。 相对于搜索引擎线性结果列表中存在的不足,对搜索结果进行聚类是一种更有效的结果呈现方式。搜索结果聚类针对的文档集是搜索结果的摘要描述,尽管这些摘要信息明确,但长度短小,在这样的文本集合上进行聚类,通常的文档相似度算法经常由于特征空间的稀疏而无法得到准确的结果。本文通过引入容错粗糙集技术,利用文档间词语的共现信息对原始结果摘要进行语义上的扩充,扩充后的文档间的相关性得到了强化,避免了特征空间稀疏导致的聚类准确度下降的问题。在聚类算法的选择上,本文提出了一种新的基于词语相关度计算的标签式聚类算法,将搜索结果聚类问题转换成基于搜索结果集合的查询词语义消歧问题。这种聚类算法能生成描述性更清晰、鉴别能力更强的标签描述,同时,与标签对应的结果在内容上也有更好的一致性。实验表明,本文提出的搜索结果聚类算法能有效的挖掘出用户查询在搜索结果中所对应的各种不同的语义,从而帮助用户快速定位他们所需要的文档集合。 文本聚类算法通常采用向量空间模型来对文本进行形式化表示,向量空间模型中各个特征之间是没有关联的。这种假设对于文本来说丢失了很多有价值的能有效衡量文档之间相似性的信息,从而降低了聚类的准确性。相对于独立的单个词语特征,不同文档之间频繁出现的词语集合更能反映出文档之间的相似程度。本文采用基于上下文约束的闭频繁词集用于衡量文档之间的相似性,更好的体现了文档之间深层的潜在语义联系。频繁项集挖掘是数据挖掘中经典的用于关联分析的技术,通过改进,本文将这种频繁项集挖掘算法引入到了文本集合中用于挖掘文档集中的频繁词集,并通过对发现的频繁词集加入了不同的上下文距离约束限制,使得频繁模式更能保持语义上的一致性,有效地反映出了文本相对于结构化数据的特点。实验表明,基于这种新的相似度衡量方法的文本聚类算法能生成更加准确的聚类结果。 搜索结果的相关度排序是信息检索中的重要研究内容之一。与传统的文本数据不同,网页通常带有大量的与主题无关的噪音信息,严重影响查询结果的相关性,因此本文采用基于内容单元的网页解析与内容提取技术,对网页首先进行净化处理,以减少网页中内容无关信息对检索相关度的影响。目前绝大多数信息检索系统的相关度计算方法是建立在全文的基础之上。但是基于网页的全文往往在内容的表达上不具一致性,存在与主题无关的内容,这也会在一定程度上影响查询结果的相关度。本文提出了一种通过计算用户查询与净化后网页的自动文摘之间的相关度来提高信息检索的质量的方法,相对于全文来说,摘要是从全文中提取的文档的核心内容,具有简洁性、准确性和清晰性等特点,更能反映文档的主题信息。实验表明,相对于全文,基于摘要的检索结果在相关度排序的准确性上能取得更好的效果。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.3

【引证文献】
中国博士学位论文全文数据库 前2条
1 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
2 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前4条
1 徐德;关于互联网文本数据挖掘的一些关键技术研究[D];电子科技大学;2011年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 李超;基于Web的实例知识条目自动构建方法[D];哈尔滨工业大学;2010年
4 唐俊;复杂网络在网络新闻信息处理中的应用研究[D];西南交通大学;2012年
【参考文献】
中国期刊全文数据库 前8条
1 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
2 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
3 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
4 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
5 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
6 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
7 韩先培;刘康;赵军;;基于布局特征与语言特征的网页主要内容块发现[J];中文信息学报;2008年01期
8 郭萌;王珏;;数据挖掘与数据库知识发现:综述[J];模式识别与人工智能;1998年03期
中国博士学位论文全文数据库 前1条
1 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前1条
1 王璟琦;基于内容单元的网页解析与内容提取[D];哈尔滨工业大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
2 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
3 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
4 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
5 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
6 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
7 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
8 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
9 邓胜;戴小鹏;陈垦;黄璜;;粗糙集理论在农业生物灾害预测中的应用[J];安徽农业科学;2010年06期
10 刁占峰;张丹;张同军;;基于粗集-模糊综合评价法的水质指标约简研究[J];安徽农业科学;2010年26期
中国重要会议论文全文数据库 前10条
1 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
2 ;Fuzziness in Covering Generalized Rough Sets[A];第二十六届中国控制会议论文集[C];2007年
3 李雄;党生;;基于Rough集理论的战场侦察情报处理[A];第二十六届中国控制会议论文集[C];2007年
4 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
5 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
6 ;Influence Diagram Based on Rough Set Theory[A];第二十九届中国控制会议论文集[C];2010年
7 ;The Prediction of Soil Moisture Based on Rough Set-Neural Network Model[A];第二十九届中国控制会议论文集[C];2010年
8 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
9 贾修一;张亚兵;陈家骏;商琳;;基于粗糙集方法的共指消解[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 哈斯那顺乌日图;;蒙古文WordNet名词同义词集合构建算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
4 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
5 宋军;水交换模型的理论方法及应用研究[D];中国海洋大学;2010年
6 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
7 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
8 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
9 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
10 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
3 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
4 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
5 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
6 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
7 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
8 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
9 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
10 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王建伟;荣莉莉;;基于复杂网络理论的中文字字网络的实证研究[J];大连海事大学学报;2008年04期
2 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
3 刘远超;王晓龙;刘秉权;钟彬彬;;信息检索中的聚类分析技术[J];电子与信息学报;2006年04期
4 张聪;沈惠璋;;复杂网络中社团发现的快速划分算法[J];系统工程;2011年04期
5 尹倩;胡学钢;谢飞;吴信东;;基于密度聚类模式的中文新闻网页关键词提取[J];广西师范大学学报(自然科学版);2009年01期
6 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
7 李红梅;丁振国;周水生;周利华;;基于概念分组的Web搜索结果聚类算法[J];华南理工大学学报(自然科学版);2009年01期
8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
9 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
10 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
中国重要会议论文全文数据库 前1条
1 夏云庆;郝博一;徐睿峰;;意见目标网络与意见目标抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前7条
1 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
4 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
5 王光增;基于复杂网络理论的复杂电力网络建模[D];浙江大学;2009年
6 严钢;复杂网络上扩散与传输的若干问题研究[D];中国科学技术大学;2010年
7 倪顺江;基于复杂网络理论的传染病动力学建模与研究[D];清华大学;2009年
中国硕士学位论文全文数据库 前10条
1 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
2 赵思佳;基于规则引擎的个性化网页爬虫研究[D];中南大学;2010年
3 周登朋;搜索引擎搜索结果的聚类研究[D];上海交通大学;2007年
4 张彬;面向中文网络信息检索的自动分词系统设计与算法实现[D];华东师范大学;2007年
5 姚漫;基于文本聚类的网页消重算法研究[D];北京交通大学;2008年
6 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年
7 陈菊红;搜索引擎返回结果聚类技术的研究与实现[D];西南交通大学;2009年
8 周峰;基于信息抽取技术的复杂网络自动构建的研究与实现[D];北京邮电大学;2009年
9 王志勇;站点排序算法的研究与实现[D];哈尔滨工业大学;2008年
10 周炎;基于层次化结构的复杂网络可视化研究[D];上海交通大学;2010年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 彭卫华;互联网新闻热点挖掘系统的研究与实现[D];哈尔滨工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
2 曲卫华;王群;;搜索引擎原理介绍与分析[J];电脑知识与技术;2006年35期
3 张泽明;罗文坚;王煦法;;一种基于人工免疫的多层垃圾邮件过滤算法[J];电子学报;2006年09期
4 王珏;Rough Set约简与数据浓缩[J];高技术通讯;1997年11期
5 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
6 董启文,王晓龙,林磊,关毅,赵健;蛋白质二级结构预测:基于词条的最大熵马尔科夫方法[J];中国科学C辑:生命科学;2005年01期
7 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
8 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
9 朱凤石;基于人工神经网络的汉语兼类处理方法的研究[J];计算机研究与发展;1998年04期
10 刘克胜,张军,曹先彬,王煦法;一种基于免疫原理的自律机器人行为控制算法[J];计算机工程与应用;2000年05期
中国重要会议论文全文数据库 前1条
1 韩先培;刘康;赵军;;基于布局特征与语言特征的网页主要内容块发现[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
2 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
2 袁伟;朱山风;;基于距离学习的生物医学文本聚类算法研究[J];计算机应用与软件;2010年11期
3 马晓佳;;基于潜在语义标引的文本聚类研究[J];情报探索;2010年07期
4 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
5 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
6 王崇国;;以事件为特征的文本聚类方法[J];计算机应用与软件;2010年08期
7 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
8 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
9 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
10 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
6 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
8 章成志;;基于机器学习的文本聚类描述算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 希安;微软试水信息检索[N];经济日报;2004年
3 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
4 叶静;开辟信息检索的新天地[N];人民邮电;2001年
5 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
6 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
7 刘静一;个人档案信息检索[N];建筑报;2000年
8 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
9 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
10 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
4 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
4 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 杨文忠;基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用[D];湖南大学;2005年
7 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
8 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
9 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
10 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026