收藏本站
《浙江工商大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

支持多语言标签优先的元搜索引擎结果聚类研究

姜国新  
【摘要】:随着互联网规模的爆炸式增长,作为信息检索工具的搜索引擎得到了广泛的研究和应用。据研究单个搜索引擎能找到的相关信息通常不超过互联网上所有相关信息的45%。另外,虽然现有的搜索引擎采用了多种技术来提高信息检索的准确度,但以线性列表形式展现搜索结果的方法,使查询相关文档和不相关文档相互混合,给用户定位真正需要的信息带来了极大的负担。 论文研究了如何构建一个的高性能的分布式的个性化元搜索引擎,并在此基础上对搜索结果进行聚类以便减少用户定位信息的时间。通过将各个搜索引擎的结果进行合成,我们可以为用户提供更加全面的信息。通过聚类,把搜索结果组织成树状层次结构,使得同一类别中的数据相关性尽可能高,不同类别间的数据的相关性尽可能低。在聚类过程中,我们基于全局数据优先生成聚类的标签名,从而使得类标签对用户可读性更好,缩小用户定位信息的范围提高检索的命中率,从而缩短用户定位数据的时间。 实验数据表明,本文算法生成的类标签可读性优于其他算法,而且搜索结果从数量和准确性方面都优于其他算法。与其他搜索结果聚类不同,本文提出了一种支持多语言标签优先的聚类算法,我们将其称之为DCFC算法。该算法支持中文和英文,并且重点关注生成类标签对人的可读性,类别以层次结构展现。系统提供了一些参数来让用户控调整系统的运行结果:用户可以通过标签的长度,搜索结果中含有的数据条数等对搜索结果进行调整。DCFC算法主要有五个步骤:数据预处理、分词、频繁短语的生成、多层的类标签的生成、将数据归到相应的类下。 我们通过JAVA实现了该元搜索引擎搜索结果聚类系统,该系统主要包括两大部分:一部分是高性能的分布式的个性化元搜索引擎,另一部分是DCFC聚类。通过比较DCFC聚类与其他搜索引擎聚类算法,主要有LINGO、VIVISIMO、QUINTURA,实验结果表明DCFC算法是有效的。
【学位授予单位】:浙江工商大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前3条
1 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
2 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
3 潘金贵,胡学联,李俊,张灵玲;一个个性化的信息搜集Agent的设计与实现[J];软件学报;2001年07期
中国博士学位论文全文数据库 前1条
1 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前2条
1 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
2 杨占华;聚类分析研究及其在文本挖掘中的应用[D];西南交通大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
2 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
3 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期
4 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
5 杨勇涛;;文本自动摘要提取算法[J];成都大学学报(自然科学版);2009年02期
6 袁晓峰;;一种基于主题的Web文本聚类算法[J];成都大学学报(自然科学版);2010年03期
7 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期
8 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
9 杜友福;程彩凤;赵鸣;;搜索引擎中智能代理技术及启发式搜索策略研究[J];长江大学学报(自然科学版)理工卷;2009年02期
10 赵鸣;吴磊;;改进性的文本聚类算法研究[J];长江大学学报(自然科学版)理工卷;2009年02期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
4 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
5 刘咏梅;卢鸿剑;赵振军;张艳龙;;基于Multi-agent的高考志愿填报智能推荐系统[A];2005中国控制与决策学术年会论文集(下)[C];2005年
6 刘咏梅;卢鸿剑;杜美玲;;基于Multi-agent的个人电脑客户定制服务推荐系统[A];2006中国控制与决策学术年会论文集[C];2006年
7 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
8 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
9 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
10 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 谭婷婷;网络微内容推荐方法及支持系统研究[D];华中科技大学;2011年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 彭光金;小样本工程造价数据的智能学习方法及其在输变电工程中的应用研究[D];重庆大学;2010年
4 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
7 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
8 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
5 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
6 曹萍;Agent电子商务推荐系统下协同过滤技术研究[D];辽宁工程技术大学;2009年
7 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
8 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
9 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
10 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 行小帅,焦李成;数据挖掘的聚类方法[J];电路与系统学报;2003年01期
2 王莉,王正欧;TGSOM:一种用于数据聚类的动态自组织映射神经网络[J];电子与信息学报;2003年03期
3 李未,黄文奇;一种求解合取范式可满足性问题的数学物理方法[J];中国科学(A辑 数学 物理学 天文学 技术科学);1994年11期
4 尹峻松,胡德文,陈爽,周宗潭;DSOM:一种基于NO时空动态扩散机理的新型自组织模型[J];中国科学E辑:信息科学;2004年10期
5 王熙照,王亚东,湛燕,袁方;学习特征权值对K-均值聚类算法的优化[J];计算机研究与发展;2003年06期
6 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
7 刘立平,孟志青;一种选取初始聚类中心的方法[J];计算机工程与应用;2004年08期
8 王实;高文;;数据挖掘中的聚类方法[J];计算机科学;2000年04期
9 万小军,杨建武,陈晓鸥;文档聚类中k-means算法的一种改进算法[J];计算机工程;2003年02期
10 秦国锋,李启炎;基于数据挖掘的知识获取与发现[J];计算机工程;2003年21期
中国博士学位论文全文数据库 前1条
1 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
中国硕士学位论文全文数据库 前1条
1 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 楼松斋,张惠惠;中文电子期刊的元搜索引擎[J];情报科学;2003年11期
2 马燕,邹显春,包骏杰,李明;一种互联网智能元搜索引擎模型的设计[J];重庆师范大学学报(自然科学版);2004年03期
3 屈长青,李艳芳;元搜索引擎的关键技术[J];现代计算机;2004年05期
4 胡亮,许永诚,高文,胡利平;个性化高效元搜索引擎的设计与实现[J];计算机工程与设计;2005年04期
5 ;来信[J];电子商务世界;2008年01期
6 仇海峰;元搜索引擎[J];中国计算机用户;1997年32期
7 张卫丰;徐宝文;周晓宇;李东;许蕾;;元搜索引擎研究[J];计算机科学;2001年08期
8 蔡耿青;搜索引擎——互联网之神[J];教育信息化;2003年09期
9 张付志,刘明业;一种基于元搜索引擎的数字图书馆系统集成框架[J];北京理工大学学报;2004年08期
10 伏汉英,黄永忠,陈新,杨凯,郭金庚;一种基于Java的元搜索引擎的设计与实现[J];信息工程大学学报;2004年04期
中国重要会议论文全文数据库 前10条
1 余晋;邓志鸿;田敬;唐世渭;;PinkySearch:基于聚类的元搜索引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 阳小华;刘振宇;谭敏生;刘杰;左贵启;;元搜索引擎查询结果的合成方法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 李慧;张民;宋源清;;网络搜索引擎[A];2009全国计算机网络与通信学术会议论文集[C];2009年
4 孟奇奎;;一种基于数据库和用户反馈信息的元搜索引擎数据库选择算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 吴冷冬;童云海;唐世渭;;面向在线音乐视频的元搜索引擎VMS[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 夏小玲;祁博民;廖顺和;;基于Web服务和元搜索引擎的数字图书馆中元数据互操作框架[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 陈伟雄;马少平;步建华;;基于元搜索引擎的多关键词检索技术[A];广东省电机工程学会2003-2004年度优秀论文集[C];2005年
8 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
9 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
10 吴远红;徐妙君;范银琛;;元搜索引擎中基于OWA算子的查询结果合成研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
中国重要报纸全文数据库 前10条
1 山东 张蕊;“闻香识引擎”[N];中国计算机报;2000年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 ITBOY;探索出来的世界[N];电脑报;2004年
4 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
5 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
6 赵敏超;利用因特网查找信息三步骤[N];中国图书商报;2003年
7 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
8 王旭;中文智能搜索引擎[N];计算机世界;2001年
9 彭岩 艾迪明;网络信息“拉取”技术[N];计算机世界;2001年
10 易观网络咨询公司;引航“?”年代[N];中国计算机报;2000年
中国博士学位论文全文数据库 前10条
1 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年
2 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
3 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
4 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
5 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
6 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
7 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
8 雷景生;神经网络的分类、聚类功能及其规则抽取研究[D];新疆大学;2003年
9 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
10 钟敏娟;基于检索结果聚类的XML伪反馈技术研究[D];江西财经大学;2012年
中国硕士学位论文全文数据库 前10条
1 姜国新;支持多语言标签优先的元搜索引擎结果聚类研究[D];浙江工商大学;2011年
2 张维华;基于聚类的中文元搜索引擎技术研究[D];南京邮电大学;2011年
3 冯冰洁;后缀树算法在元搜索引擎中的应用[D];暨南大学;2010年
4 郭瑾;基于元搜索的Web网络军事情报信息搜索技术研究[D];中国石油大学;2010年
5 徐洋;基于用户行为学习的农业信息元搜索引擎研究[D];中国农业科学院;2010年
6 王金栋;元搜索引擎调度策略及结果排序算法的研究[D];燕山大学;2010年
7 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年
8 张鑫;基于本体论的领域元搜索引擎的研究与设计[D];兰州大学;2010年
9 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
10 刘林;基于语义的元搜索引擎关键技术研究[D];河南工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026