收藏本站
《东华大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web挖掘的纺织专业搜索引擎设计

曹杰  
【摘要】: 互联网上的信息以几何级数的速度膨胀,为了从纷繁芜杂的信息海洋中找到有用的信息,人们借助搜索引擎搜寻所需信息。Yahoo、Google、Baidu等就是比较有代表性的搜索引擎。可是这种通用搜索引擎无法满足人们对专题性信息的需求。因此需要研究开发面向特定领域的专业搜索引擎来对专业领域信息进行检索。 本文设计了一个纺织专业搜索引擎系统,详细设计了系统中的重要模块并对模块中的关键技术进行了研究。本文的研究内容如下: 1、给出了纺织专业主题爬行器的详细设计 提高主题爬行器的效率问题。一方面通过协调器对网络爬虫抓取的URL按照一定规则进行调度,避免了由于网络爬虫的负载不平衡造成的资源分配不均;另一方面在扫描网页源代码获取抓取的URL的同时,设计目标网页内容过滤/预测模型来确定待采页面,对网页所含的超链接进行剪切与分类,按照相关链接采集、不相关链接直接丢弃的原则进行剪枝处理,减少网络蜘蛛页面采集的工作量。 2、针对主题爬行器中涉及的文本分类技术进行了改进。 在向量空间模型表示网页文本时,特征项在文本集合中位置分布的不同会引起权值的差异的问题。针对此问题本文改进了特征项权值的计算公式以更好的体现网页的结构特征。传统的K最近邻分类方法存在一个很致命的问题就是如果训练集的数据量很大,该方法很难实现全局的最优搜索,为了加速K个最近邻的搜索,本文采用了一种基于K最近邻的快速文本分类方法,使在海量数据集中进行快速有效分类成为可能。 3、对检索器中的网页排序算法进行了改进 现在网页排序算法主要是围绕着PageRank算法和HITS算法进行研究的。在研究了这两种经典的排序算法后,本文提出一种基于文本聚类的网页排序方法希望达到两点目标:一是越重要的网页在结果列表中的位置越靠前;二是前几页结果列表的信息覆盖面比较广,这样可以帮助用户在检索过程中明确自己的检索目标。
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前1条
1 陈靖;垂直育儿搜索引擎研究[D];西南大学;2010年
【参考文献】
中国期刊全文数据库 前7条
1 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
2 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
3 郑毅,吴斌,史忠植;基于概念空间的文本检索系统[J];计算机工程与应用;2002年12期
4 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
5 徐永川;SGML、HTML与XML的比较[J];情报科学;2004年01期
6 钱晓东,王正欧;基于改进KNN的文本分类方法[J];情报科学;2005年04期
7 张东礼,汪东升,郑纬民;基于VSM的中文文本分类系统的设计与实现[J];清华大学学报(自然科学版);2003年09期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前1条
1 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
3 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
4 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
5 汪军;王传玉;;基于协议分析的并行聚类入侵检测模型[J];安徽工程科技学院学报(自然科学版);2009年04期
6 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
7 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
8 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
9 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
10 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
6 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
7 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
8 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
9 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
10 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
4 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
5 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
6 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
7 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
8 杜曼玲;供应链过程管理的分析方法与技术实现[D];北京交通大学;2010年
9 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
10 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 夏光磊;关于XML的关系数据库存储查询技术研究[D];山东科技大学;2010年
3 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
4 杨添博;分布式控制系统网络控制器的SOPC设计[D];长春理工大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
7 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
8 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
9 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
10 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 徐斌;;对垂直搜索引擎X公司投资可行性的评估[J];科技成果纵横;2009年03期
2 王宁宁;;浅谈CNNIC最新报告对垂直搜索引擎领域的启示[J];图书馆理论与实践;2009年01期
3 刘春友;;垂直搜索在B2B电子商务中的应用探析[J];辽宁工程技术大学学报(社会科学版);2009年04期
4 冯书晓,徐新,杨春梅;国内中文分词技术研究新进展[J];情报杂志;2002年11期
5 奉国和;;自动文本分类技术研究[J];情报杂志;2007年12期
6 陈军;陈竹敏;;基于网页分块的Shark-Search算法[J];山东大学学报(理学版);2007年09期
7 梁卓明;陈炬桦;;基于专有名词优先的快速中文分词[J];计算机技术与发展;2008年03期
8 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
9 方凤;余旬;王亚莉;陈国军;汪隽瑛;;五年育儿网小儿心理行为问题咨询趋势分析[J];医学信息;2006年03期
10 林涛;;垂直搜索的出路?[J];中国企业家;2009年02期
中国博士学位论文全文数据库 前4条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
4 鲍钰;WEB日志挖掘及其应用研究[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
2 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
3 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
4 赵志荣;个性化搜索引擎的研究、设计与实现[D];四川大学;2002年
5 陈先;智能搜索引擎关键技术研究与实现[D];哈尔滨工程大学;2003年
6 李欣;基于概念检索的智能信息检索技术研究[D];华中师范大学;2004年
7 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
8 刘辉;搜索引擎联邦算法设计与系统实现[D];清华大学;2004年
9 刘轶;农村0~3岁儿童母亲社会支持系统研究[D];西北师范大学;2005年
10 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 于震;辽宁省丹东市母婴健康信息的受众媒介接触行为研究[D];辽宁大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
2 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
3 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期
4 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
5 赵晓芳,刘欣,徐志伟;网络交通自相似特性的分析及应用——具有单一登录点的机群网络服务器的性能评测[J];计算机研究与发展;1999年09期
6 张岩,李文辉,孟宇,庞云阶;应用PSO的快速纹理合成算法[J];计算机研究与发展;2005年03期
7 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期
8 赫枫龄;左万利;张雪松;;高性能网页索引器JU_Indexer的实现[J];吉林大学学报(理学版);2006年01期
9 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
10 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
中国博士学位论文全文数据库 前1条
1 王晓晔;时间序列数据挖掘中相似性和趋势预测的研究[D];天津大学;2003年
中国硕士学位论文全文数据库 前4条
1 许林杰;中文文本分词研究[D];山东师范大学;2003年
2 王晓华;基于内容的搜索引擎技术研究及其应用[D];郑州大学;2005年
3 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
4 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期
2 肖红;刘淑华;;一种文本多级分类方法研究[J];长江大学学报(自然科学版)理工卷;2008年02期
3 赵博;丁华福;;一种基于关键向量的文本分类模型[J];信息技术;2007年12期
4 马甲林;张桂珠;刘金岭;;中英文文本分类系统异同因素的探讨[J];电脑学习;2011年02期
5 方兰,王明文;文本自动分类技术及其应用[J];计算机与现代化;2004年07期
6 卢炎生;崔得暄;邹磊;;特征序列分析方法在文本分类中的应用[J];计算机工程;2006年20期
7 解本政;;TCBPL:一种高效文本分类新方法[J];计算机工程;2005年23期
8 何国辉;吴礼发;;基于机器学习的文本分类技术的研究[J];计算机与现代化;2009年08期
9 牛玲;;一种基于向量空间模型的改进文本分类算法[J];情报杂志;2006年06期
10 肖旻;;一种基于向量空间模型的邮件自动过滤算法研究[J];福建电脑;2006年08期
中国重要会议论文全文数据库 前10条
1 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
7 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前7条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
3 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
4 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
5 希安;微软试水信息检索[N];经济日报;2004年
6 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
7 应晓敏 窦文华;技术架构[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
2 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 郝立柱;汉语文本自动分类[D];吉林大学;2008年
8 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
9 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
10 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
2 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
3 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
4 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
5 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
6 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
7 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
8 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
9 沈贺丹;核心能力评价系统的分类模块研究[D];辽宁工程技术大学;2006年
10 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026