收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM分类算法的主题爬虫研究

李正文  
【摘要】:近年来,随着互联网的快速发展,互联网上的信息量日益增长且呈现多元化的特点。于是如何能够迅速、准确而高效地为互联网用户定位所需要的信息,成为搜索引擎的主要目标。通用搜索引擎能够在较大的信息范围内获取信息,但是由于其涉及的领域过于宽泛,因此,在某些特定领域,无法给用户提供专业而深入的信息。于是,主题搜索引擎应运而生,它能够在某一特定领域,提供专业、精确而深入的搜索服务。本文以主题搜索引擎中的主题爬虫为研究内容,研究有效地爬取某一主题范围内网页的策略。 本文首先对主题爬虫的相关研究进行了综述,从通用爬虫和主题爬虫的主要组成结构、基于文字内容的启发式爬取策略、基于Web链接结构的评价方法,分析了当前爬取策略的优缺点。 采用向量空间模型将网页用数学方法表示,研究支持向量机算法的相关原理。提出了基于文字内容和部分链接信息的主题相关度预测算法,对未爬取的网页,预测其与主题的相关度。 对于已经爬取网页,首先使用SVM分类器过滤与主题无关的网页,然后使用HITS算法构建主题子图,选取权威度或中心度高的网页作为下次爬取的起始种子。 在小型开源搜索引擎TSE的基础上,构建主题爬虫,对爬取策略进行研究。本文将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,实现了基于SVM分类的主题爬虫。实验表明,本文提出的基于SVM分类的主题爬虫,能够较好地爬取与主题相关的网页。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王清翔;仲婷;潘金贵;;基于SVM的日文网页分类[J];广西师范大学学报(自然科学版);2007年02期
2 赵书河,冯学智,都金康,林广发;基于支持向量机的SPIN-2影像与SPOT-4多光谱影像融合研究[J];遥感学报;2003年05期
3 张键;于忠党;栾海滢;;基于SVM的教师评价系统研究[J];教育信息化;2006年03期
4 薄丽玲;;基于SVM的数字图像水印检测算法设计[J];科技情报开发与经济;2007年33期
5 黄秀丽;王蔚;;SVM在非平衡数据集中的应用[J];计算机技术与发展;2009年06期
6 刘晓亮;丁世飞;朱红;张力文;;SVM用于文本分类的适用性[J];计算机工程与科学;2010年06期
7 任俊旭;;基于SVM的企业信息化能力成熟度测度模型研究[J];商业文化(下半月);2011年04期
8 吴春辉;陈洪生;;基于内容的音频分类技术综述[J];现代计算机(专业版);2011年05期
9 毛伟;;基于支持向量机的回归应用研究[J];科技资讯;2011年12期
10 王双亭;艾泽天;都伟冰;康敏;;基于SVM不同核函数的多源遥感影像分类研究[J];河南理工大学学报(自然科学版);2011年03期
11 王亮申,欧宗瑛,苏铁明,杨鑫华,曾好平;利用SVM和灰度基元共生矩阵进行图像数据库检索[J];大连理工大学学报;2003年04期
12 业宁,孙瑞祥,董逸生;MLSVM4——一种多乘子协同优化的SVM快速学习算法[J];计算机研究与发展;2005年09期
13 周珂;彭宏;胡劲松;;支持向量机在心电图分类诊断中的应用[J];微计算机信息;2006年09期
14 游智;李战怀;张阳;;基于字符串核的免分词中文文本分类方法[J];计算机工程与应用;2006年26期
15 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[J];微电子学与计算机;2006年S1期
16 王明高;王琰;;基于小波提取特征的SVM目标识别[J];沈阳理工大学学报;2006年05期
17 霍东云;聂峰光;郭力;;利用Medline文摘数据库研究文本分类[J];计算机与应用化学;2007年09期
18 刘忠铁;;基于SVM的图像特征样本集构造技术研究[J];科技情报开发与经济;2007年26期
19 刘太安;杨柏翠;刘欣颖;李涵;;基于特征选择的最少核分类器研究[J];计算机工程与应用;2007年16期
20 杨克领;姜慧霖;;基于SVM的新多类分类算法[J];电脑知识与技术(学术交流);2007年13期
中国重要会议论文全文数据库 前10条
1 ;A Tool Wear Predictive Model Based on SVM[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
2 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
3 司爱威;冯辅周;江鹏程;饶国强;王建;;基于可变风险SVM模型的故障识别方法研究[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
4 王红伟;董慧;;一种提高SVM分类精度的调制信号识别方法[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
5 ;Improved Particle Swarm Optimized SVM for Short-term Traffic Flow Predication[A];第二十六届中国控制会议论文集[C];2007年
6 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 邵杰;叶宁;容亦夏;;基于SVM的多波束测深数据滤波[A];第二十九届中国控制会议论文集[C];2010年
8 于湘涛;周峰;张兰;魏超;;基于SVM和田口方法的石英挠性加速度计健壮性设计[A];质量——持续发展的源动力:中国质量学术与创新论坛论文集(下)[C];2010年
9 ;Adaptive Control of Nonlinear System Based on SVM Online Algorithm[A];中国自动化学会控制理论专业委员会D卷[C];2011年
10 张睿;陈雪;马建文;;基于递归SVM的高光谱数据特征选择算法研究[A];第八届成像光谱技术与应用研讨会暨交叉学科论坛文集[C];2010年
中国博士学位论文全文数据库 前10条
1 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
2 申丰山;样例权重估计及在此基础上的SVM[D];西安电子科技大学;2011年
3 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
4 张婧;基于SVM的肺结节自动识别方法研究[D];华南理工大学;2011年
5 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
6 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
7 曹志坤;制冷陈列柜性能仿真SVM方法的研究及应用[D];上海交通大学;2010年
8 王金林;基于混沌时间序列和SVM的入侵检测系统研究[D];天津大学;2010年
9 包鑫;稳健回归技术及其在光谱分析中的应用[D];浙江大学;2010年
10 渐令;基于核的学习算法与应用[D];大连理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年
2 严会霞;基于SVM的眼动轨迹解读思维状态的研究[D];太原理工大学;2010年
3 吴迪;基于SVM分类器的分步定位算法研究[D];哈尔滨工业大学;2010年
4 杨焕;基于Basic-N-Units特征的SVM方法预测MicroRNA[D];吉林大学;2010年
5 曾玉祥;盲抽取与SVM方法在地球化学异常下限提取中的应用[D];成都理工大学;2010年
6 曹云生;基于支持向量机(SVM)的森林生态系统健康评价及预警[D];河北农业大学;2011年
7 张汉女;基于SVM的海岸线提取方法研究[D];东北师范大学;2010年
8 姚玉;基于GA-SVM算法的细胞色素酶P450突变预测[D];上海交通大学;2011年
9 陈燃燃;基于SVM算法的web分类研究与实现[D];北京邮电大学;2010年
10 陈卓;基于聚类和SVM主动反馈的图像检索方法[D];重庆大学;2010年
中国重要报纸全文数据库 前10条
1 郭涛;利用SVM虚拟化技术实现容灾[N];中国计算机报;2008年
2 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
3 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
4 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
5 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
6 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
7 刘成富;编辑网页有妙法[N];计算机世界;2004年
8 ;网站安全必不可少的保护神[N];中国计算机报;2005年
9 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年
10 姜元学;初哥上网三注意[N];中国电脑教育报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978