收藏本站
《吉林大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于web3.0网络爬虫自主学习技术研究

朴石峰  
【摘要】:互联网已经发展到web2.0时代,并且开始迈向web3.0,搜索引擎已经成为人们从互联网上获取信息不可替代的渠道。在这种时代背景下,如何更有效的利用搜索引擎,发掘更有价值或者特定领域的信息是摆在眼前的问题。本系统就是在这种背景下研究如何获取客户来源渠道以及特定客户信息。 本系统是销售团队智能管理系统中的子模块,是专门为该销售系统里的客户查找模块提供客户资源的。该模块主要功能是为用户提供来源于互联网的公司客户信息,这也是该软件与传统销售软件区别之一。传统上这些公司客户信息要么是来源于自己历年积累的客户信息,要么就是来源于网上的黄页网站(如阿里巴巴和慧聪网等),但总的来说包含的有效公司信息还是比较有限的。如今搜索引擎已经是人们获取信息最重要的来源,有效利用该资源获取信息,就显得尤为重要。如今有多种搜索引擎,对本文来说每一种搜索引擎都是从互联网获取信息的重要通道,所以本着尽可能多的获取信息渠道的目的,本文引入元搜索引擎的概念,即整合多种搜索引擎。用户在元搜索引擎上输入某个关键字,相当于在多种搜索引擎上同时输入该关键字并进行检索。本系统不仅便于用户操作,还能尽量多的搜索到用户所需要的信息。为了避免信息重复,本系统还实现了筛选过滤信息的功能。在此基础上,为了进一步得到更多的客户信息,本文利用用户输入的关键字进行扩展处理。本文利用了知网这一本体对搜索的领域关键词领域进行统一建模。本体是表示领域知识的代表,也是语义网中的重要部分,语义网被认为是新一代网络,即web3.0,本文在研究web3.0的搜索引擎上如何获取用户所需要的信息进行了探索。本文的研究还包括搜索引擎上爬取信息的工具—网络爬虫(也叫网络蜘蛛)。通过网络爬虫爬取完搜索引擎上公司相关信息大致分为三类:公司网站信息、平台网站信息和无关项信息。其中公司网站信息是我们需要的,平台信息是部分需要的,最后的无关项信息是直接可以忽略掉的。为了把网络爬虫得到的网站信息分成上述三类信息,本文采用了文本分类领域经常使用的算法,朴素贝叶斯算法和K最近邻算法(KNN)。根据上述两种算法思想,首先进行文本预处理,即把半结构化数据转换为结构化数据,这里主要利用IKAnalyzer包的中文的分词处理过程为主。之后就要统计每个中文词语在某个类(即上述三个类)里出现的频次、该类里包含的中文词语总数和训练样本中所有中文词语的总数。为了适应KNN算法,还需要计算每个文档的TF*IDF值,即词频和逆文档频率之积。然后对文本预处理过的数据进行随机的测试集和训练集划分,即针对特征词进行训练集和测试集的划分。随后把训练集数据用在上述算法公式进行训练,最后使用测试集数据再验证算法的分类效果。 通过分析上述理论实现出来的分类算法的效果,本文在特定领域搜索知识上取得了较好的结果,其算法分类出来的平均精确度超过80%,基本能满足需求,并且能延伸和借鉴到其他以爬取互联网相关信息为研究的课题上。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 李湘媛;;Web3.0时代互联网发展研究[J];中国传媒大学学报(自然科学版);2010年04期
2 张耀天;何正友;赵静;张鹏;李明;桂建廷;;基于粗糙集理论和朴素贝叶斯网络的电网故障诊断方法[J];电网技术;2007年01期
3 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
4 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
5 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
7 汪鹏;;Ontology知识表示的艺术[J];计算机教育;2004年07期
8 杨建林;;基于本体的文本信息检索研究[J];情报理论与实践;2006年05期
9 陈向东;余锦凤;;一种基于本体的知识组织工具[J];情报理论与实践;2006年06期
10 李洁;丁颖;;语义网关键技术概述[J];计算机工程与设计;2007年08期
中国博士学位论文全文数据库 前1条
1 姜亮;基于语义网技术的机械设计方法和技术研究[D];大连理工大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
2 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
3 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
4 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
5 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期
6 代劲;胡峰;王国胤;;基于不完备信息系统的文本分类研究与应用[J];重庆邮电学院学报(自然科学版);2006年03期
7 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
8 王俊伟;吴纬;;基于支持向量机的装备维修保障专业优化[J];四川兵工学报;2010年09期
9 江河;;基于知识本体的个性化网页检索系统设计与实现[J];常州工学院学报;2010年06期
10 林周佳;;基于语义网技术的数字化档案馆研究[J];档案与建设;2006年04期
中国重要会议论文全文数据库 前10条
1 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
3 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
4 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
8 石艳荣;孙丹宁;贺永强;;一种基于内容的邮件过滤模型的研究与性能分析[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
9 张璐;王景中;;基于HNC语境框架的文本相似度计算[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 张亚刚;基于广域信息的电力系统故障元件定位方法研究[D];华北电力大学(北京);2011年
4 钟海东;基于地理本体的移动GIS空间信息服务研究[D];华东师范大学;2011年
5 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
6 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
7 罗建宏;粒计算分类知识发现算法及其应用[D];浙江大学;2010年
8 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
9 马沁怡;基于KBE的快速有限元分析方法研究[D];大连理工大学;2011年
10 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
4 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
5 朱定一;结合DSP及粗糙集技术的在线互动式UPS智能监控的应用研究[D];苏州大学;2010年
6 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
7 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
8 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
9 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
10 苏麒匀;基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 王吉军,岳同启,张建明,王健,岳同启,张建明;客户广义需求分类体系研究[J];大连大学学报;2002年06期
3 李馨;基于Wiki的跨学科知识共享[J];电化教育研究;2005年04期
4 周明,任建文,李庚银,徐开理;基于模糊推理的分布式电力系统故障诊断专家系统[J];电力系统自动化;2001年24期
5 孙静,秦世引,宋永华;一种基于Petri网和概率信息的电力系统故障诊断方法[J];电力系统自动化;2003年13期
6 束洪春,孙向飞,于继来;粗糙集理论在电力系统中的应用[J];电力系统自动化;2004年03期
7 赵冬梅,韩月,高曙;电网故障诊断的决策表约简新算法[J];电力系统自动化;2004年04期
8 文福拴,韩祯祥;基于覆盖集理论和Tabu搜索方法的电力系统警报处理[J];电力系统自动化;1997年02期
9 孟时;王彦;;larbin网络爬虫的体系结构[J];电脑学习;2010年04期
10 文福拴,韩祯祥,田磊,史觉玮,张怀宇;基于遗传算法的电力系统故障诊断的解析模型与方法──第一部分 : 模型与方法[J];电力系统及其自动化学报;1998年03期
中国博士学位论文全文数据库 前4条
1 闵春平;基于本体的跨领域虚拟样机技术研究[D];国防科学技术大学;2003年
2 陈向东;网络环境下的跨学科知识共享[D];华东师范大学;2005年
3 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
4 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前2条
1 任彬;一种特定领域的语义网模型[D];吉林大学;2004年
2 张强;基于网络机械设计实验仿真及远程数据采集实验系统研究[D];北京科技大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
2 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
5 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
6 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
9 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
10 杨松梅;;网络爬虫[J];硅谷;2009年15期
中国重要会议论文全文数据库 前5条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 王庆广;何力;韩伟红;;基于爬虫的有害网站发现与判别系统的实现[A];第27次全国计算机安全学术交流会论文集[C];2012年
中国硕士学位论文全文数据库 前10条
1 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
3 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
4 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
5 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
6 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
7 刘晶晶;面向微博的网络爬虫研究与实现[D];复旦大学;2012年
8 耿令宝;分布式环境下的网络爬虫系统研究与优化[D];北京邮电大学;2015年
9 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
10 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026