收藏本站
《中国地质大学(北京)》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

词向量语义模型研究及在主题爬虫系统中的应用

孟竹  
【摘要】:爬虫,即使用程序自动获取网页上的内容,在现在已经很流行,是搜索引擎的重要组成部分,也是进行有监督机器学习模型训练的语料获取重要方法之一。然而,在某些特定领域的研究,普通爬虫不再能够满足特定语料获取的需求,因此带有特定主题的垂直领域爬虫已经日益被需要。主题爬虫需要在获取一个新的网页或网页链接时,通过判断在语义上是否与主题相关,来判断是否爬取该页面。本文使用词向量进行语义表示,并联合点对互信息方法,对新的网页链接进行判断,决策继续爬取该页面,还是放弃爬取该页面。具体内容如下。介绍自然语言处理技术、深度学习技术、语言模型。并详细介绍基于矩阵和基于向量的两种词向量表示方法。然后基于维基百科中文语料,使用不同的参数训练模型,得出实验结论,并选出某一组参数,进行下面章节的研究。为了解决一词多义的问题,本文引入点对互信息(PMI,Pointwise Mutual Information)。根据上下文信息,判断该词在此处的意思。并通过上一部分的结论,选出一个效果最好的词向量模型,联合PMI进行实验。PMI的词对表容量巨大,普通的电脑内存无法装载,针对该问题,本文将给出一种解决方法。把以上两部分运用于垂直领域爬虫系统。使用宽度优先搜索的方法进行抓取,当爬虫系统遇到一个新的链接时,使用上一部分得出的模型,判断该连接词与主题词的相关程度。使用“程序员”、“家具”、“护肤”三个主题,在百度百科上分别爬取若干页面,并保留中间扔掉的链接,人工判断每个网页是否与主题相关,从而得出准确率,召回率等,并与不使用相关词技术的普通爬虫对比,从而更加客观的判断本文的垂直领域爬虫的效果。本文提出了使用语义模型表示和点对互信息,联合进行网页链接是否与主题词相关的判定,从而筛选出与主题词相关的网页链接,并得出客观的实验效果。
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 金金;陈仪香教授与计算语义模型研究[J];上海师范大学学报(自然科学版);2002年04期
2 张大鹏,周军锋,陈宝峰;一种结合外部环境状态的主体语义模型[J];燕山大学学报;2005年04期
3 王煜;周立柱;邢春晓;;视频语义模型及评价准则[J];计算机学报;2007年03期
4 赵正利;王国宇;籍芳;;一种基于相关反馈的图像内在语义模型[J];微计算机信息;2007年24期
5 黄睿航;张园园;黄思沛;;基于语义模型的网络社群学习指导策略初探[J];无线互联科技;2013年06期
6 曹化工,秦友淑;工程信息结构的语义模型[J];计算机辅助设计与图形学学报;1996年01期
7 吕琳,孟祥旭,徐延宁;复杂产品的层次语义模型研究[J];中国机械工程;2004年15期
8 李晓建,陈磊,陈世鸿;教育资源语义模型研究[J];武汉大学学报(理学版);2005年03期
9 杨俊柯;杨贯中;杨建学;;基于语义模型的信息检索机制研究[J];计算机工程;2006年12期
10 董小峰;张树生;赵寒;周竞涛;冯赟;田占强;;基于语义模型的企业数据检索[J];制造技术与机床;2006年09期
中国重要会议论文全文数据库 前5条
1 宋春阳;;从字到字组的语义解释模型[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 张辉;宋晓;张霖;;面向数字化设计的产品共享信息语义模型研究[A];全国先进制造技术高层论坛暨第八届制造业自动化与信息化技术研讨会论文集[C];2009年
3 王煜;周立柱;邢春晓;;SemTTe:针对具有结构化时态与类型化事件的视频的语义模型[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 魏勇;欧阳峰;陈刚;;基于语义的虚拟场景编辑系统设计[A];Proceedings of 14th Chinese Conference on System Simulation Technology & Application(CCSSTA’2012)[C];2012年
5 王煜;周立柱;邢春晓;;视频语义模型SemTTE及其查询语言VSQL[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前4条
1 李学宁;现代汉语形容词概念语义模型研究[D];上海交通大学;2008年
2 石跃祥;计算机视觉图像语义模型的描述方法研究[D];中南大学;2005年
3 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
4 余卫宇;几种图像结构语义模型和图像[D];华南理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 胡海彪;鱼类目标三维空间行为语义模型研究[D];浙江工业大学;2015年
2 周磊;基于在线快速学习隐语义模型的个性化新闻推荐[D];南京邮电大学;2015年
3 刘琴;基于依存关系的语义表示方法研究[D];哈尔滨工业大学;2016年
4 范继强;提取直陈述小学数学应用题数量关系的一个语义模型池[D];华中师范大学;2016年
5 范玉强;基于隐语义模型的推荐系统研究[D];贵州大学;2016年
6 陈光颖;基于谓词逻辑的需求追踪方法研究[D];南京航空航天大学;2016年
7 张祯;Web服务多维度语义模型的实现研究[D];天津大学;2014年
8 孟竹;词向量语义模型研究及在主题爬虫系统中的应用[D];中国地质大学(北京);2017年
9 杜百玲;服务组装的可信语义模型的研究[D];哈尔滨工程大学;2009年
10 孙聪凯;语义模型、近似推理算法及其在网页分类的应用[D];上海交通大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026