收藏本站
《合肥工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

Web就业信息抽取系统的实现研究

方少卿  
【摘要】:随着Internet的快速发展,网络已成为人们查询信息、获取数据的重要知识库。面对遍布全球的互联网络构成的“数据海洋”,作为从浩瀚的Web信息资源中发现潜在的有意义知识的有效手段,Web挖掘技术正越来受到人们的关注。 在高职高专专业建设中需要从大量的企业用工信息中得到对专业建设和课程开设有一定指导意义的人才需求信息,Web信息是这些数据来源的重要组成部分,快速、准确、有效地获取Web上的有价值信息,对指导高职院校专业建设和核心课程开设有着重要的意义。 因特网页面所具有的数据量大、半结构化且动态变化的特点,给Web信息抽取带来了复杂度高、可扩展性和适应性差等问题。XML技术的出现,为解决基于Web的数据抽取提供了一个良好的机遇。本文的研究是基于XML的Web信息抽取,它属于Web内容挖掘的范畴。 本文主要进行了以下几个方面的工作: 1.针对Web信息抽取中的主要难点是如何有效地确定抽取规则这一问题。本文给出了一种基于路径归纳学习的信息抽取方案,并对相关的技术进行了探讨和研究; 2.在对Web页特点进行研究的基础上,利用XML的特点进行Web信息抽取,为此利用JTidy对其待抽取的Web页代码进行优化和清洗并转化为XML文档,再经过XML解析获取Web页的DOM树,以利进一步进行信息抽取; 3.采用归纳学习方法给出基于DOM的抽取规则生成和数据抽取策略,提出了规则生成的算法和数据抽取算法;通过机器学习生成抽取规则(集),利用生成的模板中的规则对结构相似页面进行信息抽取; 4.按照数据采集块模块、数据整理模块、数据抽取模块(包括规则生成及管理、就业信息抽取)给出了系统实现的总体框架,利用给出的算法完成了一个Web就业信息抽取系统Jobhunting的开发和实验。所抽取的数据存入数据库,以便利用成熟的数据库技术处理利用这些数据。
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09

【相似文献】
中国期刊全文数据库 前10条
1 赵丽娜;周吉顺;;基于WEB的高校网上选课系统的设计与实现[J];电脑知识与技术;2011年18期
2 米新英;;基于Web的通用商品报价系统的研究与实现[J];北华航天工业学院学报;2011年03期
3 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
4 朱启英;李明霞;穆玉明;张源明;;基于WEB的考试系统在医学远程教育中的应用[J];中国高等医学教育;2011年06期
5 段静波;潘惠苹;;基于WEB的学院教务管理系统设计与应用[J];电脑知识与技术;2011年17期
6 范毅君;马永威;;浅谈门户网站的设计与在油田中的应用[J];中国石油和化工标准与质量;2011年07期
7 潘生;;基于WEB的人力资源管理专业亲验式教学资源库系统设计[J];电脑知识与技术;2011年23期
8 杜婷;陶克斌;夏勤;;基于Web的无刷新即时通讯设计与实现[J];重庆科技学院学报(自然科学版);2011年04期
9 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期
10 张爱军;;电子商务技术的创新发展趋势[J];电脑知识与技术;2011年26期
中国重要会议论文全文数据库 前10条
1 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
6 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报特约撰稿 张娟;用Web 2.0提升知识管理效率[N];计算机世界;2008年
3 厉民;金融风暴冲击Web2.0产业[N];人民邮电;2008年
4 电脑商报记者 周雪;Web安全市场须冷却慎行[N];电脑商报;2008年
5 郭川;Web2.0:新花样层出不穷[N];人民邮电;2008年
6 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
7 本报记者 李飞虎;Web 2.0[N];中国计算机报;2008年
8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
9 商报记者 吴辰光;Web2.0凸显空洞概念[N];北京商报;2009年
10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
4 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
5 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
6 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
7 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
8 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
10 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
2 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
3 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
4 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
5 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
6 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
7 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
8 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
9 钱浩;Web信息抽取技术的研究与应用[D];东北石油大学;2011年
10 张洪恩;基于语义的Web信息抽取方法的研究与应用[D];重庆大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026