收藏本站
《浙江工业大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

Web信息抽取系统的设计与实现

皮珊  
【摘要】:当前作为基础网络的互联网正高速发展,基于互联网的万维网(Web)也得以在人们的日常生活中扮演越发重要的角色。万维网上承载的海量信息,使得它变成了人们日常生活中获取信息的一个重要源头。探索一种方便人们从万维网的海量信息中挖掘出自己所需要的内容的方法变得越来越重要。Web信息抽取就是众多方法中的一个有效解决方案。本课题系统主要被应用于实现电子商务领域中商品、产品信息和行业领域咨询等Web信息抽取场景;同时,该系统也可以帮助普通用户获取大量的、个人感兴趣的Web信息。 本课题的研究内容是,设计和实现一个能够从万维网中抽取用户所需要信息的Web信息抽取系统。通过使用本课题设计和实现的Web信息抽取系统,可以满足人们从Web上获取订制信息的需求;也可以通过本系统实现获取大批量的信息,以此作为后续Web信息处理系统的数据输入,最终实现Web数据产品来满足人们获取各类Web信息的需求。 研究了Web信息抽取的定义并提出了解决思路,针对从Web上获取信息特别是有价值对等的信息进行了相关的分类和定义;定义了一种表示Web格式化信息的数据模型。这个数据模型对于设计Web信息抽取算法、以及组织通过Web信息抽取算法获取的Web信息数据都具有重要的意义;针对不同的Web信息抽取目标,设计和实现了Web信息抽取算法。例如:满足用户从自定义的页面上任意位置获取信息,设计了基于模板的信息抽取算法;满足用户从列表-详情页面上获取信息,设计了基于列表自动抽取算法;通过对Http服务框架构建服务器的设计与实现,对外实现了通过Http服务提供Web信息抽取的能力;同时也通过设计和实现了一个抽取任务工作引擎,实现了对外提供一种可以定制和托管信息抽取的任务级的Web信息抽取能力。 最后,作者依据软件开发生命周期,依次从需求分析、系统设计和实现以及系统测试,介绍了web信息抽取系统的设计与实现。
【学位授予单位】:浙江工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.09;TP391.3

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 田原;唐铸文;;XML和数据库之比较与转换[J];电脑知识与技术;2005年35期
2 倪彬彬;;XML技术应用于数据集成的探讨[J];福建电脑;2010年01期
3 朱华;;浅议如何管理网络信息资源[J];河北科技图苑;2006年01期
4 岳惠明;李峻林;曹万华;;基于XML的舰用文电处理系统的设计[J];舰船电子工程;2007年04期
5 陈静;;试论数字化图书馆的检索工具[J];今日科苑;2007年08期
6 董婧;;对关系数据库与XML数据库的比较研究[J];今日科苑;2010年08期
7 陈佳;胡燕;轩艳艳;;一种基于XML的Web信息抽取方法[J];计算机与数字工程;2007年06期
8 周超;杜冬高;;Linux守护进程的研究[J];焦作大学学报;2008年01期
9 杨海涛;;网络信息检索的困境及发展趋势[J];科技情报开发与经济;2008年11期
10 黄小玲;;打开网络信息资源的金钥匙——百度搜索引擎[J];科技情报开发与经济;2008年25期
中国博士学位论文全文数据库 前3条
1 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
2 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
3 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 丁蕾;方木云;;简述软件测试的白盒测试法[J];安徽科技;2007年10期
2 宋春秀;;面向对象软件测试技术的研究[J];信息安全与技术;2010年09期
3 刘剑虹,胡坚强,卢凤珠,卢尚琼;高校图书馆面临的经济危机[J];图书与情报;2003年01期
4 徐刚;邓胜利;;2004~2007年信息资源管理研究进展[J];图书与情报;2009年04期
5 李永忠;;软件测试中有效利用自动化测试方法的研究[J];长沙交通学院学报;2006年02期
6 房向红;;中文网络信息资源建设与网上中华文化的弘扬[J];产业与科技论坛;2007年10期
7 刘杰;;医院计算机网络信息资源的开发与利用[J];产业与科技论坛;2011年06期
8 李海军;;遥感影像快速正射处理系统测试方案探讨[J];测绘与空间地理信息;2011年06期
9 葛宁;;决策表在机械手路径规划中的应用[J];电子工业专用设备;2008年07期
10 王立新;李明辉;;Modeling and Rendering in the Three-Dimensional Effect in Rhino for Lady's High Boots[J];Journal of Donghua University(English Edition);2011年02期
中国博士学位论文全文数据库 前5条
1 王立新;软件测试数据的高效生成及测试方法研究[D];东华大学;2011年
2 朱彬;基于用户界面规格说明的Web应用建模与测试用例生成[D];上海大学;2011年
3 杨云;中药指纹图谱数据处理技术的研究及应用[D];华南理工大学;2007年
4 蔡立志;基于形式化的软件测试复用若干关键技术的研究[D];上海大学;2009年
5 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 罗晨;基于网络的库存管理系统的研究与应用[D];哈尔滨工程大学;2010年
2 董晓莹;通用试卷质量分析系统的设计与实现[D];大连海事大学;2010年
3 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
4 张铭霖;农村中青年信息能力培训系统的设计与实现[D];华南理工大学;2010年
5 陈大胜;基于.NET的高职院校教务管理系统的设计与实现[D];南昌大学;2010年
6 刘小齐;可复用测试用例的分类与智能检索研究[D];华东理工大学;2011年
7 卢伟涛;Web应用系统的测试与分析[D];北京交通大学;2011年
8 张学梅;胜利船舶人工成本控制管理系统的设计与实现[D];电子科技大学;2010年
9 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
10 杨靖;基于J2EE的生产管理系统的设计与实现[D];电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 焦昆生;网络环境下图书馆业务流程的未来走向[J];鞍山师范学院学报;2004年04期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 周波;图书馆学专业教育改革热中的冷思考[J];图书与情报;2003年01期
4 张琪;手机短信:第五媒体的崛起[J];传媒;2005年01期
5 谢桂芳;;SPARQL-一种新型的RDF查询语言[J];湘南学院学报;2009年02期
6 秦志光;罗琴;张凤荔;;一种混合的垃圾邮件过滤算法研究[J];电子科技大学学报;2007年03期
7 高觐悦;张功萱;;基于UDDI的语义Web服务匹配算法的研究[J];信息化研究;2009年10期
8 叶育鑫;欧阳丹彤;;混合语义约简和选择估值优化SPARQL[J];电子学报;2010年05期
9 乔秀全;李晓峰;;支持语义互操作的以用户为中心的融合服务架构及关键技术[J];电子与信息学报;2009年09期
10 孙会峰;万会蕊;;基于XML异构数据集成中间件的应用[J];福建电脑;2006年08期
中国博士学位论文全文数据库 前10条
1 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
2 郑欣;物联网商业模式发展研究[D];北京邮电大学;2011年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
6 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
7 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
8 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
10 谢江;蛋白质相互作用网络的数值研究[D];上海大学;2008年
中国硕士学位论文全文数据库 前10条
1 吴小燕;多媒体会议系统业务流程的设计与实现[D];北京邮电大学;2011年
2 史雷军;基于领域本体的需求获取方法和技术的研究[D];武汉科技大学;2011年
3 徐秀星;Web数据集成中全局模式构建方法研究[D];山东大学;2011年
4 江叶婵;手机阅读内容研究[D];安徽大学;2011年
5 胡海波;复杂网络拓扑结构的研究[D];西安理工大学;2006年
6 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
7 陈岳华;企业信息检索研究与实现[D];北京邮电大学;2006年
8 刘斌;数字图书馆中基于统计的自动文本分类方法研究[D];中国科学院研究生院(计算技术研究所);2002年
9 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
10 关娜;基于文本分类算法的垃圾短信过滤技术研究[D];电子科技大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 徐中华;;Web信息抽取方法概述[J];经营管理者;2008年09期
2 谭锋;李天真;崔亮亮;;Web信息抽取系统研究综述[J];科技创新导报;2010年34期
3 卢红杰;;基于Web数据的信息抽取技术[J];兰台世界;2006年07期
4 王锟;;WEB文档信息抽取方法研究[J];福建电脑;2008年03期
5 秦振海;谭守标;徐超;;基于Web的表格信息抽取研究[J];计算机技术与发展;2010年02期
6 蒋邵衡;;WEB信息的抽取与集成研究[J];电脑知识与技术;2009年30期
7 李姗;黄水源;;基于XML的WEB信息抽取模型设计[J];微计算机信息;2009年09期
8 熊惠荟;欧阳君;;基于模板法的网页英语试卷自动抽取技术的研究[J];计算机与数字工程;2009年04期
9 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
10 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期
中国重要会议论文全文数据库 前10条
1 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
6 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
2 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
3 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
4 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
5 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
8 叶育鑫;语义Web下的知识搜索及其核心技术[D];吉林大学;2010年
9 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
10 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
2 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
3 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
4 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
5 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
6 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
7 钱浩;Web信息抽取技术的研究与应用[D];东北石油大学;2011年
8 张洪恩;基于语义的Web信息抽取方法的研究与应用[D];重庆大学;2011年
9 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
10 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026