收藏本站
《河北工业大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

网络商品信息搜索与抽取技术应用研究

康有淞  
【摘要】:随着互联网的发展,网络购物逐渐的被人们所接受,电子商务也快速的发展起来。然而面临网络中丰富的商品,如何从中找到满意的商品信息,成为目前网络用户所面临的问题之一。 网页信息搜索与抽取技术是解决该问题的重要途径之一,可细分为网页搜索和信息抽取。网页搜索是指从互联网中搜索网页,目前主要的网页搜索技术有目录搜索、全文搜索以及元搜索。信息抽取是指对网页中的信息进行结构化处理,输出结构化信息,可以分为基于自然语言、包装器、本体、HTML结构和Web查询五种信息抽取技术。现有的网络商品信息搜索工具如比价网、爱购物、比价助手等采用人工进行规则抽取,自动化差。 本文对网络商品信息搜索和抽取技术进行了深入的研究和探讨,设计了一种“双层”元搜索引擎,并针对元搜索技术的特点对FindDR信息抽取算法进行了改进。主要工作如下: 1)提出了一种“双层”元搜索引擎。该方法通过百度搜索引擎搜索购物网站,提取其中包含的购物网站站内引擎信息,并以这些搜索引擎为子引擎实现对网络商品搜索。通过“双层”元搜索引擎可以实现对子搜索引擎的自动维护。 2)对FindDR算法进行改进。FindDR算法是一种适用于对具有重复结构网页进行信息抽取的信息抽取算法,本文通过元搜索引擎搜索结构网页与搜索词的对应关系对FindDR算法进行改进,提高了算法的运行效率。 3)将以上设计用JAVA语言实现并运用在一款网络比价软件的开发中,通过实际的大量网络商品搜索实验,验证了系统可以自动添加和维护子引擎并对商品信息进行高效抽取。
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3;F713.36

【参考文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 程文涛;师雪霖;;以本体为指导的Web网页信息抽取方法[J];北京化工大学学报(自然科学版);2011年04期
3 杨成;;基于XML的网页信息提取系统的研究与设计[J];电脑知识与技术;2009年26期
4 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期
5 苏国荣;杨岳湘;邓劲生;;一种去除重复URL的算法[J];广西师范大学学报(自然科学版);2010年01期
6 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
7 顾韵华;田伟;;基于DOM模型扩展的Web信息提取[J];计算机科学;2009年11期
8 胡仁龙;袁春风;武港山;濮小佳;;基于重复模式的自动Web信息抽取[J];计算机工程;2008年22期
9 方宏;吕太之;;动态网页信息提取技术在求职搜索中的应用[J];计算机工程;2009年24期
10 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期
中国重要会议论文全文数据库 前1条
1 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前1条
1 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 施洋;模板独立的网页信息抽取研究[D];复旦大学;2011年
2 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
3 王琳琳;基于HTML Parser的Web信息提取技术[D];北京邮电大学;2007年
4 李猛;基于DOM的Web信息抽取技术的研究与实现[D];大连理工大学;2008年
5 谈佳宁;半监督网页分类及其在目录式搜索引擎中的应用研究[D];江苏大学;2008年
6 侯航;基于URL分析的主题网络机器人研究[D];电子科技大学;2009年
7 金岳富;Web信息采集与信息抽取技术的研究[D];哈尔滨理工大学;2009年
8 丁兴旺;面向网络爬虫的海量URL数据管理技术研究[D];哈尔滨工业大学;2008年
9 李亮;基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现[D];中国地质大学(北京);2010年
10 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 兰富军;李春霆;高海忠;;农业主题垂直搜索引擎过滤技术研究[J];安徽农业科学;2010年09期
2 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 李烨民;;基于HTML5的前端本地化存储技术[J];成都大学学报(自然科学版);2012年01期
5 张俊杰;刘文华;;网络技术对HTML5运用的前景分析[J];时代教育;2012年13期
6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
7 韩光辉;曾诚;;正则表达式方程组的最小解[J];电脑与信息技术;2011年05期
8 李慧云;何震苇;李丽;陆钢;;HTML5技术与应用模式研究[J];电信科学;2012年05期
9 肖武德;;一种正则表达式的高效分组算法[J];计算机安全;2010年04期
10 郑思婷;杨烜会;王周敬;;网络店铺信息自动提取[J];福建电脑;2011年02期
中国重要会议论文全文数据库 前6条
1 林磊;刘燕兵;谭建龙;郭莉;;一种基于MPHF和Bloom Filter的URL查找算法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
2 甘屹;张雪梅;;网络化制造中产品设计数据转换研究与应用[A];全国先进制造技术高层论坛暨第十届制造业自动化与信息化技术研讨会论文集[C];2011年
3 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
4 李国华;昝红英;;基于语句相似度的网页标题抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
6 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年
中国博士学位论文全文数据库 前6条
1 许宪成;基于网络处理器的入侵检测系统设计与性能优化研究[D];华南理工大学;2010年
2 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
3 张树壮;面向网络安全的高性能特征匹配技术研究[D];哈尔滨工业大学;2011年
4 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
5 王欣;WEB应用系统安全检测关键技术研究[D];北京邮电大学;2011年
6 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
中国硕士学位论文全文数据库 前10条
1 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
2 杜娟;基于语义网格的知识地图资源组织研究与应用[D];哈尔滨工程大学;2010年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
5 段海生;基于正则表达式的深度包压缩算法研究[D];西安电子科技大学;2010年
6 田建超;网页数据采集和还原系统设计[D];西安电子科技大学;2010年
7 卢曦;手持设备信息技术服务管理系统的设计与实现[D];中国地质大学(北京);2011年
8 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
9 张辉;面向网络流识别的正则表达式匹配技术研究[D];首都师范大学;2011年
10 兰凯梅;BBS热点话题发现与监控系统[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 张魁麟,邵春福,王力劭;基于分布式并行算法的动态交通流分配研究[J];北方交通大学学报;2002年05期
2 胡凯;网络分布式并行计算的负载平衡[J];北京航空航天大学学报;2004年11期
3 冯艳为;王成良;;基于Web部件的个性化网站创建技术[J];重庆工学院学报(自然科学版);2008年02期
4 朱跃林;戴昌林;高志强;;基于SRI的动态网页信息抽取方法[J];重庆工学院学报(自然科学版);2009年10期
5 吴磊;张福庆;;基于HTML canvas的WebGIS客户端技术研究[J];地理信息世界;2009年03期
6 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期
7 张丽娜;陈俊杰;赵丽欣;;基于HTMLParser的BT种子网页信息抽取[J];电脑开发与应用;2010年03期
8 闵洁;蒋廷耀;王敏;;基于Web2.0的XML数据交换技术[J];电脑知识与技术;2008年35期
9 吴权;赖斌;;浅谈新网络技术标准带来的改变[J];电脑知识与技术;2010年15期
10 李名智;中文搜索引擎:现状、问题及对策[J];大学图书馆学报;1998年06期
中国重要报纸全文数据库 前3条
1 赵杰;[N];第一财经日报;2009年
2 杨谷;[N];光明日报;2006年
3 沈建苗 编译;[N];计算机世界;2010年
中国硕士学位论文全文数据库 前10条
1 卢睿;基于XML的Web信息抽取研究[D];大连海事大学;2005年
2 石宇;基于XML的Web信息抽取与集成技术的研究[D];大连海事大学;2006年
3 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
4 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
5 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
6 林科锵;Web页中表格结构识别的研究与实现[D];电子科技大学;2006年
7 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
8 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
9 陈佳;基于XML的Web信息抽取技术的应用研究[D];武汉理工大学;2007年
10 左军;基于Lucene网络视频垂直搜索系统的设计与实现[D];北京邮电大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 王晓丹;孙娇梅;;浅议互联网信息搜索技术的发展[J];应用能源技术;2008年05期
2 张晓翊;刘清;程少锋;;网上信息搜索的利器:元搜索引擎及其特色[J];图书馆杂志;2000年07期
3 龙宇巍;王永成;许欢庆;;中文元搜索引擎调研报告[J];中国索引;2003年03期
4 楼松斋,张惠惠;中文电子期刊的元搜索引擎[J];情报科学;2003年11期
5 马燕,邹显春,包骏杰,李明;一种互联网智能元搜索引擎模型的设计[J];重庆师范大学学报(自然科学版);2004年03期
6 屈长青,李艳芳;元搜索引擎的关键技术[J];现代计算机;2004年05期
7 胡亮,许永诚,高文,胡利平;个性化高效元搜索引擎的设计与实现[J];计算机工程与设计;2005年04期
8 ;来信[J];电子商务世界;2008年01期
9 王晓丹;胡乔迁;;信息检索中元搜索引擎结果选择策略[J];哈尔滨商业大学学报(自然科学版);2008年04期
10 仇海峰;元搜索引擎[J];中国计算机用户;1997年32期
中国重要会议论文全文数据库 前10条
1 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
2 阳小华;刘振宇;谭敏生;刘杰;左贵启;;元搜索引擎查询结果的合成方法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 张宜;靳桂明;;突发公共卫生事件中互联网医药信息搜索与启示[A];中华医院管理学会第十届全国医院感染管理学术年会论文汇编[C];2003年
4 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 李慧;张民;宋源清;;网络搜索引擎[A];2009全国计算机网络与通信学术会议论文集[C];2009年
6 孟奇奎;;一种基于数据库和用户反馈信息的元搜索引擎数据库选择算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 余晋;邓志鸿;田敬;唐世渭;;PinkySearch:基于聚类的元搜索引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 吴冷冬;童云海;唐世渭;;面向在线音乐视频的元搜索引擎VMS[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
10 夏小玲;祁博民;廖顺和;;基于Web服务和元搜索引擎的数字图书馆中元数据互操作框架[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国重要报纸全文数据库 前10条
1 本报实习记者 陈张杰;电话搜索开辟信息搜索新领域[N];通信信息报;2005年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 本报记者 吕刚;信息搜索不再上演“百团大战”[N];国际商报;2003年
4 郝悍勇;公司内网统一信息搜索功能上线运行[N];国家电网报;2010年
5 ;企业信息搜索无用?[N];网络世界;2007年
6 俞晓秋;让科技被善用[N];人民日报;2010年
7 王金元;Google搜索业务延伸 主宰图书信息搜索[N];市场报;2004年
8 山东高密一中 张铁龙;信息搜索大提速[N];中国电脑教育报;2004年
9 李晋;兰州电信大力推进号码百事通业务发展见成效[N];人民邮电;2006年
10 资深酒店营销管理专家 张国华;旅游搜索未必是春风[N];中国经济时报;2009年
中国博士学位论文全文数据库 前10条
1 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
4 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
5 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
6 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
7 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
8 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
9 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
10 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
2 康有淞;网络商品信息搜索与抽取技术应用研究[D];河北工业大学;2012年
3 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
7 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
8 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
9 张腾宇;元搜索引擎中结果聚合排序方法的研究[D];北京工业大学;2012年
10 徐兴智;科技平台撮合系统的设计与实现[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026