收藏本站
《江西师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向电子商务网站的深度搜索与信息抽取研究

周炘  
【摘要】:随着网络技术和数据库技术的飞速发展,互联网已成为海量信息的载体,如何从海量信息中准确、快速地抽取出有价值的信息已成为人们迫切需要解决的一大难题。电子商务网站具有动态Web页面、页面结构化程度高以及信息数量巨大且内容丰富等特点。实际上,电子商务网站属于Deep Web,Deep Web指的是存储在数据库中、不能通过静态超链接访问而需要通过动态网页技术访问的信息,用户需要向特定的查询接口提交查询请求后才能访问数据库中的数据。深度搜索就是针对Deep Web进行搜索。Deep Web不仅信息量大,而且具有面向某一领域、结构化程度较高且可以公开访问等特点。本文选择电子商务网站作为深度搜索的对象,研究商品信息的抽取。电子商务网站的站内搜索引擎为研究人员对网站进行深度搜索提供了便利,它可以根据用户输入的关键词,将与之相关的数据库内容以网页的形式动态呈现出来。我们可以利用这类查询接口进行深度搜索,通过模拟关键词的填充和提交,来获取我们需要的页面。 通过深度搜索所获得的页面内含有大量商品信息,我们以此为信息源进行信息抽取。信息抽取研究中最关键的技术在于如何生成抽取规则,生成的方法有很多,但从生成的手段来说可以分为两种,一种是自动生成抽取规则,另一种是人工编写抽取规则,两种方法各有优缺点,有着各自的适用范围。自动生成的方法有利于针对不同结构的网站,但准确率较低;而人工编写的方法虽然需要人工参与,但抽取结果较为精确。本文针对电子商务网站进行信息抽取,抽取商品的各种信息,主要包括商品名称、价格、运费、商品相关信息等内容。由于同一网站下的子页面结构大体相同,因此,为了获得更为精确的抽取结果,我们采用了人工编写抽取规则的方法。 本文的主要内容及创新点如下: 1、设计一个关键词库接口,使得系统可以接受关键词库文件(文本文件,关键词之间以回车符隔开),将关键词库文件内的关键词一一导入至系统中,用于表单的自动填充和提交。另外,考虑到了效率问题,让系统在导入新关键词库文件时与旧关键词库进行对比,判断出新关键词,最后只接受更新的那一部分关键词,即达到关键词增量更新的目的。 2、提取电子商务网站的HTML源码,通过对HTML源码进行分析,提取出网站中包含查询表单的那部分HTML源码。根据这部分HTML源码,利用WebBrowser控件方法对这些查询表单自动模拟关键词的填充和提交,用以获得每一个关键词所对应的初始页面。 3、选择性的提取链接,只提取初始页面中的商品信息链接,而不提取广告和友情链接。另外,由于商品信息链接有多页,因此还需要通过获取“下一页”链接来得到更多更全的商品信息链接。本文介绍了多种获取“下一页”链接的方法,并提出了一个通用性较好的方法。 4、通过正则表达式来定义抽取规则,根据不同的页面结构编写相应的正则表达式,从而进行信息抽取。抽取的结果以文本文件的格式保存,便于对关键词库文件进行更新。
【学位授予单位】:江西师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

【引证文献】
中国硕士学位论文全文数据库 前1条
1 梅泽勇;图书网站信息集成系统的构建[D];郑州大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 李哲琦;张莹;;基于XML的Web半结构化信息抽取[J];长春理工大学学报(自然科学版);2007年01期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
4 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
5 谢丹夏;Web上的数据挖掘技术和工具设计[J];计算机工程与应用;2001年06期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 王实;高文;李锦涛;;Web数据挖掘[J];计算机科学;2000年04期
8 刘明吉;王秀峰;黄亚楼;;数据挖掘中的数据预处理[J];计算机科学;2000年04期
9 吴丽辉 ,王斌 ,余智华;一种通用Web信息采集系统的设计与实现[J];计算机工程;2005年03期
10 徐振航,刘莉芹;基于XML的WEB数据挖掘技术[J];计算机系统应用;2001年01期
中国硕士学位论文全文数据库 前2条
1 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
2 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 李爱玲,沈宪章,李豫州;数据挖掘在财务预测中的应用[J];安阳师范学院学报;2005年02期
4 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
5 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
6 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
7 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
8 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
9 谢兰云;;XML与Web数据挖掘[J];商业研究;2005年21期
10 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
4 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
5 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
6 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
7 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
9 张秋彤;;数据挖掘与高校图书馆个性化信息服务[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
10 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
6 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
7 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
8 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
9 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
10 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 王强;基于演示编程的遥感图像元数据提取方法研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
5 韩微微;基于web日志的网络课程使用状况信息采集及评价的研究[D];哈尔滨师范大学;2010年
6 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
7 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
8 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
9 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
10 侯宗仁;TD-SCDMA网络性能分析系统的设计与实现[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 胡军伟;秦奕青;张伟;;正则表达式在Web信息抽取中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
2 杨立春;;基于LAMP的MVC模式的研究与应用[J];电脑知识与技术(学术交流);2007年22期
3 刘政;朱杰;吴树芳;曹振;;信息检索中的同义词[J];电脑知识与技术;2009年09期
4 王世铎;李燕军;;在情报信息工作中网络信息挖掘的应用[J];计算机安全;2006年11期
5 张英;;基于XML的信息集成系统的分析与设计[J];计算机与信息技术;2008年08期
6 史海燕,毕强;国外主要信息集成项目介绍与评析[J];情报科学;2004年07期
7 庞景安;;Web信息采集技术研究与发展[J];情报科学;2009年12期
8 郭少友;赵善义;李建平;王斌;;基于数据库分类的deep web爬行器研究[J];情报科学;2011年10期
9 陈磊;陈盈;;基于语义的信息集成系统研究[J];计算机技术与发展;2010年06期
10 郭少友;;基于通用搜索引擎的深层网络表面化方法研究[J];现代图书情报技术;2010年02期
中国博士学位论文全文数据库 前1条
1 郑淑丽;Web信息集成系统及查询优化方法研究[D];合肥工业大学;2003年
中国硕士学位论文全文数据库 前10条
1 李亚红;基于语义的信息集成方法研究[D];西北大学;2006年
2 郑冬冬;DeepWeb信息集成系统关键技术研究[D];苏州大学;2006年
3 吴楠楠;基于本体和服务发现的Web信息集成研究[D];西安电子科技大学;2007年
4 王慧芳;基于网格的信息集成系统研究[D];上海交通大学;2007年
5 陈巍;基于本体的XML信息集成系统设计及其关键技术研究[D];东南大学;2005年
6 孙翀;自动填充深度网入口表单[D];吉林大学;2007年
7 谭建平;Web网站系统性能优化研究及其应用[D];重庆大学;2007年
8 应钦;信息采集中的高效多策略方法研究[D];北京邮电大学;2008年
9 郑端;信息集成系统中查询优化与处理[D];西安电子科技大学;2008年
10 麻亮;信息集成系统中查询结果合成研究[D];西安电子科技大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
3 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
4 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
5 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
6 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
7 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
8 李青山,陈平;一种基于内容的HTML到XML转换策略[J];计算机工程与应用;2001年09期
9 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
10 尤玉林,张宪民;一种可靠的数据仓库中ETL策略与架构设计[J];计算机工程与应用;2005年10期
中国硕士学位论文全文数据库 前4条
1 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
2 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
3 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
4 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 赵子蔚;;在电子商务中应用Web数据挖掘技术分析[J];信息与电脑(理论版);2009年09期
2 顾桢;;浅析电子商务中的WEB数据的挖掘[J];商场现代化;2008年16期
3 金珏;;一种面向电子商务的Web数据挖掘模型[J];软件工程师;2010年07期
4 谢斌斌;电子商务网站中的ASP技术[J];江西电力职业技术学院学报;2005年04期
5 许建豪;;基于电子商务的精确搜索引擎的研究与实现[J];南宁职业技术学院学报;2011年04期
6 粟湘,焦微玲,吴沛;Web挖掘应用研究[J];情报理论与实践;2005年06期
7 夏小云;汪峰;;基于AJAX技术的电子商务系统研究及应用[J];商场现代化;2008年32期
8 徐中华;;Web信息抽取方法概述[J];经营管理者;2008年09期
9 谭锋;李天真;崔亮亮;;Web信息抽取系统研究综述[J];科技创新导报;2010年34期
10 王锟;;WEB文档信息抽取方法研究[J];福建电脑;2008年03期
中国重要会议论文全文数据库 前10条
1 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
2 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 周坤;张军;刘正捷;;电子商务网站商品列表页的眼动研究[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
5 周述文;郭晓军;孙爱平;汤海洪;;电子商务网站的分类及评价初探[A];面向复杂系统的管理理论与信息系统技术学术会议专辑[C];2000年
6 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
7 岳训;孙忠林;孟小峰;;面向电子商务网站的个性化推荐系统研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 覃如贤;;电子商务网站重要功能模块的设计和实现[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
9 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
10 夏小玲;祁博民;廖顺和;;基于Web服务和元搜索引擎的数字图书馆中元数据互操作框架[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国重要报纸全文数据库 前10条
1 记者 吴幼祥 通讯员 张向荣 余小平;朝着电子商务之都 杭州雏鹰展翅[N];杭州日报;2005年
2 蒋婷婷;奇瑞进军汽配采购信息服务业[N];第一财经日报;2006年
3 记者  郑申;电子商务网站全力保驾支付安全[N];金融时报;2006年
4 爱代购网 CEO 彭志强;电子商务2.0到来[N];计算机世界;2006年
5 董云龙;石油化工行业电子商务法规亟待加强[N];中国石油报;2007年
6 杨淑军;我是怎样创办团购网的[N];中华工商时报;2006年
7 陈先锋;零售业加速布局B2C电子商务领域[N];商务时报;2007年
8 罗添;国内个人电子商务老大插手B2C领域[N];北京商报;2008年
9 金朝力;行业商务网站启动高速增长进程[N];北京商报;2007年
10 本报记者  李桐;诚信 健康 和谐 机遇[N];中国国门时报;2006年
中国博士学位论文全文数据库 前10条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
4 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
5 赵洁;基于粒计算的Web使用挖掘研究[D];华南理工大学;2010年
6 张榛楠;面向电子商务的Web使用挖掘关键技术研究[D];中国矿业大学(北京);2009年
7 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
8 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
9 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
10 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
2 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
3 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
4 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
5 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
6 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
7 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
8 周炘;面向电子商务网站的深度搜索与信息抽取研究[D];江西师范大学;2011年
9 周盛强;半结构化Web信息抽取研究[D];哈尔滨工程大学;2009年
10 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026