收藏本站
《浙江大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

Web页面用户评论信息抽取技术研究

杨奕锦  
【摘要】:Web页面上用户的商品评论信息已成为影响电子商务消费者进行购买决策时的关键因素之一。近年来随着电子商务的发展,关于商品的评论信息呈指数级增长,从而导致潜在用户难以在这些大量信息中寻找到有参考的评论信息,大大减低了评论信息的应用范围。论文将通过对web页面评论信息现有系统结构和抽取算法的分析,结合信息抽取课题,研究如何在大规模web页面评论信息下确保抽取的高准确性和高效性。 论文在分析典型web页面信息抽取系统和算法的基础上,根据现有系统的优缺点和抽取算法的不足,提出了基于树权值的信息抽取算法,该算法通过对抓取到的web页面转化为标签树结构,将标签树进行噪音去除等预处理后,自底而上的为每个树节点赋上权值,使得不同层次不同标签的节点具有不同的权值,然后根据相似树和位置连续性来识别出数据记录区域,包含数据记录的标签树集进行树对准操作后生成基准树作为抽取模板,最后根据抽取模板对数据记录进行对准和抽取。该算法具有很强的自适应性,能根据不同评论信息的结构产生不同的抽取模板,同时不需要过多的人为干预,抽取结果显示该算法在抽取上有较好的效果。 基于这个算法,论文设计了一个将单个web页面转化为标签树,从标签树中识别出数据记录区域,然后将数据记录对准后产生模板,最后将属性标注过的模板从一系列web页面中抽取信息的系统。对实现这个算法的系统与其他算法的系统进行了实验对比,结果表明该系统在无需人为过多的干预,具有高度自动化的同时,也具有较高的准确性,同时在运行时间上远远优于其他系统。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐中华;;Web信息抽取方法概述[J];经营管理者;2008年09期
2 卢红杰;;基于Web数据的信息抽取技术[J];兰台世界;2006年07期
3 蒋邵衡;;WEB信息的抽取与集成研究[J];电脑知识与技术;2009年30期
4 王锟;;WEB文档信息抽取方法研究[J];福建电脑;2008年03期
5 王钢明;屠建飞;;基于Web信息抽取的技术成果信息采集系统[J];成组技术与生产现代化;2007年04期
6 秦振海;谭守标;徐超;;基于Web的表格信息抽取研究[J];计算机技术与发展;2010年02期
7 李姗;黄水源;;基于XML的WEB信息抽取模型设计[J];微计算机信息;2009年09期
8 熊惠荟;欧阳君;;基于模板法的网页英语试卷自动抽取技术的研究[J];计算机与数字工程;2009年04期
9 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
10 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期
11 谷斌;;基于Web的信息选择原则与方法研究[J];情报杂志;2006年01期
12 万厚伦;;Web测试浅析[J];科技信息;2010年02期
13 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
14 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
15 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
16 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
17 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
18 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
19 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
20 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
中国重要会议论文全文数据库 前10条
1 付艳;杨冬青;唐世渭;王腾蛟;高军;;基于XPath的Web页面自动清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 王海燕;谷明哲;王静;孟小峰;;基于预定义模式的Web信息抽取[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
5 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
6 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
10 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
2 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
3 杨奕锦;Web页面用户评论信息抽取技术研究[D];浙江大学;2011年
4 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
5 朱道辉;基于条件随机域的Web信息抽取研究[D];南华大学;2010年
6 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
7 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
8 周浩;面向网络舆情分析的Web数据源获取关键技术研究[D];西安理工大学;2010年
9 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
10 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978