收藏本站
《复旦大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于结构语义熵的互联网商品信息抽取技术研究

吴晓彦  
【摘要】: 当前网络商品发布量和交易量迅速膨胀,但是消费者对互联网的“信任和安全”却在不断下降。针对这一矛盾,复旦大学软件学院电子商务研究中心开展了对互联网商品监测技术的探讨,并就其中的关键问题——互联网商品信息抽取进行了深入的研究。 目前网页抽取有很多种方法,但其中大部分都由人来标记抽取结果,一旦减少人为参与,信息抽取准确率也会随之下降,另外许多方法不能适应网页的变化,一旦页面更改,就需要重新构建页面信息抽取的包装器。 针对上述问题,本文提出了基于结构语义熵的网页识别和抽取算法。该算法利用了网页结构,通过计算商品信息的聚集程度,可以实现页面主体部分的识别。文章首先对目前互联网商品信息发布情况和特征作了调查,并根据这些特征构造出了适用于商品信息抽取的语义词典,在语义词典知识表达方式的设计中借鉴了本体的知识表达方法(如各种关系的定义),该词典可以帮助在页面中定位到那些用户感兴趣的商品信息和帮助判别商品种类。在此基础上,结合网页结构和商品的特征信息,利用结构语义熵的商品信息抽取算法,识别出页面主体部分,从而实现自动的商品页面识别与抽取。该算法可以很好地与元搜索技术、网络爬虫等技术结合,使商品信息抽取过程实现自动化,包括新网站的发现、页面的自动获取,页面识别和信息抽取等,大大降低了信息抽取过程中的人工干预程度。 文章以药品监测系统为背景,展示了该框架在实际系统中的具体应用。通过该算法框架的应用可以极大地提高商品信息抽取的自动化程度和覆盖面,为规范与全程在线监测互联网商品发布信息,保障互联网安全在线交易,提供了技术上的可行性。通过结合特定行业或领域的特点,进行一定范围和层次的个性化定制工作,即可推广应用到特定行业或领域,具有广阔的产业化前景。
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前2条
1 王海栋;郑骁庆;张红俊;;基于置信度理论的网络知识融合系统和应用[J];计算机系统应用;2011年01期
2 沈元一;郑骁庆;顾轶灵;;基于语义的互联网药品信息抽取算法[J];计算机系统应用;2011年01期
中国硕士学位论文全文数据库 前3条
1 顾轶灵;基于多维语义的互联网药品信息抽取的研究与应用[D];复旦大学;2011年
2 王海栋;面向互联网市场主体的信息融合研究[D];复旦大学;2010年
3 廖逸;基于多维语义的互联网违规信息识别技术优化研究[D];复旦大学;2012年
【参考文献】
中国期刊全文数据库 前2条
1 徐振宁;张维明;陈文伟;;基于Ontology的智能信息检索[J];计算机科学;2001年06期
2 ;第23次中国互联网络发展状况统计报告[J];信息网络安全;2009年02期
【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 冀强;;基层公安BBS舆情及有害信息监控研究[J];才智;2009年22期
3 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
4 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
5 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
6 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
7 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
8 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
9 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
10 徐夏娟;胡晓云;;公共卫生舆情监测与风险研究综述[J];公共卫生与预防医学;2011年05期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 张鸿;张超;;西部信息化建设的10年回顾与展望[A];陕西省外国经济学说研究会2010年年会“西部大开发10年”专题研讨会论文集[C];2010年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 贺蕾;孙彤;黄春;;密码学课程实践教学研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 高红波;;口碑营销:传媒舆论经济生成的一种诠释[A];中国传媒大学第三届全国新闻学与传播学博士生学术研讨会论文集[C];2009年
6 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
7 王希熙;;科技期刊网络化现状及发展探讨[A];机制创新·合作共赢——第8届全国核心期刊与期刊国际化、网络化研讨会论文集[C];2010年
8 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
9 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
10 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
6 郭春芬;基于本体的工艺知识管理关键技术研究[D];山东科技大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 黄淑美;动宾结构汉英机器翻译研究[D];华中师范大学;2012年
9 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
10 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王娟;基于本体的课程资源管理系统研究[D];江西师范大学;2010年
5 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
6 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
7 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
8 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
9 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
10 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
【同被引文献】
中国期刊全文数据库 前3条
1 李良富,樊孝忠,李宏乔,顾益军;知识是如何驱动Q/A系统的[J];计算机工程与应用;2004年20期
2 朱玉屏;刘丽兰;俞涛;;基于知识融合技术的产品设计知识模型研究[J];计算机应用研究;2009年09期
3 曹薇;张乃洲;;一种基于C4.5决策树的Web页面分类算法[J];计算机系统应用;2010年10期
中国博士学位论文全文数据库 前1条
1 谢能付;基于语义Web技术的知识融合和同步方法研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前3条
1 顾轶灵;基于多维语义的互联网药品信息抽取的研究与应用[D];复旦大学;2011年
2 顾邦军;网络环境下虚拟产品设计的知识融合技术研究[D];南华大学;2007年
3 沈元一;互联网药品信息抽取算法的研究[D];复旦大学;2010年
【二级引证文献】
中国期刊全文数据库 前5条
1 杨明;朱杰;高延铭;;基于信息融合的海洋溢油识别判据的研究[J];信息技术;2012年04期
2 李龙跃;刘付显;刘永兰;齐德庆;;目标类型识别的改进灰关联模型[J];空军工程大学学报(自然科学版);2011年05期
3 许建豪;;基于语义的搜索算法研究[J];南宁职业技术学院学报;2013年05期
4 许建豪;;打折商品搜索引擎的设计与实现[J];南宁职业技术学院学报;2014年02期
5 张钊;方勇;陈兴刚;;快速渗透测试系统的设计与实现[J];信息安全与通信保密;2013年05期
中国硕士学位论文全文数据库 前3条
1 廖逸;基于多维语义的互联网违规信息识别技术优化研究[D];复旦大学;2012年
2 李嘉;基于语义的林产品贸易Web信息抽取研究[D];北京林业大学;2013年
3 夏谦;泛在环境下多模态信息融合机制与应用体系研究[D];华中师范大学;2013年
【相似文献】
中国期刊全文数据库 前6条
1 刘爽;;信息抽取技术及其在数字图书馆中的应用前景分析[J];现代情报;2006年11期
2 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
3 崔春;龚捷;;Web信息抽取研究综述[J];电脑知识与技术;2011年10期
4 龙丽;庞弘燊;;国外Web信息抽取研究综述[J];图书馆学刊;2008年05期
5 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
6 田学东;李树成;;WEB主题检索的性能优化设计[J];计算机工程与应用;2006年04期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026