收藏本站
《浙江工业大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自然语言理解的个性化Web 数据挖掘系统的设计及实现方法研究

蔡霞  
【摘要】: 近年来,随着Internet的迅猛发展,人们越来越习惯于在网上发布信息、查找信息。网络在快捷、方便地带来海量信息的同时,也带来了一堆的问题:由于Web是动态、无结构的,并且页面复杂程度远远超过文本文档,如何从浩如烟海的数据中发现隐藏的有用知识,创造更大的效益是一个迫切需要研究的课题。一般的搜索引擎是基于关键字的查询,命中率较低,且不能针对特定用户给出特定服务。解决这些问题的一个途径,就是将传统的数据挖掘技术和Web结合,进行Web挖掘。而根据用户的特殊要求收集相应的网页并进行分类,采用推式技术,自动地把特定的信息从WWW服务器传输到我们的计算机硬盘上,对于特定的机构、企业、或门户网站收集特定信息具有重要的意义。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。基于Web的挖掘研究起步较晚,最近几年才开始。国内还没有成型的应用系统。 本文提出了一种新的Web挖掘模型——基于自然语言理解的Web挖掘模型,可根据用户的特殊需求定制个性化的Web数据挖掘系统。根据该模型设计了面向新闻挖掘这一特定领域的Web挖掘系统NewsMiner,并对该系统的实现方法做了研究和实验。该方法可方便地扩展到其他专业应用领域。 与传统的Web挖掘系统相比,该系统在以下几个方面有所突破: 1)利用特制的智能网络机器人对几个著名搜索引擎的搜索结果进行挖掘,与普通爬虫从一个链接到另一个链接的无序搜索相比,大大减少了工作量和数据存储空间。 2)无需把所有的目标HTML Page进行代码转换和映射,只需对一些典型句及包含敏感词在内的句子进行语法语义分析,避开了代码映射的一些复杂问题,简单可行。 3)利用自然语言语法语义分析,可以减少传统的简单匹配方法所产生的漏判和误判,提高系统的可靠性。 4)采用人机交互模式,在各个模块都可以适时地进行干预和修正。
【学位授予单位】:浙江工业大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP311.52

【相似文献】
中国期刊全文数据库 前10条
1 滕启龙;王健;;基于Web挖掘的个性化远程教学系统的研究与实现[J];福建电脑;2011年06期
2 王立平;刘艳玲;;web挖掘在农业数字图书馆中的应用[J];农业考古;2011年03期
3 刘秀敏;刘秀娟;王国明;周立波;;基于Web挖掘的个性化教学推荐系统[J];计算机时代;2011年07期
4 曹棣;孔晓斌;;基于粗糙k-均值的web事务的聚类[J];山西师范大学学报(自然科学版);2011年02期
5 夏惠芬;董卫民;;基于关联规则的Web挖掘技术研究[J];现代电子技术;2011年16期
6 陈懿炜;姚争为;杨超越;;基于粗糙集的个性化学习平台的研究[J];微计算机应用;2011年05期
7 马伟杰;;数据挖掘在高校学生工作中的应用[J];软件导刊;2011年08期
8 戴菲;;数据挖掘技术在电子商务中的应用[J];电脑知识与技术;2011年21期
9 张笑;;一种新的基于Web日志的数据聚类算法研究[J];电脑知识与技术;2011年21期
10 彭耶萍;;自适应遗传模拟退火的Web日志关联挖掘[J];软件导刊;2011年07期
中国重要会议论文全文数据库 前10条
1 苗传江;;HNC理论的句类[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 康海燕;樊孝忠;马礼;;自然语言理解的检索技术在数字图书馆中的应用[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 郭晨;;汉语语音技术[A];第一届学生计算语言学研讨会论文集[C];2002年
4 陈晓红;何晓洁;李一智;;自然语言理解在智能决策支持系统人机接口中的应用[A];全国青年管理科学与系统科学论文集(第2卷)[C];1993年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 乐明;冯志伟;;RST的理论发展和工程应用综述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 车万翔;刘挺;李生;;语义角色标注的方法与挑战[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 车万翔;刘挺;李生;;自动浅层语义分析[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 董燕;;Web挖掘对电子商务网站建设的影响[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
3 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
4 ;Web收获:吸纳有用信息[N];计算机世界;2004年
5 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
6 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
7 杨保国;中国科大研制的机器人会说话能干活[N];科技日报;2009年
8 ;国内语音合成技术“叫板”IBM[N];中国经营报;2000年
9 本报实习生 熊瑛;声声不息[N];科技日报;2000年
10 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
2 刘根辉;计算语用学基础理论及其应用研究[D];华中科技大学;2005年
3 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
4 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
5 张蕾;概念结构及其应用[D];西北工业大学;2001年
6 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
8 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
9 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
10 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 蔡霞;基于自然语言理解的个性化Web 数据挖掘系统的设计及实现方法研究[D];浙江工业大学;2003年
2 刘海涛;基于自然语言理解的中文搜索引擎[D];河北科技大学;2011年
3 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
4 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
5 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年
6 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
7 程培涛;机械产品设计领域自然语言理解中的概念从属树研究与实现[D];西安电子科技大学;2005年
8 王会彩;面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用[D];西安电子科技大学;2010年
9 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
10 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026