收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web数据挖掘及其在网络新闻文本数据中的应用

胡峰  
【摘要】: 随着计算机软件,硬件以及网络技术的发展,人们已经习惯将因特网作为信息发布与交流的主要载体,Web上的信息呈爆炸式增长。现在的万维网有超过8亿的网页,这些网页覆盖了人类活动的大部分领域。因此,它已经成为用以改变信息查找效率的数据挖掘研究的肥沃土壤。目前,我们主要通过两种方式来访问互联网:点击超链接和关键字搜索。这个过程是一种试探性的,往往不能让人满意。我们现在需要更好的支持来表达自己的信息需求,以比目前更具结构化的方式来处理搜索结果。数据挖掘和机器学习将在如何达到此目的方面发挥重要的作用。Web挖掘就是在这种背景下兴起的将数据挖掘技术应用到半结构化的Web数据上,针对Web数据的特点进行知识发现的一个新的研究领域。 本文以Web上的新闻网页数据作为载体,来研究Web挖掘。Web挖掘可以分为三大类:Web内容挖掘,Web结构挖掘,Web使用挖掘。本文的研究侧重于Web内容挖掘,即Web挖掘在新闻网页文本中的应用。本文主要工作有以下几个方面: 1.系统地探讨了Web挖掘和超文本挖掘的基本理论。 2.实现了基于新闻网页内容挖掘所需的相关预处理技术。这些预处理技术包括数据的采集,网页内容的抽取,中英文的分词等。 3.提出了一种基于MinApriori度量的相似性检测方法。该方法受关联规则在处理数值数据时的处理方式的启发,应用于文档相似度检测时,能极大地提高检测的速度,并能保持检测的准确性。 4.将分类引入新闻网页中,方便用户浏览新闻。本文系统分析了能应用于文本分类的学习算法和降维方法,并通过系统的实验,分析了各种算法在文本分类中的表现,以及降维对分类效果的影响。最后实现了一个基于ComplementNaiveBaye方法的新闻文本自动分类系统。 5.构建了一个网络数据在线挖掘服务平台。该平台集成了上述工作。 通过网络数据在线挖掘服务平台,能在较少人工干预的前提下,实现对网络新闻数据的重复检测、分类等挖掘功能,这些功能的实现,能有效地提高信息的使用效率,该平台具有广泛的应用前景和潜在的商业价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 席景科;闫大顺;;Web数据挖掘中数据集成问题的研究[J];计算机工程与设计;2006年08期
2 孙鉴亮;;智能型搜索引擎[J];科技咨询导报;2007年15期
3 李仕杨;;数据挖掘技术在Web中的应用问题探讨[J];中国新技术新产品;2009年08期
4 尹海丽,刘慧;用一种数据挖掘的方法解决网络拥挤的问题[J];青岛理工大学学报;2005年05期
5 马秋菊;李小芳;李杰;;基于WEB和数据仓库的商业营销决策支持系统的设计[J];商场现代化;2007年05期
6 赵春燕;;数据挖掘技术及其在高校图书馆的应用[J];北京政法职业学院学报;2007年03期
7 董宇;刘富强;;基于web的数据挖掘系统的研究与设计[J];电子技术;2008年11期
8 周贤善;谢婷婷;;基于Web的数据挖掘在电子商务中的应用[J];孝感学院学报;2010年03期
9 刘忠沁;;Web数据挖掘在高校网站建设中的运用[J];电脑知识与技术;2011年25期
10 彭曙蓉;王耀南;杨文忠;;基于马尔可夫链的Web访问序列挖掘算法[J];计算机工程与设计;2006年02期
11 俸世洲;;独立学院招生Web系统与数据挖掘的结合与应用[J];价值工程;2011年18期
12 潘贺;李太浩;;基于Web的人才视图及评测系统研究与实现[J];软件导刊;2010年10期
13 恽爽,韩立新,董浚,陈道蓄;KDW综述:基于Web的数据挖掘[J];计算机工程;2003年01期
14 杨文忠;彭曙蓉;章兢;;一种Web访问序列挖掘算法在网站设计中的应用研究[J];计算机工程与科学;2006年11期
15 郭竑晖;;教育信息挖掘的探讨[J];电脑知识与技术(学术交流);2006年29期
16 孟海洋;薛红;;基于数据仓库和Web技术的超市决策系统[J];沈阳大学学报;2008年02期
17 吴远良;;基于XML的Web挖掘技术在电子商务中的应用研究[J];电脑知识与技术;2009年33期
18 林芳;;基于决策树的web模式挖掘框架研究[J];煤炭技术;2010年11期
19 秦忠宝,彭文利,何卫平,陈伟东;网络环境下数据挖掘若干问题的述评[J];西北轻工业学院学报;2002年02期
20 隋丽萍;徐承韬;李瑞芳;;基于HTML结构的Web文本主题挖掘研究[J];西安外事学院学报;2007年01期
中国重要会议论文全文数据库 前10条
1 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
2 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
4 何英炜;陈志祥;;基于Web的制造企业需求管理系统研究[A];全国先进制造技术高层论坛暨制造业自动化、信息化技术研讨会论文集[C];2005年
5 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 王洪肖;刘威;于贺玲;;基于XML技术的WEB数据收集模型的研究[A];低碳经济与科学发展——吉林省第六届科学技术学术年会论文集[C];2010年
8 刘建伟;于守健;乐嘉锦;;基于Web服务资源框架的流数据查询处理系统[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
9 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
10 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
2 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
3 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
4 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
5 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
7 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
8 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
9 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
10 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
中国硕士学位论文全文数据库 前10条
1 李雪妍;基于Web数据挖掘在个性化远程教学系统中的应用研究[D];电子科技大学;2010年
2 孙学军;面向电子商务的Web数据挖掘应用研究[D];山东大学;2011年
3 周绪倩;基于电子商务的Web数据挖掘系统架构研究[D];河北工程大学;2010年
4 崔广治;Web数据挖掘在个性化服务中的应用研究[D];河北大学;2010年
5 王世云;Web数据挖掘在网上书店个性化推荐系统中的应用研究[D];辽宁工程技术大学;2011年
6 胡峰;Web数据挖掘及其在网络新闻文本数据中的应用[D];电子科技大学;2010年
7 马全明;基于Web日志的数据挖掘研究与实现[D];解放军信息工程大学;2009年
8 王朝阳;基于数据挖掘的自适应Web站点的设计与实现[D];西安电子科技大学;2009年
9 高伟华;基于BP神经网络的WEB数据挖掘[D];中南民族大学;2010年
10 董倩;Web潜在用户挖掘研究[D];河北农业大学;2011年
中国重要报纸全文数据库 前10条
1 张承东;Web智能考核广告[N];网络世界;2009年
2 赵晓涛;Web安全 服务为王[N];网络世界;2008年
3 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
4 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
5 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
6 闫冰;“推”出Web交付新天地[N];网络世界;2009年
7 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
8 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
9 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
10 ;Web2.0工具使用须谨慎[N];网络世界;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978