收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

网络新闻分类系统及个性化新闻网站的研究与应用

王继明  
【摘要】: 随着互联网的飞速发展及其影响力的不断扩大,网络上的信息量也随之不断增加。面对浩瀚如海的网络信息,依靠人工完成信息的分类已经无法满足实际的需求。其次,网站的人性化设计也成为网站管理者所关心的问题,一个具有人性化特征的网站势必会吸引更多的用户,会给网站带来更多的效益。本文基于上面的需求,引入Web文本挖掘技术来实现信息的快速分类,以及实现具有人性化特征的网站。 首先,本文深入研究了中文文本自动分类所涉及到的相关理论和技术。其中包括网页信息抽取技术、文本分词技术、文本向量化技术、文本特征提取技术以及文本分类技术。通过分析与比较上述技术所涉及到的理论和算法,根据系统需求自行设计了网页信息抽取算法。择优选取了最大匹配分词算法、TF-IDF文本向量化算法、互信息量特征抽取算法以及KNN文本分类算法,并对互信息量算法进行了局部改进。 其次,文文深入研究了Lucene全文检索系统,并在其基础上实现了中文文本分词功能,Lucene系统可以给系统提供可扩展的全文检索功能。基于上述选取的算法,本文利用Java和面向对象编程技术(设计模式等)结合Lucene平台开发了具有能够自动分类html和txt格式文本功能的文本自动分类系统,该系统提供了可扩展的接口,便于系统的扩展与改进。系统开发完成后,本文对系统利用国际评测标准(查全率、准确率以及F1测试值)对系统进行了测试并对测试结果进行了详细的分析。 最后,本文通过研究与分析用户信息挖掘相关技术,自行设计了一种可以按照用户浏览爱好对网站页面进行自动排版的算法。在排版算法的基础上利用JSP和Struts技术实现了具有自动排版功能的个性化新闻网站。由于采用了Struts技术,该网站具有模块间的松耦合性,便于系统的扩展。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱克斌,唐菁,杨炳儒;Web文本挖掘系统及聚类分析算法[J];计算机工程;2004年13期
2 易高翔,程耕国;Web文本挖掘研究[J];武汉科技大学学报(自然科学版);2005年01期
3 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
4 王一蕾,林世平;Web文本挖掘三种技术的比较[J];福建电脑;2003年12期
5 陈淑珍,卢昌荆,林克明;粗糙集理论在Web文本挖掘特征提取中的应用[J];武汉化工学院学报;2004年04期
6 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
7 陈淑珍;Web文本挖掘中的特征表示与特征提取技术[J];三明高等专科学校学报;2004年02期
8 万方;李慧颖;;基于WEB挖掘的陶瓷产品资源的应用分析[J];福建电脑;2011年02期
9 沈记全,唐菁,杨炳儒;Web文本挖掘系统及其分类算法的研究与实现[J];计算机工程;2003年17期
10 李永平,程莉,叶卫国;基于隐含语义的kNN文本分类研究[J];计算机工程与应用;2004年06期
11 李杨,曾海泉,刘庆华,胡运发;基于kNN的快速WEB文档分类[J];小型微型计算机系统;2004年04期
12 潘静,饶若楠;基于Web数据挖掘的信息获取系统的研究及设计[J];计算机工程;2004年S1期
13 吕岚;;基于层次聚类算法的WEB文本挖掘技术研究[J];福建电脑;2011年03期
14 唐菁;Web文本挖掘系统及聚类算法的研究[J];电信建设;2004年02期
15 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报;2005年04期
16 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
17 何玉香;曹丽颖;宋志恒;;网络教育资源Web挖掘研究[J];天津师范大学学报(自然科学版);2009年01期
18 刘卓;徐斌;;分层聚类算法在文本挖掘中的应用[J];网络安全技术与应用;2010年07期
19 曲颖;;基于模糊神经网络的Web文本挖掘系统[J];电脑知识与技术;2010年31期
20 冯中毅,董海棠;一种新的频集发现算法P&FP[J];兰州交通大学学报;2004年06期
中国重要会议论文全文数据库 前10条
1 宋晓宇;孙业挺;孙焕良;;基于双层网格索引的移动对象KNN查询算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 殷晓岚;丁治明;李京;;移动对象在空间网络数据库上的kNN查询[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 魏萌芽;李翠平;陈红;;一种基于kNN的控制关系分析方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 李斌阳;赵志滨;于戈;姚兰;杨晓春;刘阳;;一种基于过滤器的无线传感器网络近似kNN查询优化算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
6 刘玲;王冠;;可视化技术在分类算法中的应用研究[A];第四届中国智能计算大会论文集[C];2010年
7 郝继功;徐志军;初瑞清;;柠檬酸法制备(K_(1/2)Na_(1/2))NbO_3无铅压电陶瓷及其性能研究[A];第六届中国功能材料及其应用学术会议论文集(2)[C];2007年
8 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 丁琳琳;乔百友;王国仁;陈忱;;SMR:一种支持高维数据KNN查询的P2P语义覆盖网络[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
10 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前7条
1 江民红;KNN基无铅压电陶瓷的改性与机理研究[D];中南大学;2010年
2 方建;KNN和BT高性能无铅压电陶瓷的制备技术及机理研究[D];清华大学;2012年
3 吕宁;PMN和KNN铁电材料的电子显微学及第一性原理研究[D];清华大学;2010年
4 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
5 郭颖;森林地上生物量的非参数化遥感估测方法优化[D];中国林业科学研究院;2011年
6 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
7 曹庆先;北部湾沿海红树林生物量和碳贮量的遥感估算[D];中国林业科学研究院;2010年
中国硕士学位论文全文数据库 前10条
1 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
2 王继明;网络新闻分类系统及个性化新闻网站的研究与应用[D];内蒙古工业大学;2007年
3 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年
4 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
5 林文香;改进的KNN算法在过滤垃圾邮件中的应用研究[D];湖南大学;2010年
6 张脂平;因子分析算法的研究及其在Web文本特征提取中的应用[D];福州大学;2005年
7 郝继功;KNN基无铅压电陶瓷的制备及其性能研究[D];聊城大学;2010年
8 刘慧;基于KNN的中文文本分类算法研究[D];西南交通大学;2010年
9 黄樑昌;kNN填充算法的分析和改进研究[D];广西师范大学;2010年
10 杨营辉;基于密度的样本裁剪算法的改进及在kNN中的应用研究[D];重庆大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978