收藏本站
《重庆大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于短语特征的Web文档聚类方法研究

杨瑞龙  
【摘要】:经过几十年的发展,Internet已经成为世界上最大的资源库,其绝大部分信息都是以Web文本的形式存在。为了充分利用这些资源、使用户准确地找到需要的资料、节约搜索时间、提高利用价值,出现了Web数据挖掘技术。利用分类、聚类、关联分析、趋势预测等技术从Web文本中发现和抽取用户感兴趣的有用模式和隐藏的信息。 Web文档聚类是Web文本挖掘的一个重要研究分支,作为一种无监督的学习方法,不需要训练过程,也不需要预先对文档进行手工标注,具有一定的灵活性和较高的自动化处理能力,能够对文档进行有效组织、获取摘要和导航。可以在一定程度上解决信息杂乱和信息爆炸的问题。作为信息检索、信息过滤、搜索引擎、数字图书馆等领域的技术基础,Web文档聚类有着广阔的应用前景。 本文阐述了Web文档聚类的基本概念、方法、研究现状及存在的问题。从文档聚类分析过程角度介绍了Web文档聚类的相关理论和技术,包括文档数据表示模型、相似度测量、聚类算法、聚类结果评价指标和聚类算法分析等。提出了三个以短语特征为基础的聚类方法。 ①对于半结构化的Web文档,HTML标签标识出了文档的结构和不同部分的重要程度。针对这个特点,本文提出了用于Web文档聚类的加权后缀树聚类算法WSTC。本算法依据HTML标签把文档划分成具备不同重要性等级的段、段划分成句子,用句子构造文档集的加权广义后缀树模型,句子的重要性等级作为结构权值融入后缀树的节点中。基于文档间共享短语的识别,选择节点作为基类簇和合并基类簇。在此过程中,综合考虑节点包含的文档数、句子数、短语长度和节点的重要性等级。实验结果表明结合Web文档特点的聚类算法WSTC提高了聚类质量。 ②Web文档集的加权广义后缀树模型创立后,每个节点代表了一个短语,可以作为文档的一个特征。利用这个特点,本文提出了一种集成加权广义后缀树模型和向量空间模型的混合模型WSTVSM用于Web文档聚类。首先构造Web文档集的加权广义后缀树模型。然后,把后缀树的节点代表的加权短语及其权值映射到M维向量空间模型,扩展TF-IDF特征计算方案计算基于加权短语的文档向量的特征值,形成混合模型WSTVSM。在此模型上计算基于加权短语的文档相似度,利用组平均层次凝聚聚类算法进行聚类,取得了较好的效果。 ③一般地,划分型聚类算法,如K-means算法,时间复杂度低、聚类速度快,但是稳定性较差。本文在分析K-means聚类算法的基本问题后,提出了用WSTC算法改进其初始聚类中心的混合聚类算法STK-means。首先,构建Web文档集的加权广义后缀树模型,使用WSTC算法进行第一阶段聚类,分析聚类结果、提取K-means的初始聚类中心。然后,把加权广义后缀树模型的节点映射到向量空间模型;在第二阶段,K-means算法利用优化后的初始聚类中心产生聚类结果。WSTC算法速度快,能够在第一阶段快速获取初始聚类,K-means算法也较快,由此二算法组成的混合聚类算法,也具备速度快的优点,并提高了聚类质量。
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 赵丽娜;周吉顺;;基于WEB的高校网上选课系统的设计与实现[J];电脑知识与技术;2011年18期
2 米新英;;基于Web的通用商品报价系统的研究与实现[J];北华航天工业学院学报;2011年03期
3 朱启英;李明霞;穆玉明;张源明;;基于WEB的考试系统在医学远程教育中的应用[J];中国高等医学教育;2011年06期
4 段静波;潘惠苹;;基于WEB的学院教务管理系统设计与应用[J];电脑知识与技术;2011年17期
5 范毅君;马永威;;浅谈门户网站的设计与在油田中的应用[J];中国石油和化工标准与质量;2011年07期
6 潘生;;基于WEB的人力资源管理专业亲验式教学资源库系统设计[J];电脑知识与技术;2011年23期
7 杜婷;陶克斌;夏勤;;基于Web的无刷新即时通讯设计与实现[J];重庆科技学院学报(自然科学版);2011年04期
8 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期
9 张爱军;;电子商务技术的创新发展趋势[J];电脑知识与技术;2011年26期
10 钟寿福;吴伟信;;中学研究性学习网络支撑平台的设计与实现[J];福建电脑;2011年07期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 雷景生;康耀红;;基于模糊相关的Web文档分类方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
4 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
9 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报特约撰稿 张娟;用Web 2.0提升知识管理效率[N];计算机世界;2008年
3 厉民;金融风暴冲击Web2.0产业[N];人民邮电;2008年
4 电脑商报记者 周雪;Web安全市场须冷却慎行[N];电脑商报;2008年
5 郭川;Web2.0:新花样层出不穷[N];人民邮电;2008年
6 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
7 本报记者 李飞虎;Web 2.0[N];中国计算机报;2008年
8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
9 商报记者 吴辰光;Web2.0凸显空洞概念[N];北京商报;2009年
10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
2 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
10 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 张囡;基于概念的语义Web服务匹配算法的研究及其在配送中心系统的应用[D];华南理工大学;2010年
2 张敏;面向Web应用的测试适配技术研究[D];山东师范大学;2010年
3 涂丘;一种基于Web界面的协同文档管理系统的部署与实施[D];电子科技大学;2010年
4 崔宏亮;面向Web服务体系的协同办公系统的设计与实现[D];电子科技大学;2010年
5 高洁;基于Web信息的内容及其特征提取方法的研究[D];电子科技大学;2010年
6 李鹏;基于信誉度的Web服务选择研究[D];湖南工业大学;2009年
7 马丽莎;基于WEB操作平台下的办公自动化系统[D];电子科技大学;2009年
8 向剑峰;基于OWL-S的语义Web服务组合模型的研究[D];湖北工业大学;2011年
9 郭清军;P2P语义web服务研究与实现[D];广东工业大学;2011年
10 苏洋;基于数字信封的Web服务安全模型设计[D];西安建筑科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026