收藏本站
《清华大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

Web挖掘中的降维和分类方法研究

孙建涛  
【摘要】:Web挖掘研究把数据挖掘方法和万维网(WWW)相结合,目的是从WWW的海量数据中挖掘有用的知识,研制高效的Web挖掘系统。本论文结合网页分类、网页摘要和个性化Web搜索等挖掘任务,以Web挖掘中的降维和分类方法研究为重点,提出和改进Web挖掘算法。主要工作包括以下方面: 第一,提出一种有监督的潜在语义索引(SLSI)模型降维方法,用于文本分类任务中的特征表示。同传统的潜在语义索引(LSI)模型相比,SLSI既能够捕捉文档集合中的潜在概念,同时能够利用不同类别之间的区分信息。SLSI可以取得好的降维效果,同时也能保证文本分类的精度。 第二,提出一种三阶数据降维模型CubeSVD,用于分析搜索引擎服务器端收集的点击日志数据。点击日志数据通常很稀疏,并且包含多种类型对象,对象之间存在复杂的关系。CubeSVD基于高阶奇异值分解技术,通过降维发现对象间的潜在关系,帮助提高个性化Web搜索的性能。 第三,研究基于降维技术的网页摘要方法,提出一种利用点击日志的改进型网页摘要算法ALSA,从点击日志数据中挖掘Web用户使用查询词搜索网页的知识;另外,结合点击日志数据和Web上人工标注的网页类别信息,提出一种构造主题词典(Thematic Lexicon)方法帮助网页摘要。 第四,提出一种通过优化组合核函数进行网页分类的方法GECKO。网页分类的一个难点是网页具有异构特征。本文使用组合核函数方法综合利用异构特征,通过求解广义特征值问题优化核函数的组合,基于优化的核矩阵训练SVM分类器。试验结果显示该算法能够取得好的泛化性能。 第五,研究基于隐链接关系的网页分类算法。用户使用搜索引擎时,输入查询词后通常会点击一些主题相关的网页,因此基于点击日志数据可以构建网页间的隐链接关系。本文提出构建隐链接的方法和基于隐链接构造网页虚拟文档表示的方法,并且基于两类网页分类算法比较文中定义的两种隐链接和三种超链接关系。试验结果显示基于隐链接关系可以改进网页分类的精度。 作者参加了数据挖掘组承担的国家973项目,将本文研究成果用于该项目的Web挖掘原型系统WebME(Web Mining Environment)中,系统的良好性能验证了本文所提出方法的有效性。
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP393.092;TP18

【引证文献】
中国期刊全文数据库 前2条
1 米晓芳;秦洋;王立宏;宋宜斌;;基于潜在语义差异的医学网页聚类[J];计算机工程;2008年19期
2 米晓芳;王立宏;宋宜斌;;一种潜在语义索引差异模型[J];烟台大学学报(自然科学与工程版);2008年02期
中国重要会议论文全文数据库 前1条
1 米晓芳;秦洋;王立宏;宋宜斌;;基于潜在语义差异的医学网页分类[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国硕士学位论文全文数据库 前6条
1 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
2 刘攀;基于Web挖掘的产品功能使用度建模与评价[D];上海交通大学;2011年
3 马文娟;文本特征降维与分类规则抽取方法研究与应用[D];大连理工大学;2007年
4 徐法艳;基于Web挖掘技术的网页分类研究[D];扬州大学;2008年
5 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
6 郑曼;基于SAS系统的税务数据挖掘研究[D];郑州大学;2012年
【参考文献】
中国硕士学位论文全文数据库 前1条
1 沈抖;万维网上数据处理方法的研究[D];清华大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
2 樊兴华;王鹏;;基于两步策略的中文短文本分类研究[J];大连海事大学学报;2008年03期
3 阮群锟;许灿;吕劲松;;超文本的集成分类算法研究[J];电脑与信息技术;2010年02期
4 鲜学丰;杨元峰;;一种基于Web数据挖掘的电子商务推荐系统[J];电脑知识与技术(学术交流);2007年16期
5 盛魁;赵鹏;;中文网页自动分类综述[J];电脑知识与技术;2010年27期
6 李超锋;杨殿生;许云;;Web使用挖掘中数据预处理过程研究[J];电子测量技术;2007年03期
7 王改芬;胥道强;;基于聚类事务的档案聚合技术在电子商务推荐系统中的应用[J];电子测量技术;2007年11期
8 鲁明羽;沈抖;郭崇慧;陆玉昌;;面向网页分类的网页摘要方法[J];电子学报;2006年08期
9 宗瑜;金萍;陈恩红;李红;刘仁金;;面向Weblog的模糊协同聚类算法[J];电子与信息学报;2012年03期
10 郭淼霞;吴扬扬;;一种利用相邻页面信息修正分类结果的方法[J];福建电脑;2008年04期
中国重要会议论文全文数据库 前7条
1 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
2 ;A Mixed-Kernel-Based SVR Controller for Biped Robots[A];中国自动化学会控制理论专业委员会C卷[C];2011年
3 杨宏军;宋亦旭;梁伟;贾培发;;基于GLS-PSO的机器人砂带磨削轨迹优化[A];中国自动化学会控制理论专业委员会D卷[C];2011年
4 陶红霞;车建华;刘国华;;基于聚类的个性化推荐算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
5 ;Fuzzy Clustering Method for Web User Based on Pages Classification[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
6 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
2 邱峰;远程医学教育临床技能培训模式与平台研究[D];华东师范大学;2011年
3 龙伟;“计算中药学”在中药药性及复方研究中的应用[D];北京协和医学院;2011年
4 李小敏;胎肺超声图像分析及其在肺成熟度估计的应用[D];复旦大学;2011年
5 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
6 赵明渊;分类问题的智能优化算法及其应用研究[D];电子科技大学;2011年
7 刘宏兵;多目标粒度支持向量机及其应用研究[D];武汉理工大学;2011年
8 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
9 王荆;电力系统过电压识别方法及混合过电压分解方法研究[D];重庆大学;2011年
10 韩毅;社会网络分析与挖掘的若干关键问题研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
2 仵雪婷;基于知识情境的知识个性化推送技术的研究与应用[D];南昌大学;2010年
3 高艳;基于软间隔的AdaBoost弱分类器权重调整算法[D];西安电子科技大学;2011年
4 韩国军;基于特征选择和支持向量机的纹理图像分类[D];西安电子科技大学;2009年
5 薛冰;Kernel PCA中核参数优化及应用[D];西安工业大学;2011年
6 遇铁龄;基于核函数的多分类器集成及应用研究[D];山东师范大学;2011年
7 顾井南;网络不良图片过滤技术研究[D];北方工业大学;2011年
8 马爽;数据挖掘技术在WMS系统中的应用研究[D];北方工业大学;2011年
9 赵云;基于掌纹和手形相结合的识别方法研究[D];沈阳工业大学;2011年
10 吴静;面向电视功能遥控的视觉手势识别算法[D];西北大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李冠军;陈雪松;徐建锁;;基于模式聚合理论的文本特征降维方法及其在文本分类中的应用[J];北京理工大学学报;2005年12期
2 张俊丽;张帆;;KNN-FCM聚类算法在中文搜索引擎文本过滤中的应用[J];图书与情报;2007年04期
3 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
4 王继成;;产品设计过程的可用性研究与应用[J];东华大学学报(自然科学版);2006年05期
5 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
6 刘胧;刘虎沉;;运用FMEA的产品可用性评价方法[J];工业工程;2010年03期
7 钱升华;武优西;柴欣;陈冀川;;文本分类综述及手机垃圾短信过滤方法的研究[J];河北工业大学学报;2007年01期
8 王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期
9 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
10 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
中国博士学位论文全文数据库 前6条
1 蒙肖莲;商业银行客户识别与保持模型研究[D];华中科技大学;2005年
2 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
3 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
4 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年
5 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
6 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 邢远凯;基于决策树和遗传算法的神经网络研究及应用[D];浙江大学;2010年
2 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
3 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
4 柳培林;基于向量空间模型的中文文本分类技术研究[D];大庆石油学院;2006年
5 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
6 李志辉;基于专业知网的中文智能答疑系统模型研究[D];西南大学;2006年
7 张玉娟;基于《知网》的句子相似度计算的研究[D];中国地质大学(北京);2006年
8 黄晔;基于Web2.0社会性标签与统计推荐系统的设计与实现[D];重庆大学;2006年
9 成江东;基于WEB2.0的企业知识管理平台的设计与开发[D];华中师范大学;2007年
10 余俊英;文本分类中特征选择方法的研究[D];江西师范大学;2007年
【二级引证文献】
中国期刊全文数据库 前6条
1 邱云飞;王威;刘大有;邵良杉;;基于方差的CHI特征选择方法[J];计算机应用研究;2012年04期
2 韩毅;张克菊;金碧辉;;集成概念空间与潜在语义索引的文本聚类检索研究[J];情报理论与实践;2009年06期
3 张俊丽;赵乃瑄;冯君;;基于统计频率的文本分类特征选择算法研究[J];现代图书情报技术;2008年11期
4 贾君枝;王永芳;李婷;;面向农民的问答系统问句处理研究[J];现代图书情报技术;2010年05期
5 秦洋;王立宏;武栓虎;宋宜斌;;启动子的潜在语义索引差异识别算法[J];烟台大学学报(自然科学与工程版);2010年03期
6 方莹;;多角度的特征提取方法[J];郑州轻工业学院学报(自然科学版);2010年03期
中国硕士学位论文全文数据库 前10条
1 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
2 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
3 周民;海量web舆情挖掘算法研究[D];电子科技大学;2011年
4 赵娟娟;基于特征聚类的文本分类算法研究[D];华南理工大学;2011年
5 苏再强;基于ATN算法和潜在语义索引的不良信息过滤系统研究[D];西南交通大学;2011年
6 赵彦军;基于词条数学期望的词条权重计算算法研究[D];安徽工业大学;2010年
7 宋江;文本分类的特征选择方法研究[D];南京航空航天大学;2010年
8 王永芳;面向农民的问答系统设计与实现[D];山西大学;2011年
9 徐欣;基于粗糙集理论的文本分类研究[D];浙江理工大学;2011年
10 孙殿余;关联主题的个性化检索模型的研究[D];电子科技大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 罗阳;季铎;张桂平;王莹莹;;面向单一双语网页的双语资源挖掘方法[J];中文信息学报;2011年01期
2 耿增民,刘万春;电离辐射计量网页识别方法[J];原子能科学技术;2005年05期
3 高波,张忠能,查志琴;基于文字链接比的网页分类的研究[J];计算机工程与应用;2004年27期
4 庞宁;杨尔弘;;网页文本分类中的特征选择研究[J];太原科技大学学报;2007年04期
5 左鹏,徐和龙,于国庆;Web挖掘在FDSS中的应用探讨[J];计算机与现代化;2001年05期
6 汪全莉;陈代春;;Web数据挖掘在网络教育中的应用[J];中国科技资源导刊;2008年02期
7 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期
8 易高翔,程耕国;数据挖掘在Web智能化中应用研究[J];计算机工程与设计;2005年01期
9 陈振,郑诚,朱小栋;一种基于关联分类方法的Web用户兴趣预测[J];微机发展;2005年05期
10 吕林霞;张明新;;基于Web挖掘的专业文本特征提取方法研究[J];兰州石化职业技术学院学报;2007年03期
中国重要会议论文全文数据库 前10条
1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 彭涛;左万利;赫枫龄;张长利;;基于粒子群优化算法的网页分类技术[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 程静;邱玉辉;;Web Mining中的网页分类[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
5 刘正一;姜志国;孟钢;赵丹培;;基于谱回归降维的全视点卫星目标识别[A];第九届全国光电技术学术交流会论文集(下册)[C];2010年
6 苏保伟;王永良;周良柱;;辅助天线不同排列形式及位置变化对SLC影响[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 董燕;;Web挖掘对电子商务网站建设的影响[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
8 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
9 熊伟;万忠宏;张红英;幸华刚;;基于聚类的核主成分分析方法在地震属性降维中的应用[A];中国地球物理学会第二十七届年会论文集[C];2011年
10 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国重要报纸全文数据库 前10条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
3 ;Web收获:吸纳有用信息[N];计算机世界;2004年
4 边歆;越主动越安全[N];网络世界;2006年
5 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
6 王玉春 赵洪新;齐市检察院网络建设步伐快[N];黑龙江经济报;2008年
7 本报记者 仝仁;数据库网联服务[N];中国计算机报;2001年
8 本报记者 母晓洁;索尼投资168万元设“接机店”[N];中国电子报;2002年
9 陈洪强;管理网页好帮手[N];中国电脑教育报;2002年
10 本报记者 边歆;让安全和应用更智能[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
2 於州;充分降维理论和方法的拓展研究[D];华东师范大学;2010年
3 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
4 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
5 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
6 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
7 沈道义;基于最小化训练误差的子空间分类算法研究[D];中国科学技术大学;2008年
8 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
9 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
10 张桦;场景图像拼接关键技术研究[D];天津大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘静;基于Web文本挖掘的SVM网页文本分类研究[D];东北财经大学;2006年
2 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
3 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
4 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年
5 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
6 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
7 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
8 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
9 段晓峰;网站日志的数据挖掘[D];重庆大学;2003年
10 刘文琦;中文网页自动分类技术的研究与实现[D];哈尔滨工程大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026