收藏本站
《北京邮电大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

Web挖掘中的主题模型扩展

亓晓青  
【摘要】:微博如今已经成为非常流行的信息交流平台,对于微博的短文本数据,传统使用词作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。 针对微博短文本高维稀疏的特点,主题模型被广泛研究用于微博文本聚类。潜在狄利克雷分配(Latent Dirichlet Allocation,简称LDA)模型是主题模型的经典代表,作者主题模型(Author Topic Model,简称ATM)作为用作者信息对热门主题模型LDA的有效拓展也用于微博文本挖掘。然而ATM模型具有两个缺点:首先文档的单词生成概率只能按照一个作者的主题多项分布,其次针对微博这种文本形式,没有考虑到其中所包含的结构信息。 针对以上缺点,本论文的研究内容包括以下三个方面: 1)对多种主题模型进行了深入研究和分析,并就其中的LDA、 ATM两种模型,利用自然语言处理与信息检索(Natural Language Processing and Information Retrieval,简称NLPIR)数据集实现了文本降维。 2)结合微博的特点,提出用户与关联扩展LDA模型(User and Link Latent Dirichlet Allocation,简称ULLDA),在每篇文档的生成过程中,当由作者列表中选择了作者之后,之后生成文档每一个词的时候,作者所对应的主题分布不再只是由作者一人决定,而是根据微博的特点,使微博中的相关人员对应的主题分布也能影响该分布,从而克服了上述两个缺点。 3)应用NLPIR数据集,对提出的改进算法进行了验证,并与传统的LDA, ATM模型得到的结果进行了比较,证明了改进模型的有效性。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前3条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
3 李涓子,黄昌宁;语言模型中一种改进的最大熵方法及其应用[J];软件学报;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 谢宇;张仰森;肖建涛;;规则与统计相结合的汉语词义消歧模型[J];北京机械工业学院学报;2007年03期
2 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
3 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
4 周晗;赵卫东;季军;;一种用于文本分类的特征选择方法[J];电脑知识与技术;2008年34期
5 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
6 苗蕊;刘鲁;刘志明;;基于隐马尔可夫模型的突发事件新闻报道的爆发性分析[J];系统工程;2010年08期
7 孙士保;李保元;李天瑞;吴正江;郑瑞娟;;基于类内关键词的中文文本分类模型的改进[J];广西师范大学学报(自然科学版);2009年03期
8 马小龙;;网络留言分类中贝叶斯复合算法的应用研究[J];佛山科学技术学院学报(自然科学版);2013年02期
9 牛洪林;孙海萍;;基于CSSCI(2000~2011)的我国体育学学科知识图谱研究[J];图书与情报;2014年01期
10 胡榜利;覃山羽;黄鑫;杨光业;陈斌冠;邓莉;蔡金华;;内镜逆行胰胆管造影术的文献计量学研究[J];重庆医学;2014年10期
中国重要会议论文全文数据库 前7条
1 高继平;丁堃;;基于德温特专利数据库两岸纳米专利的定量研究[A];经济发展方式转变与自主创新——第十二届中国科学技术协会年会(第四卷)[C];2010年
2 ;Feature Selection for Text Classification using OR+SVM-RFE[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
3 高继平;丁堃;;基于德温特专利数据库两岸纳米专利的定量研究[A];第12届中国科协年会第31分会场海峡两岸区域合作与协同发展论坛论文集[C];2010年
4 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 周春姐;孟小峰;文洁;;Flickr中的复合事件检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 代劲;何中市;胡峰;;一种高性能的文本特征自动提取算法[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
7 邱均平;柴雯;;国际科学计量学研究的进展与趋势[A];第十届中国科技政策与管理学术年会论文集——分6:区域创新与绿色发展(Ⅰ)[C];2014年
中国博士学位论文全文数据库 前10条
1 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
4 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
5 庞杰;知识流动理论框架下的科学前沿与技术前沿研究[D];大连理工大学;2011年
6 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
7 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
8 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
9 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
10 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
中国硕士学位论文全文数据库 前10条
1 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
2 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
3 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
4 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
5 邓宾;中文词义消岐研究[D];昆明理工大学;2009年
6 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
7 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
8 陈孝礼;基于改进SVM的垃圾邮件过滤系统研究与实现[D];山东师范大学;2011年
9 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
10 冯鸥鹏;垃圾短信过滤中字特征与词特征对过滤效果的比较研究[D];北京邮电大学;2011年
【二级参考文献】
中国期刊全文数据库 前6条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
3 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
4 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
5 王梦云,曹素青;基于字频向量的中文文本自动分类系统[J];情报学报;2000年06期
6 李勇,桑艳艳;网络文本数据分类技术与实现算法[J];情报学报;2002年01期
【相似文献】
中国期刊全文数据库 前10条
1 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
2 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
3 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
4 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
5 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
6 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
7 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
8 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
9 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
10 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
中国重要会议论文全文数据库 前7条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 薛耀兵;科技文献中的主题发现与趋势预测[D];哈尔滨工业大学;2013年
2 陈浩;自定义主题信息抽取的研究与应用[D];大连理工大学;2008年
3 吴彦文;主题信息合理性、语境意义偏向性对汉语句子歧义消解的实验研究[D];陕西师范大学;2002年
4 戴兴虎;基于主题的学术网络构建[D];浙江大学;2013年
5 吴晓娜;基于特征、先验和约束的主题建模算法[D];苏州大学;2014年
6 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
7 徐西孟;基于OODA决策循环的主题发现技术的研究与设计[D];济南大学;2011年
8 刘欣宇;基于主题策略的Web信息监测系统研究与实现[D];重庆大学;2011年
9 王桂梅;主题网络爬虫关键技术研究[D];哈尔滨工业大学;2009年
10 刘佳;基于P2P的主题爬行与搜索路由研究[D];武汉理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026