收藏本站
《苏州大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征、先验和约束的主题建模算法

吴晓娜  
【摘要】:潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是一种用来分析大规模文档的概率主题模型,它从文档的单词表示中抽取出语义相关的主题集合,将文档从单词空间变换到主题空间,得到文档在低维主题空间中的表达。然而LDA的使用者往往会遇到两个问题:一是公用词和停用词几乎占据了所有的主题,LDA的主题分布向高频词倾斜,能够代表主题的关键词被少量的高频词掩盖,从而导致较差的主题可解释性;二是如何改善基于主题特征的低维空间表示,以提高检索、聚类和分类准确率。针对这两个问题,我们从连续特征、非对称先验和稀疏约束这三个方面对LDA进行分析。 LDA使用离散的词频特征作为输入,假设语料库中单词的重要程度只与词频相关。连续特征考虑不同位置单词的区别,并给予在部分文档中出现频率高而在语料库的其它文档中出现频率低的单词一个较高的值,而给予在整个语料库所有文档中出现频率都很高的单词一个较低的值。停用词和公用词的特征值得到降低,使得主题分布中这些词的概率值变小,得到连贯的主题表示。因为公用词对LDA参数推理和估计也有一部分贡献,所以连续特征对改善主题空间低维表示的效果并不是十分显著。 LDA的先验通常启发性地设定为对称的固定值,然而,利用每次迭代得到的主题信息去估计先验将会更加接近于真实值。对称先验使公用词和停用词以相同的可能性分配给所有的主题,而非对称先验会使停用词以较大的可能性分配给有较高先验的主题,让停用词集中出现在少数几个主题中。在模型的训练过程中,通过对先验的学习,提高了模型的后验概率,使主题特征的低维空间表示更加精确。 通常越稀疏的信息就能越清晰的反映出它所表示的意义,停用词和公用词往往出现在多个主题中,它们的主题表示有较低的稀疏度,而一些反映主题意义的关键词的主题表示则有较高的稀疏度。在模型参数估计和推理的过程中增加稀疏限定,去鼓励那些有较高主题稀疏度的单词,惩罚有较低主题稀疏度的单词。从而解决LDA中停用词和公用词的问题,并改善主题特征的低维空间表示。 本文在LDA模型的基础上,围绕文本数据,以连续特征、非对称先验和稀疏约束为出发点,建立能融和这三种因素的概率产生式图模型以及因子图,提出改进的消息传递算法并对它们进行综合性的评价。结果表明,连续特征的LDA模型通过有效的移除停用词和公用词提高了主题分布的可解释性,非对称先验在主题可解释性、文档分类以及聚类准确率等几个标准上都有所改进,稀疏限定也提高了整体性能。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1

【共引文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
3 荣腾中;刘朝林;徐旺;;多维复杂分布的MCMC抽样[J];重庆理工大学学报(自然科学版);2010年08期
4 陶超;谭毅华;彭碧发;田金文;;一种基于概率潜在语义模型的高分辨率遥感影像分类方法[J];测绘学报;2011年02期
5 陈欢欢;陶建锋;周峰;郑甲子;;基于EPF-IMM算法的高机动目标跟踪研究[J];电光与控制;2010年10期
6 彭云辉;刘云峰;缪栋;杨小冈;;高斯混合粒子滤波器在状态估计中的应用[J];弹箭与制导学报;2007年01期
7 张仲凯;康健;芮国胜;;基于速度约束的粒子滤波算法研究[J];弹箭与制导学报;2010年01期
8 于芳;陈冬玲;王大玲;于戈;鲍玉斌;;基于PLSA的面向用户的网络搜索(英文)[J];Journal of Southeast University(English Edition);2007年03期
9 何友松;吴炜;陈默;杨晓敏;罗代升;;基于Bag of Features算法的车辆图像识别研究[J];电视技术;2009年12期
10 刘硕研;须德;冯松鹤;刘镝;裘正定;;一种基于上下文语义信息的图像块视觉单词生成算法[J];电子学报;2010年05期
中国重要会议论文全文数据库 前10条
1 李姗琦;孙永宣;高隽;谢昭;;层次Dirichlet过程模型下的目标分析与识别[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
2 ;A Collaborative Method for the Localization of Wireless Sensor Network[A];2009中国控制与决策会议论文集(3)[C];2009年
3 庄连生;唐克坦;马启荣;俞能海;;基于注意力模型的PLSA目标学习算法[A];第十四届全国图象图形学学术会议论文集[C];2008年
4 梁莘燊;刘莹;;基于效能的学术资源推荐算法研究[A];第六届(2011)中国管理学年会——信息管理分会场论文集[C];2011年
5 李军;李涓子;;新闻专题内子话题划分[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 王素格;杨安娜;;一种混合语言信息的词语搭配倾向判别方法[A];第五届全国信息检索学术会议论文集[C];2009年
7 宋晓雷;王素格;李红霞;;基于概率潜在语义分析的词汇情感倾向判别[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 Xiaoru Wang;Junping Du;Shuzhe Wu;Fu Li;;Adaptive Region Clustering in LDA Framework for Image Segmentation[A];2013年中国智能自动化学术会议论文集(第二分册)[C];2013年
9 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
10 易红发;肖明;彭继春;寇娇;;Twitter英文用户眼中的中国(2006-2013)——基于主题建模和情感分析的探索[A];2014中国传播论坛:“国际话语体系与国际传播能力建设”研讨会会议论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
2 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
3 孙韶杰;模糊图像中感兴趣信息的盲复原方法研究[D];国防科学技术大学;2010年
4 江悦;场景图像内容表述和分类研究[D];国防科学技术大学;2010年
5 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
6 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
7 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
8 邱雪娜;基于视觉的运动目标跟踪算法及其在移动机器人中的应用[D];华东理工大学;2011年
9 田彦;基于视频的人体姿势预测与跟踪[D];北京邮电大学;2011年
10 梁鹏;基于内容的目标分类识别关键技术研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 娄铮铮;sIB算法在图像无监督分类中的应用研究[D];郑州大学;2010年
2 杨业强;MIMO-OFDM系统天线选择技术的研究[D];哈尔滨工程大学;2010年
3 赵八一;基于概率图模型的图像分类和注释[D];大连理工大学;2010年
4 冯元佶;基于图的半监督学习的改进研究[D];湘潭大学;2010年
5 吴昊;网络论坛中的用户主题讨论建模及应用[D];浙江大学;2011年
6 刘森;概率潜在语义分析及其应用[D];浙江大学;2011年
7 崔希鹏;特定对象的发现与分割方法研究[D];电子科技大学;2011年
8 金泸均;智能视频监控中的人体目标跟踪研究[D];电子科技大学;2011年
9 周承兴;基于随机集的多目标跟踪算法研究[D];西安电子科技大学;2011年
10 蔡绍晓;基于粒子滤波的被动传感器多目标跟踪算法研究[D];西安电子科技大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 郭辉,蔡庆生;Web主题信息监控系统设计与实现[J];计算机应用;2003年08期
2 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
3 耿焕同,蔡庆生,赵鹏,于琨;一种基于词共现图的文档自动摘要研究[J];情报学报;2005年06期
4 陈丽珍;卡米力·毛依丁;;基于WEB信息检索系统中维文处理方面的研究[J];电脑知识与技术;2005年36期
5 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
6 王琳琳;;基于HTML解析器的Web信息提取技术[J];郑州轻工业学院学报(自然科学版);2008年06期
7 肖展飞,洪流,蔡庆生;个性化Web主题信息监控系统的实现[J];计算机应用;2004年04期
8 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[J];微电子学与计算机;2009年09期
9 邵晓良,刘红;Web主题信息采集中信息主题的识别[J];现代图书情报技术;2004年10期
10 王兰成;基于EMM中文抽词算法的XMARC主题信息挖掘[J];情报学报;2005年01期
中国重要会议论文全文数据库 前10条
1 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
2 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
5 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 吴筱媛;邓红素;顾宁;邱君瑞;耿亦兵;;一种支持信息发现的元数据描述方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
8 马英民;;论革命历史类博物馆现代展示理念与手法[A];回顾与展望:中国博物馆发展百年——2005年中国博物馆学会学术研讨会文集[C];2005年
9 张鑫;;刍议地方综合年鉴索引[A];创新与发展——云南省年鉴论文选[C];2003年
10 袁崇谦;;基于模糊掩模方法的遥感图像预处理研究[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
2 游峰杜建民;“十里长街”可游玩购物[N];东莞日报;2008年
3 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
4 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
5 卢至虎;“让一张新闻纸能阅读三天”[N];中国新闻出版报;2006年
6 朱启明;纪念邮票领风骚[N];中国邮政报;2007年
7 李晓钢;有效建立数据交换与共享机制[N];大众科技报;2006年
8 记者 虞珊珊通讯员 夏福军 颜昌慧 实习生 郭冬妮 刘锈鸿;中国-东盟港口发展与合作论坛会徽首次亮相[N];广西日报;2007年
9 刘传科康西强 本报记者 许继升;“全心为你”——福田雷沃重工的承诺[N];中国县域经济报;2008年
10 尚明洲 方洁;广东手机学堂搭建移动学习平台[N];人民邮电;2008年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
3 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
4 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年
5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 孙甲申;基于主题模型和随机游走的标签技术研究[D];北京邮电大学;2013年
8 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
9 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
10 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 吴晓娜;基于特征、先验和约束的主题建模算法[D];苏州大学;2014年
2 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
3 刘文君;基于膜计算优化算法的语义主题爬虫研究[D];西华大学;2013年
4 谭胜;互联网新闻实时信息采集及主题探测研究[D];南京航空航天大学;2011年
5 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
6 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
7 张一凡;基于文档频率的分级主题模型[D];北京邮电大学;2011年
8 张倩;用于网络评论文本挖掘的主题模型研究[D];北京交通大学;2014年
9 彭小明;主题爬虫的设计与实现[D];北京邮电大学;2013年
10 王桂珍;基于主题间关联关系的文本可视分析[D];浙江大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026