收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

多语言微博Hashtag生成及其应用研究

邵健  
【摘要】:Hashtag是用户标注在微博中的主题标签,利用Hashtag能够提高微博中信息组织和信息检索的效率,因此研究Hashtag的基础特性、生成技术、聚类和分类等技术具有重要意义。然而大多数的用户很少给自己所发的微博标注Hashtag,导致包含Hashtag的微博数量较少,这影响了Hashtag的实际应用效果。目前关于Hashtag抽取、推荐与组织等方面的问题,逐渐受到学术界关注,本文重点研究多语言微博的Hashtag生成及其在热点事件发现中的应用。本文通过研究多语言Hashtag的生成及聚类技术,提高微博中信息组织的效率和效果,并将生成的结果应用在H7N9热点事件的分析中。在Hashtag生成技术中利用K近邻思想,分别使用新浪微博和Twitter微博语料进行实验,从语料中选取与目标微博文本最相似的K条微博,从中选取合适的Hashtag。分别比较了向量空间模型(Vector Space Model)、潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布(Latent Dirichlet Allocation)文本表示方法对中英文微博Hashtag抽取结果的影响。目前,Hashtag聚类技术的研究比较少,在Hashtag聚类研究中,本文主要对比了基于标签文档矩阵和基于文档合并的Hashtag聚类策略,在这两种聚类策略中使用了K-Means聚类算法、AP聚类算法和层次聚类算法,并对各种聚类策略与方法进行评估。在基于文档合并的Hashtag聚类策略中分别对比了潜在语义分析(Latent Semantic Analysis)、隐含狄利克雷分布(Latent Dirichlet Allocation)文本表示方法对聚类效果的影响。在研究聚类策略、聚类算法以及文本表示方法对Hashtag聚类结果影响的基础上,找出Hashtag聚类的最佳聚类策略,聚类算法和文本表示方法。多语言微博Hashtag聚类结果描述的目的是从Hashtag类簇中抽取关键词,对不同的类簇进行关键性描述。目前的文本聚类结果描述方法主要有自动标引、自动摘要等,本文使用的关键词抽取技术属于自动标引技术中的一种。目前,关键词的特征主要为统计特征,对语法特征的研究较少。因此本文针对关键词的特点提出关键词的依存关系特征和句法特征,分别在中文和英文数据集中使用支持向量机(SVM)和逻辑回归(LR)分类器对这两种特征进行验证,加入这两种特征后提高了关键词抽取结果的F值。在Hashtag应用部分,从上述Hashtag生成研究、Hashtag聚类研究和聚类结果描述研究中选择最优方法,将其应用在热点事件发现中。首先对不包含Hashtag的微博生成Hashtag,然后对Hashtag进行聚类并从中抽取关键词,最后将聚类结果可视化展示。另外将微博发布的时间因素也进行了考虑,并对全部语料的时间分布、主要类簇以及主要Hashtag的时间分布进行了分析。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 石爱萍;;一种基于语义距离的关键词获取方法[J];计算机与现代化;2010年12期
2 谢凤宏;张大为;黄丹;谢福鼎;;基于加权复杂网络的文本关键词提取[J];系统科学与数学;2010年11期
3 刘祥;;关键词,打开真相之门的钥匙——文学类文本教学的五大抓手(三)[J];中学语文;2015年31期
4 殷成钢;;抓住关键词析文入情[J];语文教学与研究;2008年26期
5 殷蜀梅;张智雄;吴振新;;一种从医学文本中实现自动关键词抽取和筛选的技术方法[J];现代图书情报技术;2008年08期
6 李钝;曹元大;万月亮;;信息安全中的变形关键词的识别[J];计算机工程;2007年21期
7 寇苏玲;蔡庆生;;应用于用户兴趣建模的多文本关键词抽取研究[J];计算机仿真;2007年02期
8 江腾飞;;如何有感情地朗读课文[J];全国优秀作文选(写作与阅读教学研究);2016年02期
9 施建军;;关于汉日文本关键词提取方法的评述[J];日本学研究;2006年00期
10 刘典;李石君;;基于用户反馈的关键词提取[J];计算机工程与设计;2015年08期
11 潘丽敏;吴军华;林萌;罗森林;;融合多特征的中文关键词提取方法[J];信息网络安全;2014年08期
12 魏云洁;;文化和流行音乐的交融——简析中译本《流行音乐与文化关键词》[J];音乐传播;2018年02期
13 陈道刚;;小学语文教学中的几个关键词[J];课程教育研究;2018年09期
14 李玉梅;;细揣非关键词 巧施生命教育[J];中学教学参考;2019年24期
15 ;关键词[J];中国医学影像技术;2019年01期
16 ;《临床肝胆病杂志》关于文章中关键词撰写的要求[J];临床肝胆病杂志;2019年02期
17 ;关键词提取与选择的关键[J];中国数字医学;2019年04期
18 ;《临床肝胆病杂志》对稿件关键词撰写的要求[J];临床肝胆病杂志;2019年05期
19 方佳琦;;关键词:支架还是陷阱——对一次大面积写作偏题的学情分析[J];中学语文教学参考;2019年13期
中国重要会议论文全文数据库 前10条
1 ;关键词[A];中国神经科学学会第六届学术会议暨学会成立十周年庆祝大会论文摘要汇编[C];2005年
2 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 盖世华;;五个关键词读懂改革开放40年的伟大觉醒[A];对接京津——生态优先 绿色发展论文集[C];2018年
4 郑方;吴文虎;方棣棠;;连续无限制语音流中关键词识别的研究现状[A];第四届全国人机语音通讯学术会议(NCMMSC1996)论文集[C];1996年
5 王丽伟;李梅;曹玉莹;王俏;韩正琪;;关键词网络在领域知识发现中的实证研究[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年
6 李烯;;基于关键词共现的教育信息化工程发展初探[A];全国计算机辅助教育学会“计算机辅助教育软件开发与应用”研讨会论文集[C];2009年
7 马莹莹;刘慧慧;;付费搜索广告中的关键词细分和个性化定价[A];第八届(2013)中国管理学年会——商务智能分会场论文集[C];2013年
8 任为民;王承发;周健;徐近霈;高文;;电话语流中的关键词检出算法[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年
9 ;中国家庭育儿行业用户洞察报告[A];艾瑞咨询系列研究报告(2018年第5期)[C];2018年
10 陈伟;李成荣;浦剑涛;;基于LVCSR的关键词检测技术的研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 丁卓冶;面向主题的关键词抽取方法研究[D];复旦大学;2013年
2 宋姝锦;文本关键词的语篇功能研究[D];复旦大学;2013年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 李海洋;汉语语音关键词检测中置信测度研究[D];哈尔滨工业大学;2014年
5 薛晓芳;知识可视化理论、方法和工具及军事医学应用研究[D];中国人民解放军军事医学科学院;2014年
6 宣俊宇;基于关键词关联语义链网络的Web事件演化研究[D];上海大学;2016年
7 张琳;基于期刊聚类的科学结构研究[D];大连理工大学;2010年
8 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
9 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
10 胡连影;解读《意义(?)文本》模式[D];首都师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 邵健;多语言微博Hashtag生成及其应用研究[D];南京理工大学;2016年
2 热依莱木·帕尔哈提;文本关键词提取技术及其应用研究[D];新疆大学;2014年
3 左晓飞;基于复杂网络的关键词提取研究[D];西安电子科技大学;2013年
4 邱诗定;一种基于背景知识的关键词提取算法[D];暨南大学;2014年
5 杨林;基于文本的关键词提取方法研究与实现[D];安徽工业大学;2013年
6 冯佳佳;基于序列模式挖掘的关键词抽取问题研究[D];合肥工业大学;2012年
7 王惠勇;多策略关键词抽取及快速文本主题分类研究[D];东北大学;2012年
8 祖丽湖玛尔·马木提江;维吾尔语区分性关键词提取算法研究及其性能分析[D];新疆大学;2013年
9 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
10 王海龙;汉语关键词识别与主题信息提取的研究及应用[D];北京交通大学;2007年
中国重要报纸全文数据库 前10条
1 国家统计局马鞍山调查队 李深亮;“升级”成关键词[N];中国信息报;2019年
2 本报记者 徐晶卉;“创新”成为药企参展进博会关键词[N];文汇报;2019年
3 通讯员 胡斌;关键词:澎湃动力[N];黄冈日报;2018年
4 ;2018年文化产业十大关键词[N];中国文化报;2019年
5 班威;2018大变局之关键词:冲击与调整[N];国际商报;2019年
6 记者 赵加仑;刘永富细数中国40年扶贫6关键词[N];中国财经报;2018年
7 扬发宣;5个关键词,描绘40年扬州服务业高质量发展史[N];新华日报;2018年
8 本报记者 王鑫;2018年 过去这一年 让成都人生活更美好的“关键词”[N];成都日报;2018年
9 ;贝壳租房“2018年租房十大关键词”出炉[N];北京商报;2019年
10 本报记者 胡畔;2019关键词:抓改革、勇创新[N];中国经济时报;2019年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978