收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

微博用户属性识别方法研究

薛云霞  
【摘要】:随着社交网络的迅猛发展,自动分析社交网络中的有用信息成为目前自然语言处理、社交网络分析等领域的重要研究课题。其中,微博用户属性识别是一项基本任务。该任务旨在根据微博用户产生的相关数据对用户的个体属性(例如,性别、年龄等)进行自动识别。准确识别用户的个体属性,可以帮助更好的进行智能营销、个性化预测及情感分析等研究。本文的研究内容主要包括以下三个方面:首先,针对微博中用户的个人与非个人属性,本文提出了一种结合微博用户的用户名和微博文本两类信息的分类方法。该方法针对两种文本训练不同分类器,并在此基础上提出了一种基于分类器融合的方法,同时利用用户名和微博两类信息进行分类。实验结果表明,本文的方法可以达到较高的识别准确率,并且分类器融合方法明显优于仅利用用户名或微博文本的单分类器分类方法。其次,针对微博用户的性别属性,提出了一种基于交互式信息的半监督性别分类方法。传统的性别分类研究依赖大量的标注样本,而通常情况下人工标注样本费时费力。作为一种社交网络平台,微博提供了多种交互机制以供用户互动。因此,微博平台既包括用户发布的微博等非交互式信息,同时也包括回复等交互式信息。本文提出了一种基于交互式信息的半监督性别分类方法,该方法将交互式和非交互式两类信息作为协同训练算法的两个视图,充分利用未标注样本实现半监督性别分类。实验结果表明基于非交互式和交互式视图的半监督性别分类方法能够有效利用非标注样本提升性别分类性能。最后,针对微博用户的年龄属性,提出了一种基于文本和社交信息的半监督年龄回归方法。该方法通过协同训练算法同时结合用户的文本和社交两类信息,充分利用未标注样本实现半监督年龄回归。此外,我们提出了一种基于QBC的方法,解决了回归问题中样本置信度衡量的难题。实验结果表明,本文提出的基于文本和社交信息的半监督年龄回归方法,在数据平衡和不平衡两种情况下都能有效利用非标注样本提升年龄回归的性能。


知网文化
【相似文献】
中国期刊全文数据库 前9条
1 强磊;;3G通用用户属性及其参考结构的研究[J];信息网络;2006年03期
2 叶春晓;符云清;钟将;冯永;;基于属性的委托撤销研究[J];计算机科学;2008年03期
3 余坦;王益民;;一种基于用户属性的搜索算法[J];计算机系统应用;2010年07期
4 唐金鹏;李玲琳;杨路明;;面向用户属性的RBAC模型[J];计算机工程与设计;2010年10期
5 蒋凌志;;基于属性的RBAC系统[J];计算机系统应用;2010年01期
6 叶春晓;符云清;吴中福;;基于角色限制条件的用户-角色指派研究[J];计算机科学;2004年07期
7 ;“小弟弟”盯着你[J];每周电脑报;1997年33期
8 曹玖新;吴江林;石伟;刘波;郑啸;罗军舟;;新浪微博网信息传播分析与预测[J];计算机学报;2014年04期
9 ;[J];;年期
中国博士学位论文全文数据库 前1条
1 冯珍;产品级再使用研究[D];西安电子科技大学;2005年
中国硕士学位论文全文数据库 前9条
1 景志珍;基于组合赋权的软件服务评价方法的研究与实现[D];昆明理工大学;2015年
2 薛云霞;微博用户属性识别方法研究[D];苏州大学;2015年
3 张晓;社会网络上的用户属性推测方法研究[D];哈尔滨工业大学;2015年
4 张晓伟;用户属性在加强远程证明安全中的研究[D];太原理工大学;2015年
5 丁璐;基于隐式反馈的音乐推荐技术研究[D];杭州电子科技大学;2015年
6 何伟宾;微博用户属性信息挖掘平台核心功能设计与实现[D];北京邮电大学;2014年
7 张清华;基于资讯价值的移动订阅研究[D];大连理工大学;2010年
8 陈显勇;融合用户属性和兴趣的最大熵推荐算法研究[D];重庆大学;2013年
9 周晓军;基于RB-RBAC_(ex)模型的PMI系统的研究与设计[D];上海交通大学;2010年
中国重要报纸全文数据库 前3条
1 马志会;有线无线一体化不等于“统一品牌”[N];网络世界;2009年
2 大竹刚;整合互联网服务[N];中国计算机报;2002年
3 本报记者 别坤;王效辙:扁平化网络更高效[N];计算机世界;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978