收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

论坛用户行为分析及文本表示模型研究

范桂群  
【摘要】:论坛BBS是一种内容丰富、用户之间交互性强,而且信息传播速度快的电子信息服务系统,论坛用户自身的专业水平较高,而且使用网络的目的性也较强。为了对论坛实行有效的监督、管理和控制,也为了给大家提供一个安全健康文明的网络环境,论坛舆情的系统化研究显得越来越重要。特别是针对高校论坛进行分析研究,就具有更加深远的意义。本研究的开展是以北京邮电大学模式识别实验室承接的高校项目校园舆情为应用点,在该项目中,我的主要工作和创新点如下: 1.对网络用户行为和文本表示模型展开研究。通过阅读一些前沿论文,总结了目前比较常用的对用户行为进行分析的主要方法,并通过对比当今比较经典的文本表示模型,总结出它们各自的优缺点。 2.设计论坛用户行为分析系统。该系统主要功能有:针对某高校论坛,通过实时采集、统计和分析舆情信息得到用户的各种行为特征,如发帖数量、回帖数量等,进而得到活跃用户和舆论领袖等信息;通过对每个用户发帖内容进行检索过滤判断出异常用户;并通过统计不同时间段的单个用户发帖回帖数和所有用户的发帖回帖数,得到单个用户上网习惯和群体上网习惯。 3.提出了一种基于词语相关矩阵的文本表示方法。文本表示是文本聚类和分类的前提和基础,在文本检索和数据挖掘等领域有着重要意义。目前最常用的几种文本表示模型都存在一定的局限性,它们基本上假定构成文本的词语是相互独立的而忽略了词语之间的内在联系。为此,本论文提出了基于词语相关矩阵的文本表示方法,并通过设定词频阈值和词语相关度阂值避免因与无关词语求相关度而引入噪声。运用K-means聚类实验证明,这种文本表示方法能够更加准确地表达文本特征,进而提高聚类的质量。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 台德艺;谢飞;胡学钢;;文本分类技术研究[J];合肥学院学报(自然科学版);2007年03期
2 张小艳;宋丽平;;论文本分类中特征选择方法[J];现代情报;2009年03期
3 金春霞;;Web文本挖掘相关技术研究及应用[J];现代计算机(专业版);2009年03期
4 李强;李建华;;基于向量空间模型的过滤不良文本方法[J];计算机工程;2006年10期
5 郭少友;;一种基于词上下文向量的文本自动分类方法[J];情报科学;2008年07期
6 倪洁琼;吴耿锋;郑宇;;基于关系权重的文本表示法[J];计算机应用与软件;2009年05期
7 金春霞;;Web文本挖掘相关技术研究及应用[J];微型电脑应用;2009年07期
8 赵俊杰;;论文抄袭检测中特征选择[J];计算机系统应用;2009年09期
9 张青;熊前兴;;文本分类中词语权重计算的改进[J];电脑知识与技术;2011年01期
10 熊德兰;柴玉梅;;领域内文本褒贬倾向性分类中的特征提取技术[J];微计算机信息;2006年36期
11 谭金波;;文本层次分类中特征项权重算法的比较研究[J];情报杂志;2007年09期
12 蒲筱哥;;Web自动文本分类技术研究综述[J];情报学报;2009年02期
13 曾致远;张莉;;基于向量空间模型的网页文本表示改进算法[J];计算机工程;2006年03期
14 王煜;;机器学习技术在文本分析中的应用[J];华南金融电脑;2007年05期
15 高秀梅;陈芳;宋枫溪;金忠;;特征权对贝叶斯分类器文本分类性能的影响[J];计算机应用;2008年12期
16 李星毅;曾路平;施化吉;;基于单词相似度的文本聚类[J];计算机工程与设计;2009年08期
17 杜友福;程彩凤;赵鸣;;搜索引擎中智能代理技术及启发式搜索策略研究[J];长江大学学报(自然科学版)理工卷;2009年02期
18 侯亚南;黄映辉;;用于形式背景提取的中文文本表示[J];计算机技术与发展;2010年09期
19 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[J];中文信息学报;2011年02期
20 冯长远,普杰信;Web文本特征选择算法的研究[J];计算机应用研究;2005年07期
中国重要会议论文全文数据库 前10条
1 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 冯铭;王保进;蔡建宇;;基于云计算的可重构移动互联网用户行为分析系统的设计[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
8 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 王倩;刘奕群;马少平;茹立云;;面向用户互联网访问日志的异常点击分析[A];第五届全国信息检索学术会议论文集[C];2009年
10 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 单建芳;面向事件的文本表示研究[D];上海大学;2012年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
6 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年
7 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年
8 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
9 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
10 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
中国硕士学位论文全文数据库 前10条
1 范桂群;论坛用户行为分析及文本表示模型研究[D];北京邮电大学;2012年
2 彭俊杰;中文短文本表示及分类的研究与实现[D];河南大学;2012年
3 何速;社会电视用户行为分析[D];国防科学技术大学;2011年
4 魏彦鹏;基于移动社会网络的用户行为分析[D];北京邮电大学;2011年
5 胡畅;用户行为分析系统设计[D];湖北工业大学;2011年
6 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
7 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
8 周岳;基于兴趣分类的用户行为分析系统的研究与设计[D];北京邮电大学;2010年
9 高峰;基于兴趣分类的用户行为分析系统的研究[D];山东大学;2010年
10 马安华;基于用户行为分析的精确营销系统设计与实现[D];南京邮电大学;2013年
中国重要报纸全文数据库 前10条
1 ;手机阅读用户行为分析[N];中国新闻出版报;2011年
2 谭景华杨国良;IP网络用户行为分析方法的探讨[N];人民邮电;2007年
3 记者 董利伟 丁吉涛;山东网通有效解决宽带客户私接盗连问题[N];人民邮电;2007年
4 上渊;新一代网络技术IPv9走向商用[N];中国高新技术产业导报;2004年
5 ;摩托罗拉与中山移动实施“网络掘金”项目[N];人民邮电;2007年
6 王萍;Web文本的知识化管理[N];计算机世界;2006年
7 靳辉;释放电信增值业务规模价值[N];通信产业报;2007年
8 张承东;网上自有读书台[N];网络世界;2006年
9 康乐;漫谈搜索引擎技术[N];中国化工报;2002年
10 靳辉李博;电信IT携手开拓2.0时代[N];通信产业报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978