收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

WEB环境下的社会网络挖掘研究

林琛  
【摘要】: 社会网络研究是理解社会现象,预测人类行为,分析社会结构的重要工具。进入Web 2.0时代以来,庞大的Web用户群体、频繁的Web用户互动和海量的Web内容构成了巨大的Web社会网络,使Web环境下的社会网络挖掘成为信息技术领域的新热点问题。在Web环境下进行社会网络挖掘对于理解Web用户的行为模式,改进各种Web应用如推荐、信息检索、网络舆情监测等系统的效果,从而带来更好的用户体验,提高社会生产效率具有重要的作用。 Web环境下的社会网络挖掘需要面临以下几个主要的问题。首先,Web中的社会网络是隐含的、模糊的;其次,Web数据中包含着用户创造的海量内容,具有丰富的语义;第三,Web数据中有大量垃圾内容和垃圾链接;第四,Web数据的高度异构和类型繁杂使得Web上的社会网络不能用单一类型的节点和单一类型的关系来描述.研究Web环境下的社会网络挖掘需要重点解决以上这些问题。 本文主要研究目标是Web上的文本数据,针对Web隐含的模糊的社会网络问题,Web社会网络的丰富语义问题,Web垃圾内容问题,以及多关系和多节点类型的多模社会网络问题,通过对用户行为的分析,采用基于矩阵的、基于生成模型的和基于马尔可夫链的Web社会网络建模方法,以达到抽取隐含社会网络、理解社会网络语义、识别垃圾内容、评测数据质量和挖掘多模社会网络的目标,并实现专家检索等Web应用。 本文的研究对象包括Web论坛和企业、学术领域的数据。采用线程讨论的Web论坛是Web上宝贵的海量知识库,企业、学术领域数据包含大量专业知识,他们是进行数据挖掘和知识发现的重要对象。Web论坛中具有大量的垃圾内容。企业、学术领域数据中具有多种类型的实体和关系。针对这两个数据源,本文的研究工作和创新内容包括: 用户行为分析在网络论坛中,用户发帖参与讨论,由此和其他用户进行密切的互动。为了更好的理解网络论坛中用户的社交行为和发文行为,本文通过大量统计分析,发现论坛用户的发帖数量和质量差异很大,揭示论坛社会网络的回复关系、好友关系和相识关系对于论坛用户的兴趣传播和专家知识传播具有明显作用。 基于稀疏编码的论坛数据建模线程讨论具有结构和语义同步变化,相互影响的特性。针对现有的研究工作普遍对语义和结构分开建模的问题,提出基于矩阵的SMSS模型,同步的对线程讨论的结构和语义建模。同时,针对线程讨论中语义和结构的稀疏性,即每个帖子只覆盖少数几个主题、以及每个帖子只回复讨论线程中的少数几个帖子等特性,提出引入L_1正则项在模型中对结构和语义进行约束。该模型能够抽取出较为精确的社会网络、能够较好的解决Web社会网络的丰富语义和数据质量问题,在垃圾内容识别和专家检索等应用中取得了较好的结果。 基于生成模型的论坛数据建模方法针对SMSS模型对于垃圾内容识别和专家检索的解决方案较为直接简单的问题,本文同时提出基于生成模型的论坛数据建模方法。在PLSA的优化目标中加入反映帖子结构关系的正则项,以刻画线程讨论的结构和语义同步变化互相影响的特性:针对LDA模型不能准确刻画垃圾主题的问题,提出引入垃圾主题,以区别于有意义的主题;针对论坛作者发帖质量不同的问题,引入作者的发帖模式约束帖子的生成过程;针对现有专家检索模型对未观测到词的概率估计不准确问题,引入在上述模型中学习到的主题,扩展专家生成查询的过程;针对发帖数量很多但质量很低的噪声作者问题,在专家检索排序中引入作者的发帖模式信息;上述模型成功应用在语义解读、垃圾内容识别和专家检索中。 基于马尔科夫链的多模社会网络建模方法企业、学术领域中存在多种类型的实体,如作者、论文、个人主页等,以及多种类型的关系如引用关系、合作关系等。为了能够更好的利用类型信息,调整类型的影响强弱,本文针对多模网络上的专家检索问题,提出在Web数据中抽取多模网络的框架;通过在文本中根据给定查询自动生成转移概率矩阵,基于马尔可夫链对专家进行排序;针对在多模网络上的马尔可夫过程计算到达专家节点的概率问题,提出在多模网络上的马尔可夫随机游走过程,并证明该过程是遍历不可约的;针对在如Enterprise和学术领域的应用场景中专家检索的实际需求,提出在社团中的专家检索问题,并提供解决方案。上述模型在专家检索和社团中的专家检索等应用中取得了较好的结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李永;方锦清;刘强;;从网络科学视角探索企业合作网络[J];复杂系统与复杂性科学;2009年01期
2 ;Win95增添了许多网络特性,这些特性对现有网络操作系统具有哪些影响呢?[J];软件世界;1995年11期
3 郑治,钟定燕;高性能交换以太网——江西省电力设计院计算机网络特性简介[J];江西电力;1997年03期
4 朱孟潇;蔡庆生;;染色问题的网络特性[J];计算机科学;2004年07期
5 尹瑞平;;“范跑跑事件”传播中的反“沉默螺旋”解析[J];东南传播;2008年10期
6 林佳丽;徐宗玲;;企业外部网络对核心竞争力的影响分析[J];汕头大学学报(人文社会科学版);2009年05期
7 王鹏;谢拥军;;封装微带电路网络特性的矩量法分析[J];电子与信息学报;2006年11期
8 杨丕金;汪奇;柯骏;;DOCSIS和EPON+EoC接入技术的对比研究[J];有线电视技术;2011年03期
9 ;华为3Com承建湖北电力营销网[J];电力系统通信;2005年07期
10 ;新品播报[J];中国计算机用户;2005年44期
11 刘倩;从计算机网络特性认识DOMAIN系统[J];电信工程技术与标准化;1991年03期
12 聂敏,邵朝;手机上网──基于GSM的通用无线分组业务综观[J];数字通信;2000年08期
13 赵洪华,陈鸣,郝继红,李健;网络性能特性的描述和测量[J];解放军理工大学学报(自然科学版);2004年05期
14 魏丹;赵新强;;关于改善Web服务器性能的方法研究[J];科技资讯;2006年10期
15 王志,郑坚;我国网络新闻发展战略问题的思考[J];现代传播;2005年02期
16 荣健;刘西林;;基于网络特性分析的产业集群生命周期研究[J];情报杂志;2006年05期
17 张维华,骆品亮,郑绍濂;网络特性与网络融合[J];研究与发展管理;2002年02期
18 李钢;在局域网中实现办公自动化[J];科技情报开发与经济;2004年10期
19 周鼎;网络言论:以传播学的角度——“高山积雪”的传播模式[J];理论界;2005年07期
20 南宁办;爱立信WCDMA核心网设计[J];广西通信技术;2002年02期
中国重要会议论文全文数据库 前10条
1 葛伟;许俐;;蛛网式航线网络特点的综合分析[A];2007第三届中国智能交通年会论文集[C];2007年
2 李永;方锦清;刘强;;从网络科学视角探索企业合作网络[A];第四届全国网络科学学术论坛暨研究生暑期学校论文集[C];2008年
3 杨永辉;李鹏;;微波脉冲网络S参数测量方法研究[A];2003'全国微波毫米波会议论文集[C];2003年
4 刘宝成;娄方;;离心水泵经济运行的几项措施[A];山东省煤炭学会2006年年会论文集[C];2006年
5 李季明;张宁;;具有随机性的确定性网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
6 赵阳;李世锦;龙云云;沈雪梅;;传导性EMI信号识别网络特性[A];江苏省电工技术学会成立十周年庆典暨2004年学术年会论文集[C];2004年
7 李增扬;李兵;何克清;;本体中复杂网络特性的发现[A];2006全国复杂网络学术会议论文集[C];2006年
8 李永;方锦清;毕桥;刘强;;和谐统一的混合网络中的相称性系数转变[A];2006全国复杂网络学术会议论文集[C];2006年
9 李耀华;姚洪兴;;股市网络的稳定性研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
10 李永;方锦清;毕桥;刘强;;和谐统一的混合网络中的相称性系数转变[A];第三届全国复杂动态网络学术论坛论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 郑建风;复杂网络建模与典型网络上的动力学过程研究[D];北京交通大学;2010年
2 张彦超;社交网络服务中信息传播模式与舆论演进过程研究[D];北京交通大学;2012年
3 常啸;生物调控网络的动力学分析[D];上海大学;2011年
4 朱亚丽;基于社会网络视角的企业间知识转移影响因素实证研究[D];浙江大学;2009年
5 姚灿中;产业复杂网络的建模、仿真与分析[D];华南理工大学;2010年
6 李丽娜;基于链接的网络数据分类和链接预测新方法研究[D];吉林大学;2012年
7 吕海拜;合著网络中作者的合作模式分析[D];哈尔滨工业大学;2010年
8 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
9 王波;基于派系的复杂网络及其在公交网络上的应用研究[D];浙江工业大学;2009年
10 欧瑞秋;网络博弈视角下的中国汽车企业对抗互动研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 张磊;论网络围观[D];湖北师范学院;2013年
2 毛君君;基于网络视角下的大学组织治理机制研究[D];东北财经大学;2013年
3 成淑萍;基于网络流量的僵尸网络动态检测平台的研究[D];四川师范大学;2013年
4 申荟;论网络话语权及其法律规制[D];湖南师范大学;2014年
5 葛伟;蛛网式航线网络结构研究[D];南京航空航天大学;2008年
6 金琴芳;一种基于元胞自动机的自调节的网络模型[D];南京理工大学;2005年
7 张文杰;微博网络的传播模型和观点演化趋势研究[D];北京交通大学;2013年
8 沈传平;离散型Hopfield神经网络特性分析与设计[D];武汉科技大学;2003年
9 林佳丽;企业网络与企业竞争力[D];汕头大学;2006年
10 张卓;网络视频节目主持人研究[D];河南大学;2009年
中国重要报纸全文数据库 前10条
1 王一;部署SDP别忽视网络特性[N];通信产业报;2007年
2 本报记者 徐超;WiMAX将在商用中形成完整价值链[N];通信产业报;2007年
3 钟健;中小企业慎选电子商务路[N];光明日报;2000年
4 阿尔卡特朗讯 陈曦李颂;HSPA:制胜3G利器[N];人民邮电;2008年
5 童文霞;移动互联网驱动融合终端演进[N];人民邮电;2008年
6 ;IBM ThinkPad T41闪亮登场[N];电脑报;2003年
7 阿尔卡特朗讯 陈曦李颂;HSPA:制胜3G的利器[N];通信产业报;2008年
8 本报记者 刘仁 王康;网络春晚凭借创意挑战豪门[N];中国知识产权报;2011年
9 本报记者 付志平 陈晖;网络生活潇潇洒洒[N];福建邮电报;2000年
10 记者 刘蜀鄂;荆楚网扬帆信息海洋[N];湖北日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978