收藏本站
《哈尔滨工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Wikipedia的社会网络挖掘

卢克  
【摘要】: 数据挖掘作为一种帮助人们从海量数据中发现潜在有用知识的工具,在很多领域发挥了重要的作用。将数据挖掘的方法应用于社会网络分析是数据挖掘研究的一个新的方向。社会网络分析是一种应用性很强的社会学研究方法,成功地解决了一些社会学问题,得到了广泛的关注。随着信息技术的发展,越来越多的社会关系数据被收集。但是在数据量增大的同时对分析技术提出了新的挑战。如今社会网络的规模早已超出了原有分析手段的处理能力,必须借助计算机进行更为有效的社会网络分析。本文挖掘的社会网络为人物间的相似性关系网络,从数据挖掘的角度来处理社会网络的任务,主要完成了以下三个方面的工作: 第一,本文创新性地从维基百科中挖掘真实人物的物相似性。首先简单介绍了社会网络的基本理论和维基百科作为本文数据源的优点,然后在分析维基百科语法的基础上,从中提取真实的人物数据,并对提取的数据正确性进行了验证。 第二,根据从维基百科中抽取到的人物信息,将人物实体划分为四个属性和属性上对应的值,把人物实体看作是系统,然后采用系统相似性模型计算人物相似度。在系统相似度计算中,人物的每个属性值采用了不同的计算方法,特别是最重要的经历属性值,采用动态规划算法实现的编辑距离完成相似度计算,既保证了准确性又减少了运算时间复杂度。 第三,在完成相似性网络构建后进行了社会网络分析的研究。其中主要包括提出PageRank-Like算法的人物影响力评估和基于深度优先搜索的小团体生成。并且开发了本文的图形化的社会网络分析工具,辅助社会网络分析和应用。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP311.13

【引证文献】
中国硕士学位论文全文数据库 前3条
1 李栋;基于社会化标签的Web网页搜索的优化技术研究[D];哈尔滨工业大学;2010年
2 杨方方;面向社会化媒体的社会网络挖掘与分析[D];哈尔滨工业大学;2011年
3 孟新萍;维基百科人物属性自动获取及社会网络构建方法研究[D];东北大学;2011年
【参考文献】
中国期刊全文数据库 前4条
1 胡海波;王科;徐玲;汪小帆;;基于复杂网络理论的在线社会网络分析[J];复杂系统与复杂性科学;2008年02期
2 邸楠;姚从磊;李晓明;;基于中文Web社会网络的提取、测量与分析[J];广西师范大学学报(自然科学版);2007年02期
3 纪良浩;王国胤;;基于协作过滤的个性化服务技术研究[J];计算机工程与设计;2008年04期
4 冯振明;;Google核心——PageRank算法探讨[J];计算机技术与发展;2006年07期
【共引文献】
中国期刊全文数据库 前10条
1 武志昊;林友芳;田盛丰;唐锐;;高度重叠社区的社区合并优化算法[J];北京交通大学学报;2011年03期
2 荣波;夏正友;;基于聚类的BBS成员交互网络特性研究[J];重庆科技学院学报(自然科学版);2009年06期
3 金艳云;李红兵;;基于个性化学习系统的协同过滤算法改进[J];电脑知识与技术;2009年34期
4 耿永利;;基于Wiener滤波的协作过滤算法改进研究[J];电脑知识与技术;2010年14期
5 金艳云;李玉萍;;个性化学习系统中用户访问兴趣度量方法改进[J];电脑知识与技术;2010年34期
6 孙颖;邓康桥;;智能搜索系统个性化服务的研究[J];电子商务;2011年10期
7 蔡群力;;基于Web挖掘的教学资源搜索引擎的模型设计研究[J];福建教育学院学报;2008年07期
8 方锦清;汪小帆;郑志刚;;网络科学的理论模型及其应用课题研究的若干进展[J];复杂系统与复杂性科学;2008年04期
9 王科;胡海波;汪小帆;;中国高校电子邮件网络实证研究[J];复杂系统与复杂性科学;2008年04期
10 徐玲;胡海波;汪小帆;;一个中国科学家合作网的实证分析[J];复杂系统与复杂性科学;2009年01期
中国重要会议论文全文数据库 前3条
1 ;Fuzzy Analysis for Overlapping Community Structure of Complex Network[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
2 方锦清;汪小帆;郑志刚;;非线性网络的动力学复杂性研究的进展概况[A];第四届全国网络科学学术论坛暨研究生暑期学校论文集[C];2008年
3 Hongbo Li;Wenjing Geng;Yu Wu;Xian Wang;;An Improved Force-Directed Algorithm Based on Emergence for Visualizing Complex Network[A];2013年中国智能自动化学术会议论文集(第二分册)[C];2013年
中国博士学位论文全文数据库 前10条
1 唐乐;Web2.0时代面向社会公众的组织外部传播[D];复旦大学;2011年
2 朱天;社会网络中节点角色以及群体演化研究[D];北京邮电大学;2011年
3 于健;对等社会网络中信息传播及信誉机制的建模与研究[D];天津大学;2010年
4 程秀芳;虚拟社区网络口碑对消费者决策行为影响研究[D];中国矿业大学;2011年
5 魏静;基于复杂在线网络的知识转移研究[D];南京航空航天大学;2010年
6 罗柳红;生态工业园区系统稳定性与调控研究[D];北京林业大学;2012年
7 沈项军;基于语义学习的图像检索研究[D];中国科学技术大学;2006年
8 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
10 万里;时间序列中的知识发现[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
2 闫兆法;基于多模态粒子群优化的社会网络分析研究[D];大连理工大学;2010年
3 任芳;时间序列数据挖掘研究[D];辽宁师范大学;2010年
4 李春;协同过滤推荐算法的研究[D];湘潭大学;2010年
5 潘拓宇;融入用户行为上下文的个性化推荐模型[D];湘潭大学;2010年
6 杨阳;在线社会网络社区发现和社区特征分析[D];北京交通大学;2011年
7 徐珊;基于复杂网络的国际石油贸易网络研究[D];中国地质大学(北京);2011年
8 王延鹏;复杂网络重叠社区发现算法研究[D];太原理工大学;2011年
9 李兆南;基于距离相似度的复杂网络社区挖掘方法[D];吉林大学;2011年
10 商源纯;复杂网络中的重叠社区发现算法研究[D];北京交通大学;2011年
【同被引文献】
中国期刊全文数据库 前9条
1 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
2 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
3 蓝海洋,周杰韩,张和明;文本索引词项相对权重计算方法与应用[J];计算机工程与应用;2003年15期
4 陈晓颖;胡熠;陆汝占;;实体关系模板的获取技术[J];计算机工程;2007年21期
5 戴明星;杜彦辉;;基于WebLech的内容搜索引擎设计[J];计算机工程;2008年09期
6 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
7 董宝力,祁国宁,顾新建;基于混合向量空间模型的主题网站识别[J];清华大学学报(自然科学版);2005年S1期
8 冯振明;;Google核心——PageRank算法探讨[J];计算机技术与发展;2006年07期
9 毛军;;元数据、自由分类法(Folksonomy)和大众的因特网[J];现代图书情报技术;2006年02期
中国博士学位论文全文数据库 前2条
1 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
2 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前5条
1 冯子威;用户兴趣建模的研究[D];哈尔滨工业大学;2010年
2 王颖;应用于中文人名搜索引擎的Web信息提取技术研究[D];兰州大学;2006年
3 隆捷;基于标签的互联网自由分类法研究[D];北京大学;2007年
4 陈琛;基于社会化标签的个性化搜索研究[D];扬州大学;2008年
5 张华杰;基于维基百科的知识抽取和重用[D];上海交通大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 范青云;基于社会化媒体的公益活动研究[D];中国社会科学院研究生院;2012年
2 叶静;社会化媒体语境下企业微博与微信营销研究[D];暨南大学;2013年
【二级参考文献】
中国期刊全文数据库 前9条
1 赵亮,胡乃静,张守志;个性化推荐算法设计[J];计算机研究与发展;2002年08期
2 周军锋,汤显,郭景峰;一种优化的协同过滤推荐算法[J];计算机研究与发展;2004年10期
3 程岩,肖小云,吴洁倩;基于聚类分析的电子商务推荐系统[J];计算机工程与应用;2005年24期
4 张海燕,丁峰,姜丽红;基于模糊聚类的协同过滤推荐方法[J];计算机仿真;2005年08期
5 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期
6 邓爱林,朱扬勇,施伯乐;基于项目评分预测的协同过滤推荐算法[J];软件学报;2003年09期
7 高凤荣,杜小勇,王珊;一种基于稀疏矩阵划分的个性化推荐算法[J];微电子学与计算机;2004年02期
8 王霞,刘琴;协同过滤在推荐系统中的应用研究[J];计算机系统应用;2005年04期
9 张巍,刘鲁,葛健;一种基于粗集的协同过滤算法[J];小型微型计算机系统;2005年11期
【相似文献】
中国期刊全文数据库 前10条
1 丁纪云,蔡春娥;利用构造数据集评定数据挖掘过程的方法[J];湖南广播电视大学学报;2001年02期
2 任承业,罗伟其;校园信息系统中CRM与数据挖掘的结合和应用[J];计算机工程与应用;2003年13期
3 王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期
4 邵红全,赵茜;用SQL Server2000实现数据挖掘的技术与策略[J];电脑开发与应用;2003年04期
5 耿庆鹏,卢子芳;利用数据挖掘技术实现对电信行业用户欺诈行为的预测[J];电信快报;2003年10期
6 蒋良孝,蔡之华;基于数据仓库的数据挖掘研究[J];计算技术与自动化;2003年03期
7 叶静,蔡之华;遥感图像中的数据挖掘应用概述[J];计算机与现代化;2003年10期
8 黄解军,万幼川,潘和平;银行客户关系管理与数据挖掘的应用[J];计算机工程与设计;2003年07期
9 崔强,朱卫东;基于数据挖掘的铁路机务段成本控制系统[J];铁路计算机应用;2003年01期
10 杨思春;基于数据仓库的数据挖掘技术分析研究[J];微机发展;2003年09期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
2 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
3 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
4 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
5 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
6 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
7 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
8 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
9 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
10 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026