收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于潜在语义分析的社会化标注系统标签语义检索研究

宣云干  
【摘要】:Web2.0环境下,社会化标注系统逐渐发展为重要的资源组织与共享平台,成为Web的主流发展方向之一。由于标签的模糊和不规范易造成漏检,或因标注资源庞大,检索用户需要过滤庞大的搜寻结果,检索效率不高。因社会化标注系统中绝大多数用户的标注行为符合社会共同认识,所以存在基本的、潜在的语义结构支配标签的出现和资源语义构成,鉴于这一特点,再结合潜在语义分析这一信息检索代数模型,本文试图寻找一种一方法来自动获取标签间的语义关系,对资源赋予语义,将标签和资源以某种可计算性高、可操作性强、代表语义的形式表示和存储,来提高标签的检索效率。 本文所做的工作主要体现在如下四方面: (1)在对相关文献进行综述的基础上,介绍了社会化标注发展历程,定义、系统模型、以及潜在语义分析方法,分析了社会化标注系统的3个主要要素,以及系统在标签检索方面的不足,阐述了潜在语义分析方法的数学依据,在此基础上,提出基于潜在语义分析的标签语义检索模型,讨论了该方法应用于社会化标注的适用性。 (2)对社会化标注系统的标签语义标注进行研究,改进了资源模型,提出标签-资源矩阵的权重计算算法,用局部权重、标签全局权重、资源全局权重三个参数对常用的TF-IDF计算方法进行改进。用标签全局权重值来衡量标签在分辨资源时的重要程度和能力,用资源、全局权重值来描述资源对标签集所能提供的信息量,从行计算和列计算两个方面对原始标签-资源矩阵权重进行改进,使得新的矩阵更能体现社会化标注系统的整体性。 (3)研究了社会化标注系统标签语义检索中的相似度计算和排序算法。首先介绍6种相似性计算算法,然后用改进的余弦相似公式作为检索式与资源集间的相似度计算算法。借鉴目前流行的排序算法,从标签和资源的“长尾”现象出发,分析标签和资源的形成分布规律,利用相似用户和资源的时序特性对排序算法进行改进,使得检索出的结果中相关性越强的资源排列越靠前。 (4)为验证本文方案的可行性和优越性,对提出的算法进行了实验。首先以具有代表性的delicious.com网站为例,抓取近20万条原始数据并进行清洗,分析资源、用户和标签的关系,构建三者网络。借助软件工具matlab,对这些数据用本文提出的算法和传统的算法进行2组检索实验,得出不同的排列结果。从查全率、查准率曲线,查全率/查准率曲线,查全率、查准率直方图,MAP指标对二组实验得出的不同结果进行分析评价,证实了本文提出的标签语义检索改进方法优于传统的向量空间模型方法。 最后对全文的研究工作进行总结,指出本研究所存在的一些不足,对未来的研究进行展望。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 余卫宇,谢胜利,余英林,潘晓舟;语义视频检索的现状和研究进展[J];计算机应用研究;2005年05期
2 李恒杰;吴文昭;张成文;;基于语义的信息检索技术应用研究[J];甘肃联合大学学报(自然科学版);2008年02期
3 付苓;崔新春;谢娟;连慧平;;基于语义信息链的语义检索研究[J];山东图书馆学刊;2010年04期
4 丁晟春,顾德访;Jena在实现基于Ontology的语义检索中的应用研究[J];现代图书情报技术;2005年10期
5 颜端武;丁晟春;李岳蒙;顾德访;;基于语义Web和Jena插件的语义检索系统实验研究[J];情报理论与实践;2006年03期
6 董小峰;张树生;赵寒;周竞涛;冯赟;田占强;;基于语义模型的企业数据检索[J];制造技术与机床;2006年09期
7 徐国虎;董慧;;基于语义的数字图书馆推理检索研究[J];中国图书馆学报;2006年03期
8 董小峰;张树生;赵寒;周竞涛;冯赟;田占强;;基于语义模型的企业数据检索[J];计算机应用研究;2006年12期
9 郁书好;郭学俊;;基于本体的教学知识库研究与应用[J];计算机技术与发展;2007年08期
10 郭猛;冯志勇;;基于本体实现有效Web信息检索[J];微处理机;2007年04期
11 许德山;乔晓东;朱礼军;宫丽环;杨洁雄;;基于本体的中文语义检索系统[J];情报理论与实践;2008年03期
12 黄都培;;基于本体的法律信息语义检索[J];计算机工程与应用;2008年28期
13 郭佳;乐嘉锦;;软件资产管理中基于本体的语义检索[J];计算机工程;2009年14期
14 肖宝;施雅贤;蒋运承;;基于语义的旅游信息搜索引擎[J];广西师范大学学报(自然科学版);2009年03期
15 毛平;;基于领域本体的文本信息语义检索研究[J];科技资讯;2009年36期
16 张亮;屈振新;丁菘;唐胜群;;一种基于加权领域本体的语义检索方法[J];计算机科学;2010年07期
17 马中杰;郑诚;苏喻;;一种基于知识库的语义检索系统模型[J];微型机与应用;2010年20期
18 蒋翠清;张玉;丁勇;;基于PLSA的大众标注潜在语义发现[J];现代图书情报技术;2010年10期
19 林贵霞;胡德敏;;基于本体的语义检索模型设计与实现[J];微计算机信息;2011年03期
20 冉婕;孙瑜;;语义检索中的词语相似度计算研究[J];计算机技术与发展;2011年04期
中国重要会议论文全文数据库 前10条
1 王洪俊 ;沈水荣 ;黄翬 ;;“人民金典”语义检索系统实现方法和技术[A];中国新闻技术工作者联合会2011年学术年会论文集(上篇)[C];2011年
2 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
4 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 宋晓雷;王素格;李红霞;;基于概率潜在语义分析的词汇情感倾向判别[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 房冠南;袁彩霞;王小捷;李江;宋占江;;面向对话语料的标签推荐[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 李静;林鸿飞;;基于用户情感标签的音乐检索算法[A];第六届全国信息检索学术会议论文集[C];2010年
9 刘昌钰;郭颖;唐常杰;翟静;李海宏;;基于潜在语义分析与Bayes分类的BBS文档鉴别[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 刘广艳;孙莹;黄保海;林培光;;基于本体方法的改进VSM语义检索模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
2 靳延安;社会标签推荐技术与方法研究[D];华中科技大学;2011年
3 吴超;在线社会化网络的语义分析和语义社会网的构建[D];浙江大学;2010年
4 王琦;古代壁画的语义检索技术及应用研究[D];浙江大学;2011年
5 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
6 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
7 栗华;UHF RFID多标签防碰撞算法的研究与性能分析[D];山东大学;2011年
8 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
9 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
10 夏天;研究性学习支持系统[D];华东师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 董文清;基于框架网络本体的语义检索模型[D];山西大学;2010年
2 苏山佳;基于大众标注的对等网语义检索系统模型研究[D];西安电子科技大学;2010年
3 韦超;语义检索在ERP系统检索引擎中的研究应用[D];华北电力大学(北京);2011年
4 姜甲涛;模糊本体在关系数据库系统语义检索中的研究[D];大连海事大学;2010年
5 张智鹏;基于语义检索的结构化P2P网络模型研究[D];西华大学;2010年
6 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
7 吴晓芳;社会标注中标签语义分析研究[D];大连理工大学;2011年
8 曹立勇;基于本体的检索模型的研究[D];安徽大学;2010年
9 张利利;基于模糊本体的关系数据库语义检索研究[D];大连海事大学;2011年
10 朱俊彦;以标签为导向的网页摘要技术[D];浙江大学;2010年
中国重要报纸全文数据库 前10条
1 记者 张珂 尹航 李彩霞;2007国际标签印刷展览会(Labelexpo Asia 2007)蓄势待发[N];中国包装报;2007年
2 见习记者 刘世昌;2007国际标签印刷展览会将在上海举行[N];中国新闻出版报;2007年
3 记者 张建琛通讯员 许长水;厦门将全力发展射频识别新兴产业[N];科技日报;2007年
4 本报记者 易凌珊;酷讯旅游推特色搜索 搜索功能细分成趋势[N];通信信息报;2011年
5 网文;WAP知多少[N];中国商报;2000年
6 本报记者 刘英赫;重新认识WAP[N];中国电子报;2000年
7 余天;大海捞针之术[N];计算机世界;2004年
8 许长水;厦门鼓励发展射频识别新兴产业[N];福建科技报;2007年
9 ;多方协作发展内容管理[N];中国计算机报;2003年
10 上海交通大学图书馆 杨宗英 郑巧英;数字图书馆的三种主流模式[N];中国电脑教育报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978