收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于概率主题模型的游记文本知识挖掘

郝强  
【摘要】:网络技术的发展促使人们热衷于在互联网上分享旅行经历,游记文本是一种主要形式。游记中蕴含着地点代表性知识(景观、风格、特色活动等),对旅行规划有很大参考价值。但由于游记中噪声多、视角多、缺乏目的地推荐和视觉信息等局限,导致这些知识难以靠人工方式获得。 本文研究如何从游记文本中自动挖掘出这些知识并加以利用,为此提出了一种新的概率主题模型——地点-主题(LT)模型,用于从游记中挖掘两种主题,即刻画地点特色的局部主题和表示游记中常见语义的全局主题,并用局部主题表示各地点,以把握地点代表性知识和地点间相似度。 基于该模型,我们结合旅行规划的情境实现了三种应用:(1)目的地推荐——向用户推荐与给定目的地相似、或是与给定旅行意图相关的目的地;(2)目的地概述——利用标签和相关游记摘录概括给定目的地的特色;(3)游记可视化——提取给定游记的重要内容并搭配相关图片。 基于中英文两个游记数据集(分别包含9.4万和10万篇游记),运用客观量化和问卷调查等实验方法进行了实验和评估,结果验证了所提出方法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 候军;渗透在纪录片中的日本文化[J];现代传播-北京广播学院学报;1997年05期
2 马颂德,王珏;智能信息处理与知识挖掘[J];世界科技研究与发展;1999年06期
3 刘明吉,王秀峰,王治宝,黄亚楼;一种基于遗传算法的知识挖掘算法[J];计算机工程;2000年08期
4 王文剑;从预测模型中提取规则[J];计算机工程;2000年11期
5 景宁,王秀伦,孙丽;数据仓库技术在CAPP系统中应用的研究[J];机械设计与制造工程;2001年06期
6 李智,叶良朋,王正成,王正肖;基于CRM的知识管理研究[J];科技进步与对策;2002年11期
7 李国昌,李志;智能决策支持系统知识库体系结构的研究[J];河北科技大学学报;2002年01期
8 辛大欣,刘君,王长元;多媒体数据库的知识发现[J];湖南环境生物职业技术学院学报;2002年02期
9 ;图像、语音、自然语言理解与知识发掘[J];中国科学院院刊;2002年02期
10 戴卫恒,于全;一种结合知识挖掘的进化规划算法[J];信号处理;2002年03期
11 唐远洋,黄尔嘉;知识挖掘技术与网络教育资源的组织[J];电化教育研究;2003年06期
12 陈刚;基于模糊推理的管理数据库的知识挖掘[J];辽宁工程技术大学学报;2003年03期
13 金应渊;基于知识挖掘技术的模糊信息聚类及联想设计[J];情报杂志;2004年03期
14 姚汉平;网络环境下信息系统的基本特征[J];情报杂志;2004年12期
15 王紫生,边馥苓;利用“缓冲法”进行空间数据的插补和知识挖掘[J];测绘信息与工程;2005年01期
16 孙毅,盛海英;基于KDD的教学质量评价系统研究[J];浙江师范大学学报(自然科学版);2005年01期
17 刘志勇,袁清珂;基于粗集理论的知识挖掘及其在工程中的应用研究[J];机电工程技术;2005年06期
18 来玲;大学图书馆知识挖掘及其流程的研究[J];情报理论与实践;2005年04期
19 施晓华,黄骥;信息检索新技术应用[J];情报科学;2005年08期
20 李元臣,刘维群;知识挖掘在网络教育资源组织中的应用[J];情报资料工作;2005年04期
中国重要会议论文全文数据库 前10条
1 李筱华;;天台、雁荡的另一种解读——兼论徐霞客山水游记的文学性[A];徐霞客在浙江[C];1998年
2 艾若;;辛巳年的启示——纪念徐霞客逝世360周年[A];徐霞客逝世360周年纪念活动暨学术研讨会论文集[C];2001年
3 赵宬斐;黄丽萍;;浙江外来新居民的生活空间发展检视——以店口为例[A];“秩序与进步:浙江社会发展60年研究”理论研讨会暨2009浙江省社会学年会论文集[C];2009年
4 徐建春;;徐霞客对自然风景旅游资源的考察研究[A];徐霞客在浙江[C];1998年
5 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 李晓栋;胡清华;;汽轮机故障诊断文本支持系统的研究与建立[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
7 胡洁;;浅谈习作教学中的“对话性格”[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
8 艾若;;神与物游[A];徐霞客在浙江·续集——2001舟山徐霞客旅游文化研讨会暨浙江省徐霞客研究会第二届会员代表大会论文集[C];2001年
9 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
10 李安纲;;吴承恩不是《西游记》小说的作者[A];第二届全国《西游记》文化学术研讨会论文集[C];1999年
中国博士学位论文全文数据库 前10条
1 李岚;行旅体验与文化想象[D];华中师范大学;2007年
2 任一鸣;蒋彝作品研究[D];复旦大学;2007年
3 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
4 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
5 刘顺利;文本研究[D];中国社会科学院研究生院;2002年
6 彭青龙;“写回”帝国中心[D];华东师范大学;2005年
7 李雁南;近代日本文学中的“中国形象”[D];暨南大学;2005年
8 富世平;敦煌变文的口头传统研究[D];四川大学;2005年
9 曹海军;文本与语境:罗尔斯正义理论研究[D];吉林大学;2006年
10 谢登斌;当代美国课程话语研究[D];华东师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 郝强;基于概率主题模型的游记文本知识挖掘[D];天津大学;2010年
2 徐晴阳;从网页中精确提取链接上下文相关文本[D];吉林大学;2004年
3 何固佳;原语文本的解码模式[D];湖南师范大学;2004年
4 潘莹;基于需求文本的GIS语义挖掘初步研究[D];南京师范大学;2004年
5 张燕梅;历史、文本与同心圆[D];陕西师范大学;2004年
6 陈晓华;程乃珊笔下上海想象的变迁及其社会文化语境[D];首都师范大学;2004年
7 田文华;“山东版”高中语文实验教科书(必修)研究[D];华东师范大学;2005年
8 宋华伟;瑞恰兹的《实用批评》研究[D];山东师范大学;2005年
9 王光阵;玩出来的品牌帝国[D];四川大学;2005年
10 蔡洞峰;语言乌托邦与人的自由[D];安徽大学;2005年
中国重要报纸全文数据库 前10条
1 徐迅;忙里偷闲读游记[N];工人日报;2011年
2 陆建松;“诊疗”博物馆展览工程管理之展览文本[N];中国文物报;2005年
3 刘福旺;让文本动起来[N];中国电脑教育报;2002年
4 宋成剑;文本、对话、实践的有机统一[N];社会科学报;2001年
5 刘戈;文本的价值与意义[N];文艺报;2001年
6 朱志美;满文本《三国志演义》[N];人民日报海外版;2008年
7 中国人民大学法学院教授 莫纪宏;从宪法文本看公民概念的百年发展[N];北京日报;2010年
8 江苏省锡山高级中学 曹菊华;探寻创作意图 深入解读文本[N];江苏教育报;2010年
9 田华;莫让文本式管理束缚学校和教师[N];天津教育报;2010年
10 詹斌;解构的欢愉[N];青海日报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978