收藏本站
《山东科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

领域文本相似度计算方法研究

罗义兵  
【摘要】:随着行业内文本数据的不断积累,如教育、财经、餐饮、旅游等领域拥有大量的doc、pdf等格式的非结构或半结构化的数据。同结构化的数据管理相比,这些非结构或半结构化的数据管理要难很多。最近几年来出现了许多面向行业领域的应用,如酷讯网的车票信息、搜房网的房产信息等,它们提供的服务方便了人们的生活,但大多数是基于领域内结构化数据的信息加工和服务,所以本文主要研究行业领域内非结构化数据文本信息处理中文本相似度计算的问题。文本相似度计算是文本信息处理的基础,可为文本聚类、文本分类、相似文本资源推荐等提供技术支持。传统的文本相似度计算是基于关键词集的向量空间模型,它仅考虑了文本中关键词的简单匹配,而没有考虑关键词的语义以及关键词之间的联系;同时它在针对领域文本相似度计算时,很少考虑文本的领域特征。 本文研究领域文本相似度计算,其研究思路就是如何从文本集中抽取领域知识以及如何利用领域知识来挖掘文本的语义特征来计算文本相似度。主要工作和贡献如下: (1)提出了一种中文未登录词检测方法。在研究未登录词特点的基础上,设计并验证了基于大规模语料集的候选未登录词统计和阈值过滤的未登录词检测方法。 (2)设计了一种领域知识获取模型。使用带有正负符号的卡方分布计算词语和领域的相关度,将相关度较大的词语加入到领域词典;利用领域词典和“是一个”上下位关系模式相结合的方式识别领域语义知识中上下位关系的词语对。 (3)提出了一种领域文本的领域特征和语义特征的抽取方法。利用领域词典抽取文本的领域特征,减少其他词语对文本主题特征的影响;同时利用上下位语义关系对领域关键词向量模型进行上位关系的词语扩展。 (4)提出了一种领域文本相似度计算方法。使用上位关系扩展的领域关键词的向量模型,定义领域文本相似度计算公式计算领域文本相似度。 实验表明针对领域文本集,基于领域知识的领域文本相似度计算方法和传统的文本相似度计算方法相比,它能够较好的抽取文本领域和语义特征,更好的衡量领域文本相似度。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 王宏钧,张惠苓,李翠荣;标引关键词[J];大连民族学院学报;2000年01期
2 刘磊;曹存根;王海涛;陈威;;一种基于“是一个”模式的下位概念获取方法[J];计算机科学;2006年09期
3 彭京;杨冬青;唐世渭;付艳;蒋汉奎;;一种基于语义内积空间模型的文本聚类算法[J];计算机学报;2007年08期
4 胡宝顺;王大玲;于戈;马婷;;基于句法结构特征分析及分类技术的答案提取算法[J];计算机学报;2008年04期
5 周昭涛,卜东波,程学旗;文本的图表示初探[J];中文信息学报;2005年02期
6 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
7 俞士汶;;建设综合型语言知识库的理念与成果的价值[J];中文信息学报;2007年06期
8 罗式胜;科学文献关键词链的概念──一种统计分析方法[J];情报学报;1994年02期
9 余俊英;王明文;盛俊;;文本分类中的类别信息特征选择方法[J];山东大学学报(理学版);2006年03期
10 陈淑珍;Web文本挖掘中的特征表示与特征提取技术[J];三明高等专科学校学报;2004年02期
中国博士学位论文全文数据库 前1条
1 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前2条
1 陈冬;基于词汇集聚的网络文本相关度计算[D];哈尔滨工业大学;2007年
2 罗克刚;基于自组织映射的文本聚类研究[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 魏长宏;赵宇;;《金山词霸2006》屏幕取词问题研究[J];鞍山师范学院学报;2007年04期
2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
3 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
4 李智;;义素分析法与词典释义[J];北方论丛;2007年02期
5 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
6 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
7 吕琳,周世斌,刘玉树;一种高性能英文词性标注器的设计与实现[J];北京理工大学学报;2005年10期
8 吕琳;刘玉树;;最大熵和Brill方法结合识别英语BaseNPs[J];北京理工大学学报;2006年06期
9 张政;王贵明;;论机器翻译系统的评价体系[J];北京理工大学学报(社会科学版);2008年02期
10 周玉珊;;浅议中文信息处理技术在外汉语教学中的运用[J];北方文学(下半月);2011年11期
中国重要会议论文全文数据库 前10条
1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
2 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 徐海;;英、汉分类词典编纂刍议[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 殷业;王清;李夏;;基于Globish的受限域英汉机器翻译系统研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
10 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
6 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
7 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
8 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
9 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
10 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
3 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
4 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
5 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
6 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
7 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
8 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
9 刘金盼;新闻语料库中基于概念网络的词语相关度计算[D];华东师范大学;2011年
10 杜海波;本体在医疗信息检索系统中的应用研究[D];长春工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
2 常宝宝;;基于语料库的双语词典编纂平台的构建[J];辞书研究;2006年03期
3 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 吴云芳;HPSG理论简介[J];当代语言学;2003年03期
6 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
7 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
8 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
9 王莉,王正欧;TGSOM:一种用于数据聚类的动态自组织映射神经网络[J];电子与信息学报;2003年03期
10 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
中国硕士学位论文全文数据库 前1条
1 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 张欣欣,薛冰冰;基于数据挖掘技术的BBS的安全管理[J];洛阳工业高等专科学校学报;2003年04期
2 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期
3 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期
4 赵春红;刘国华;王柠;何玲玲;;外包数据库模型中文本数据的完整性检测方案[J];小型微型计算机系统;2010年09期
5 仲志平;刘渝妍;翟从鸿;;基于BWC的XML文本数据索引技术[J];安徽师范大学学报(自然科学版);2011年03期
6 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
7 杜德生;田小军;;Lucene应用中Pdf文档文本数据提取方法研究[J];自动化技术与应用;2009年03期
8 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
9 孙开放;使用通信控件实现字节通信方式[J];微计算机信息;2002年03期
10 薛冰冰,普杰信;数据挖掘技术及其在电子邮件中的应用[J];信息技术;2003年07期
中国重要会议论文全文数据库 前10条
1 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
4 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
7 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
8 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 张丹;王静;;水利系统档案馆信息化管理[A];第十届中国科协年会文化强省战略与科技支撑论坛文集[C];2008年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
4 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
5 王;汇总通话、加速Web显示[N];中国计算机报;2001年
6 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
7 苏和;电子检务该如何推行[N];检察日报;2007年
8 ;BI的新方向[N];网络世界;2007年
9 金翔 王钰;全国文物普查通过验收[N];广元日报;2010年
10 杨前有;柞水建成土地利用现状数据库[N];商洛日报;2007年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
3 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
4 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
5 崔安颀;微博热点事件的公众情感分析研究[D];清华大学;2013年
6 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
7 卢敏;具有自然分组特性文本的分类研究[D];南开大学;2013年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 布凡;文本信息度量研究[D];清华大学;2013年
10 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 朱敏;基于丰心工学的情感信息可视化与充实度分析[D];北京邮电大学;2011年
2 徐淑坦;基于改进RBF神经网络的文本情感分类研究[D];吉林大学;2011年
3 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
4 李正林;中文文本数据分类研究[D];上海师范大学;2004年
5 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
6 陈鸿;Web网页的时态文本索引研究[D];中国科学技术大学;2011年
7 暴自强;结合LSA的文本谱聚类算法研究[D];重庆大学;2010年
8 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
9 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年
10 暴艳;多领域的文本情感倾向分类方法研究[D];山西大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026