收藏本站
《山东科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

领域文本相似度计算方法研究

罗义兵  
【摘要】:随着行业内文本数据的不断积累,如教育、财经、餐饮、旅游等领域拥有大量的doc、pdf等格式的非结构或半结构化的数据。同结构化的数据管理相比,这些非结构或半结构化的数据管理要难很多。最近几年来出现了许多面向行业领域的应用,如酷讯网的车票信息、搜房网的房产信息等,它们提供的服务方便了人们的生活,但大多数是基于领域内结构化数据的信息加工和服务,所以本文主要研究行业领域内非结构化数据文本信息处理中文本相似度计算的问题。文本相似度计算是文本信息处理的基础,可为文本聚类、文本分类、相似文本资源推荐等提供技术支持。传统的文本相似度计算是基于关键词集的向量空间模型,它仅考虑了文本中关键词的简单匹配,而没有考虑关键词的语义以及关键词之间的联系;同时它在针对领域文本相似度计算时,很少考虑文本的领域特征。 本文研究领域文本相似度计算,其研究思路就是如何从文本集中抽取领域知识以及如何利用领域知识来挖掘文本的语义特征来计算文本相似度。主要工作和贡献如下: (1)提出了一种中文未登录词检测方法。在研究未登录词特点的基础上,设计并验证了基于大规模语料集的候选未登录词统计和阈值过滤的未登录词检测方法。 (2)设计了一种领域知识获取模型。使用带有正负符号的卡方分布计算词语和领域的相关度,将相关度较大的词语加入到领域词典;利用领域词典和“是一个”上下位关系模式相结合的方式识别领域语义知识中上下位关系的词语对。 (3)提出了一种领域文本的领域特征和语义特征的抽取方法。利用领域词典抽取文本的领域特征,减少其他词语对文本主题特征的影响;同时利用上下位语义关系对领域关键词向量模型进行上位关系的词语扩展。 (4)提出了一种领域文本相似度计算方法。使用上位关系扩展的领域关键词的向量模型,定义领域文本相似度计算公式计算领域文本相似度。 实验表明针对领域文本集,基于领域知识的领域文本相似度计算方法和传统的文本相似度计算方法相比,它能够较好的抽取文本领域和语义特征,更好的衡量领域文本相似度。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

知网文化
【参考文献】
中国期刊全文数据库 前10条
1 王宏钧,张惠苓,李翠荣;标引关键词[J];大连民族学院学报;2000年01期
2 刘磊;曹存根;王海涛;陈威;;一种基于“是一个”模式的下位概念获取方法[J];计算机科学;2006年09期
3 彭京;杨冬青;唐世渭;付艳;蒋汉奎;;一种基于语义内积空间模型的文本聚类算法[J];计算机学报;2007年08期
4 胡宝顺;王大玲;于戈;马婷;;基于句法结构特征分析及分类技术的答案提取算法[J];计算机学报;2008年04期
5 周昭涛,卜东波,程学旗;文本的图表示初探[J];中文信息学报;2005年02期
6 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
7 俞士汶;;建设综合型语言知识库的理念与成果的价值[J];中文信息学报;2007年06期
8 罗式胜;科学文献关键词链的概念──一种统计分析方法[J];情报学报;1994年02期
9 余俊英;王明文;盛俊;;文本分类中的类别信息特征选择方法[J];山东大学学报(理学版);2006年03期
10 陈淑珍;Web文本挖掘中的特征表示与特征提取技术[J];三明高等专科学校学报;2004年02期
中国博士学位论文全文数据库 前1条
1 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前2条
1 陈冬;基于词汇集聚的网络文本相关度计算[D];哈尔滨工业大学;2007年
2 罗克刚;基于自组织映射的文本聚类研究[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 魏长宏;赵宇;;《金山词霸2006》屏幕取词问题研究[J];鞍山师范学院学报;2007年04期
2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
3 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
4 李智;;义素分析法与词典释义[J];北方论丛;2007年02期
5 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
6 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
7 吕琳,周世斌,刘玉树;一种高性能英文词性标注器的设计与实现[J];北京理工大学学报;2005年10期
8 吕琳;刘玉树;;最大熵和Brill方法结合识别英语BaseNPs[J];北京理工大学学报;2006年06期
9 张政;王贵明;;论机器翻译系统的评价体系[J];北京理工大学学报(社会科学版);2008年02期
10 周玉珊;;浅议中文信息处理技术在外汉语教学中的运用[J];北方文学(下半月);2011年11期
中国重要会议论文全文数据库 前10条
1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
2 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 徐海;;英、汉分类词典编纂刍议[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 殷业;王清;李夏;;基于Globish的受限域英汉机器翻译系统研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
10 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
6 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
7 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
8 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
9 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
10 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
3 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
4 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年
5 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
6 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
7 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
8 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
9 刘金盼;新闻语料库中基于概念网络的词语相关度计算[D];华东师范大学;2011年
10 杜海波;本体在医疗信息检索系统中的应用研究[D];长春工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
2 常宝宝;;基于语料库的双语词典编纂平台的构建[J];辞书研究;2006年03期
3 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 吴云芳;HPSG理论简介[J];当代语言学;2003年03期
6 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
7 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
8 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
9 王莉,王正欧;TGSOM:一种用于数据聚类的动态自组织映射神经网络[J];电子与信息学报;2003年03期
10 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
中国硕士学位论文全文数据库 前1条
1 庄世芳;一种改进的基于概念的中文WEB文本聚类算法的研究[D];福州大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 钱丽萍;汪立东;;基于中心短语及权值的相似度计算[J];郑州大学学报(理学版);2007年02期
2 郑德权;张迪;赵铁军;于浩;;Blog网页分类与识别技术研究[J];通信学报;2007年12期
3 丁振国;陈海霞;;一种基于知网的主观题阅卷算法[J];微电子学与计算机;2008年05期
4 谌志群;周其力;;基于综合语义的XML文档相似度计算方法[J];杭州电子科技大学学报;2009年03期
5 冉婕;孙瑜;;语义检索中的词语相似度计算研究[J];计算机技术与发展;2011年04期
6 丁传明;黎放;齐欢;;一种基于相似度的混合型多属性决策方法[J];系统工程与电子技术;2007年05期
7 姚全珠;孟丽;崔杜武;;基于CBR和XML的软构件检索方法[J];计算机应用;2007年07期
8 郭帆;余敏;叶继华;;一种基于分类和相似度的报警聚合方法[J];计算机应用;2007年10期
9 段寿建;杨朝凤;甘健侯;;基于领域本体的概念语义相似度和相关度综合量化研究[J];现代图书情报技术;2009年11期
10 马琳;苏一丹;莫锦萍;;协同推荐系统检测模型的一种优化方法[J];微计算机信息;2010年03期
中国重要会议论文全文数据库 前10条
1 郝长春;;用C51编程实现流量计界面的汉字显示[A];江苏省计量测试学会2005年论文集[C];2005年
2 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
3 吴继媛;孙淳;侯敏;;面向传媒语言语料库的关键词自动抽取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 于海燕;陈晓江;冯健;房鼎益;;Web文本内容过滤方法的研究[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
7 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 林道庄;郭奇;张志强;冯建华;周立柱;孙静;;基于Metasearch的面向领域的数据源发现和评价方案[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 江腾蛟;万常选;;基于答案结点的XML文档模糊检索排序模型[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 陈晓;王建民;;面向网络招聘的个性化简历推荐算法研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 安徽 高伟;拒绝“附件大小限制”[N];电脑报;2004年
2 柯文;二十步变一步怎么可能呢?[N];科技日报;2002年
3 北京 Qinter;如何修补损坏的系统文件[N];电脑报;2001年
4 PCnews;如何修补损坏的系统文件[N];江苏经济报;2002年
5 dream & zeus;给“文本域”添加外套[N];电脑报;2004年
6 新平;电脑 A B C[N];中国老年报;2001年
7 北京汉王科技公司 王晋刚;OCR技术缩影[N];中国计算机报;2000年
8 李军;MP3播放器自己做[N];中国电脑教育报;2001年
9 四川 邓兵;巧取Form表单中相同的Text值[N];电脑报;2002年
10 广东 宿海成;用Flash和Director实现简单的AI[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 程红蓉;垃圾图像特征提取与选择研究[D];电子科技大学;2011年
3 丛键;视频流分层传输与流中文本识别[D];电子科技大学;2001年
4 黄同成;基于小波神经网络理论的VOCR与HOCR技术研究[D];上海大学;2008年
5 胡伟;面向MEMS产品概念设计的多模式实例检索与评价方法研究[D];华南理工大学;2012年
6 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
7 尹华罡;基于海量时空数据的路线挖掘与检索[D];中国科学技术大学;2012年
8 安海岗;专题新闻文本集信息可视化理论模型研究[D];中国地质大学(北京);2010年
9 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
10 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
3 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
4 曾莱蓓;基于虚词变换的文本隐藏信息检测方法研究[D];湖南大学;2010年
5 陈艳;基于FPGA和DSP的文本图像采集及定位研究[D];辽宁科技大学;2012年
6 陈欣;一种基于多属性本体的概念相似度计算方法的研究[D];东北师范大学;2010年
7 李艳霞;基于概念格的K-Means算法研究及应用[D];大连海事大学;2010年
8 张添一;基于文本相似度计算的主观题自动阅卷技术研究[D];东北师范大学;2011年
9 俞云飞;多特征融合的电影相似度计算方法研究[D];华东师范大学;2012年
10 程佳;热点新闻间关系的研究[D];上海交通大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026