收藏本站
《东北大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

主谓关系识别与主题相关性计算技术研究

杨旭  
【摘要】:近年来,随着社会的不断发展和科学技术的不断进步,信息飞速增长。信息爆炸带来了电子文档的快增长,文档的检索、分类和管理变得越来越困难。传统的文本处理技术使用两个文档的相似性去代替两个文档的主题相关性,但是很多情况下相似未必相关,相关也不一定相似。本文研究的文档主题相关性计算技术正是实现文档关系的自动判别的关键技术。 主题相关性计算,是指通过某种手段去计算给定的两个文档在内容主题上的相关程度。大量的研究表明,一个包含大量实体及其领域背景的大规模汉语领域知识库对许多技术包括相关性计算的改善都具有很重要的价值。词与词之间的关系分析是获取领域知识的重要途径。 本文首先研究的主谓关系获取技术对获取领域知识是很有帮助的。本文定义的主谓关系就是指在一个名词作为一个句子主语的前提下,另外一个动词可以同时作为这个句子的谓语动词。本文在传统的统计搭配分析技术的基础上引入了启发性规则和句法信息分析主谓关系。 主题相关性计算技术是本文研究的主要内容。本文首先把向量空间模型(VSM)应用到主题相关性计算中,使用余弦相似度计算的方法进行相关性计算。针对向量空间模型本身存在重要特征常被大量判别能力较弱的特征湮没的问题,本文使用基于tf idf阈值的关键词抽取算法对文档进行关键词抽取。为了解决不同特征之间存在的潜在匹配关系,本文引入同义词词林,计算向量的语义相似度和改进的语义相似度。最后本文引入了领域知识库,通过计算文本之间的领域分布特性,改善主题相关性计算技术。本文把主题相关性计算技术应用到广告推荐系统中进行改进对比实验,实验表明,使用领域知识库的相关性计算方法取得了显著效果。
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

免费申请
【参考文献】
中国期刊全文数据库 前10条
1 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
2 吴锐;丁树良;甘登文;;一种新的项目反应理论等值准则——余弦准则[J];江西师范大学学报(自然科学版);2008年02期
3 赵玉茗;徐志明;王晓龙;朱鲲鹏;;基于词汇集聚的文档相关性计算[J];电子与信息学报;2008年10期
4 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期
5 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
6 刘佳宾;陈超;邵正荣;吉翔华;;基于机器学习的科技文摘关键词自动提取方法[J];计算机工程与应用;2007年14期
7 贾西平;彭宏;郑启伦;石时需;;一种基于主题的概率文档相关模型[J];计算机科学;2008年10期
8 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
9 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
10 江禅志;张洪文;;基于元搜索引擎的研究[J];计算机与数字工程;2008年07期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前2条
1 刘加发;EBM网络搜索引擎的研究与实现[D];大连海事大学;2008年
2 李淑鹏;基于神经网络的文本自动分类系统的研究[D];武汉理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[J];安徽电气工程职业技术学院学报;2011年S1期
2 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
3 韩建保;罗小江;;基于数据挖掘的坦克传动装置故障征兆识别展望[J];车辆与动力技术;2005年04期
4 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
5 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
6 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
7 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
8 都云程;周伟;韩艳铧;吕学强;;基于字同现频率的关键词自动抽取[J];北京信息科技大学学报(自然科学版);2011年06期
9 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
10 熊建华;丁树良;甘登文;;对称相对熵测验等值法[J];江西师范大学学报(自然科学版);2010年02期
中国重要会议论文全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年
2 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
3 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
5 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
6 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
7 廖光忠;黄泽鑫;;基于HowNet语义算法的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
3 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
6 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
7 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
8 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
9 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
10 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 左宗乐;多移动Agent动态协作在P2P文件共享中的应用研究[D];安徽工程大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
4 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
5 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
6 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
7 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
8 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
9 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
10 宁健;面向生物医学领域的跨语言信息检索[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
2 唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究[J];吉林大学学报(信息科学版);2005年05期
3 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
4 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
5 李立耀;;基于页面链接结构Page Rank算法的改进——有向访问模型[J];福建师大福清分校学报;2006年02期
6 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
7 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
8 董晓常,王亚雪;追捧Google的理由[J];互联网周刊;2005年37期
9 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
10 朱礼军,陶兰,刘慧;领域本体中的概念相似度计算[J];华南理工大学学报(自然科学版);2004年S1期
中国博士学位论文全文数据库 前6条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
5 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
6 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
3 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
4 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
5 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
6 卢健;潜在语义分析在文本信息检索中的应用研究[D];华中科技大学;2005年
7 朱望斌;自动文本分类算法研究[D];湖南大学;2005年
8 陈宁;Lucene全文检索在网络教学平台中的应用研究[D];大连海事大学;2007年
9 陈慧芳;文本分类中特征向量空间降维方法研究[D];东南大学;2005年
10 孙春明;高性能特征选择及文本分类算法研究[D];华北电力大学(北京);2007年
【相似文献】
中国期刊全文数据库 前10条
1 王晓东;郭雷;方俊;;本体驱动的文本虚拟样本构造方法研究[J];计算机科学;2008年03期
2 莫富强;王浩;姚宏亮;俞奎;;基于领域知识的贝叶斯网络结构学习算法[J];计算机工程与应用;2008年16期
3 林晓强;常国岑;杨凡;燕海涛;;态势评估专家系统的知识库研究[J];火力与指挥控制;2008年07期
4 穆肃;;基于语义本体的远程教育领域知识特点及关系研究[J];现代远程教育研究;2010年03期
5 王海江,王波,江南;领域知识在遥感图象地类自动识别系统中的应用[J];计算机工程与应用;2001年22期
6 张丙奇;基于领域知识的个性化推荐算法研究[J];计算机工程;2005年21期
7 杨立,左春,王裕国;保险洪灾损失预测模型[J];计算机辅助设计与图形学学报;2005年11期
8 梁正友;;农务管理系统的软件体系结构研究[J];计算机工程与设计;2005年12期
9 刘震;邓苏;罗雪山;黄宏斌;;对等网环境下基于任务链的智能查询支持技术[J];计算机工程;2006年14期
10 肖洪;余锦凤;;数字图书馆领域本体构建研究——以数字参考咨询领域为例[J];大学图书馆学报;2006年06期
中国重要会议论文全文数据库 前10条
1 裴利芳;;领域知识与自我解释策略间关系的实验研究[A];第八届全国心理学学术会议文摘选集[C];1997年
2 陈战伟;李晋宏;;领域知识在知识发现过程中的使用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
3 贾玉祥;俞士汶;;基于词典的名词性隐喻识别[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 张文凌;李晋宏;;应用领域知识的数据预处理方法的研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
5 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
6 彭怡;寇纲;;基于领域知识的数据挖掘理论框架研究[A];第三届(2008)中国管理学年会论文集[C];2008年
7 刘朝阳;;领域知识和数据结合的神经网络学习方法和应用[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
8 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 黄安强;张玲玲;陈全;王晓;;用于支撑智能知识发现的领域知识的表示和提取研究[A];第四届(2009)中国管理学年会——管理科学与工程分会场论文集[C];2009年
10 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 记者 方晓静 黄官国;交流生产技术经验 增进科技领域知识[N];中国食品质量报;2005年
2 傅爱平;数字化应用系统中的领域知识[N];中国社会科学院院报;2006年
3 奚启新;新制定的《国防专利条例》公布[N];人民日报;2004年
4 中国科学院计算技术研究所 黄瑞史忠植;加强知识的共享与重用[N];计算机世界;2007年
5 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
6 邹大斌;行业应用软件开发需夯实基础[N];计算机世界;2007年
7 左春;让技术与业务对话[N];计算机世界;2007年
8 杨扬;挥洒青春为公司经营发展建功立业[N];人民邮电;2007年
9 王寅生 张孔生;今年培养技师1.8万人[N];扬州日报;2006年
10 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
3 杨立;基于领域知识的知识发现研究[D];中国科学院研究生院(软件研究所);2005年
4 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
5 张裕鼎;问题解决策略迁移研究[D];华东师范大学;2008年
6 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
7 朱正祥;领域驱动知识发现方法研究[D];大连理工大学;2010年
8 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
9 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
10 朱恒民;领域知识制导的数据挖掘技术及其在中药提取中的应用[D];南京航空航天大学;2006年
中国硕士学位论文全文数据库 前10条
1 杨旭;主谓关系识别与主题相关性计算技术研究[D];东北大学;2009年
2 苏亚萍;基于本体的领域知识建模研究[D];吉林大学;2007年
3 张诚;基于领域知识的限定域中文问答系统研究[D];上海交通大学;2010年
4 周循;基于领域知识的面向分类的属性泛化研究[D];合肥工业大学;2008年
5 马超;基于隐马尔科夫模型的足球视频典型事件检测[D];吉林大学;2005年
6 贾萌;基于领域知识的中文短信理解模型研究[D];大连理工大学;2006年
7 胡谢斐;基于多重关系领域知识的分类问题研究[D];合肥工业大学;2006年
8 朱志伟;基于有限状态机的体育视频比赛类型识别[D];吉林大学;2006年
9 莫富强;基于领域知识的贝叶斯网络学习研究[D];合肥工业大学;2008年
10 刘爱喜;基于领域知识的数据库模式匹配技术研究[D];哈尔滨工程大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026