收藏本站
《大连理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

文本资源的知识抽取研究

孔胜  
【摘要】: 随着信息技术的广泛应用以及互联网的广泛发展,信息资源正爆炸性地增长。其中,80%的信息资源是以自然语言描述的文本形式存在,如何在海量的文本数据中获取最有效的知识,如何解决信息泛滥和知识贫乏的矛盾,是知识抽取研究的目标,而自然语言处理是解决这一问题的关键技术。 首先,本文给出了文本资源的知识抽取这一课题提出的背景和国内外研究现状。明确了研究对象是非结构化的自由文本,研究目标是从非结构化的自由文本中抽取知识,涉及了自然语言处理和文本挖掘等领域的相关技术。并概括和分析了国内外一些文本知识抽取的相关系统,和此领域的研究历史和发展趋势。其次,总结了文本知识抽取方面涉及的关键技术,包括自然语言处理、中文分词、相似度算法和常用的语义词典。从理论上提供了本文针对研究对象实现研究目标的理论基础。在此基础之上,提出了文本知识抽取模型,包括定义文本知识的概念,分析文本的物理结构和逻辑结构,介绍Web文本转变为普通文本的方法,实现文本知识的关键词抽取和主题句抽取。关键词通过文本预处理、词语过滤、统计词频、短语合并、同现分析、特征值计算六步实现抽取目标;而主题句采用了“先分割,后抽取”的思想,通过TextTiling技术将文本分割成为一定数量的主题包,然后在每个主题包内通过句子关系图抽取主题句,即抽取主题包内覆盖最广,最能代表作者思想的句子作为主题句。最后,设计并实现了一个基于NLP的文本资源知识抽取系统,然后选用公开的语料库进行了实验验证前述模型的有效性,并深入分析了实验结果。 本文旨在建立一个文本资源的文本知识抽取系统。针对文本资源尝试用NLP(自然语言处理)技术,在经过中文分词、词性标注、相似度计算等过程后,从文本资源的语段中抽取关键词和主题句作为文本知识,然后把用自然语言描述的文本知识通过统一存入知识库中,一方面促进对文本的理解,另一方面使知识服务、知识推理和知识创新成为可能。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
2 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
3 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
4 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
5 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
6 郭忠伟,周献中,黄志同;作战文书自动生成系统中内容规划的设计[J];火力与指挥控制;2002年04期
7 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
8 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
9 毛文吉,陆汝钤;基于SELD描述语言的英文科技文本知识自动获取[J];计算机学报;1998年S1期
10 苏牧,肖人彬;基于语句聚类识别的知识动态提取方法研究[J];计算机学报;2001年05期
中国博士学位论文全文数据库 前2条
1 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
2 王菁华;文本中知识的获取[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘冬明;汉英双语平行语料库中对齐方法的研究[D];山西大学;2004年
2 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
3 李晶;基于网络抱团发现的命名实体关系抽取[D];华中师范大学;2006年
4 李立燕;中文科技文献自动摘要系统[D];电子科技大学;2006年
5 刘小宇;基于语义理解的中文常问问答系统的研究[D];大连理工大学;2006年
6 张小鹏;汉语特定领域本体的自动构造研究[D];华中师范大学;2007年
7 杨晖;基于标签分类内容共享平台的网页自动文摘模型[D];重庆大学;2007年
8 南铉国;基于语句相似度计算的主观题自动评分技术研究[D];延边大学;2007年
9 林丽;基于语义距离的文本聚类算法研究[D];厦门大学;2007年
10 何元娇;基于本体的语义文本分类研究[D];北京化工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 云晓燕;王春英;;基于最大树法的多文档文摘子主题划分[J];辽宁科技大学学报;2009年06期
2 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
3 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
4 王逢鑫;论象声词——英汉象声词语义比较[J];北京大学学报(英语语言文学专刊);1992年02期
5 王逢鑫;论感叹词——英汉感叹词语义比较[J];北京大学学报(外国语言文学专刊);1999年S1期
6 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
7 吴娜炯;;格语法在主观题自动阅卷中的应用[J];办公自动化;2010年08期
8 程勇,吴玺宏,迟惠生;汉语韵律边界定位与选音算法研究[J];北京大学学报(自然科学版);2004年03期
9 陈树年;刘惠敏;;从网络信息组织看《中国分类主题词表》[J];国家图书馆学刊;2006年02期
10 庞倩超;王晏民;;基于粗糙集的数据挖掘[J];北京建筑工程学院学报;2005年04期
中国重要会议论文全文数据库 前10条
1 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 哈斯那顺乌日图;;蒙古文WordNet名词同义词集合构建算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 田亮;黄辉;周沁;;面向短语的词语对齐方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 徐文堪;;信息革命时代的语言理论和词典编纂[A];中国辞书论集2000[C];2000年
5 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
6 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 俞士汶;朱学锋;段慧明;张化瑞;;以词义为主轴的综合型语言知识库[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 常宝宝;肖华云;;面向语言学家和词典编纂专家的汉英双语语料库检索系统[A];2004年辞书与数字化研讨会论文集[C];2004年
10 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
3 曾茂林;富有生命力的教育理论创生机理研究[D];东北师范大学;2010年
4 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
5 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
6 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
7 邱楷;我国地方大学科技创新团队激励机制研究[D];华中科技大学;2011年
8 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
9 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
10 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
3 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
6 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
7 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
8 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
9 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
10 黄立雄;数字出版产业链整合研究[D];湘潭大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 李颖新,刘全金,阮晓钢;多发性骨髓瘤基因表达谱分析[J];北京工业大学学报;2004年03期
3 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
6 钟义信;;人工智能理论:从分立到统一的奥秘[J];北京邮电大学学报;2006年03期
7 钟义信;;论“信息-知识-智能转换规律”[J];北京邮电大学学报;2007年01期
8 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
9 朱靖波,王宝库,姚天顺;一种规则描述语言NPRDL语言[J];东北大学学报;1996年06期
10 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
中国重要会议论文全文数据库 前6条
1 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 余晓峰;刘鹏远;赵铁军;;一种基于《知网》的汉语词语词义消歧方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 张宇;刘挺;高立琦;车万翔;朱传靖;;基于常问问题集的在线客服实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前4条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 顾芳;多学科领域本体设计方法的研究[D];中国科学院研究生院(计算技术研究所);2004年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
4 田永鸿;基于上下文的统计关系学习研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前8条
1 詹思瑜;自然语言的计算机处理模型[D];电子科技大学;2003年
2 张滨;中文文档分类技术研究[D];武汉大学;2004年
3 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
4 衣英楠;数字文档管理系统中知识检索的研究[D];山东大学;2005年
5 王曙光;基于蚁群的文本聚类算法的改进研究[D];大连理工大学;2006年
6 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
7 刘小宇;基于语义理解的中文常问问答系统的研究[D];大连理工大学;2006年
8 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 化柏林;;国内外知识抽取研究进展综述[J];情报杂志;2008年02期
2 化柏林;;知识抽取中的停用词处理技术[J];现代图书情报技术;2007年08期
3 饶弋宁;刘强;杜晓黎;叶蓬;;支持智能搜索的自扩展知识库模型的研究和设计[J];计算机应用研究;2006年06期
4 李芳,盛焕烨;双语词汇自动获取系统[J];上海交通大学学报;2001年09期
5 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
6 詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期
7 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
8 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期
9 刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期
10 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 湖南省长沙铁路第一中学 黄福清;“多元解读”莫遭到误读[N];中国教育报;2006年
7 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
8 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
9 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
10 ;开天辟地第一回[N];计算机世界;2002年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
4 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
5 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
6 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
9 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
10 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
2 杨艳;一种非结构化数据中医知识抽取与关联的方法[D];浙江大学;2010年
3 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
4 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
5 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
6 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
7 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
8 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
9 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
10 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026