收藏本站
《北京邮电大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

文本中知识的获取

王菁华  
【摘要】: 人类通过文字来描述世界、表达思想,文本是人类智慧传承的重要媒介。随着知识经济时代的到来,文档知识管理在学术界和企业界引起了广泛关注。但是文档知识管理系统面临着几个重要问题:如何识别文档主题,如何识别文档中心词;如何对用户所关心的内容进行个性化的关键性提示;如何精确返回用户希望得到信息。关键词获取技术和信息抽取技术是文本处理中的重要技术,可以在一定程度上解决上述问题。本文对基于语义词典的单文本关键词获取技术,信息抽取技术中的规则生成机制进行了研究,主要的研究工作和研究成果包括: 1)基于语义网络与UW-PageRank算法的词义消歧 提出了基于语义网络和UW-PageRank结合的知识词义消歧算法,能够对文档中出现的任何词语(同时包含在知识库内)进行实时消歧处理,不需要语料库,无须训练。 针对中文文本,以HowNet为语义知识库,以义原为节点,义原间的相关性为边的权重构造无向赋权网络,表达文本内容。使用UW-PageRank算法评价义原的权重,进而计算义项的权重;对每一个词语来说,权重最高的义项即为其含义。分别采用全文标注试验与SENSEVAL-3评测集对算法进行了评价。 针对英文文本,以WordNet为语义知识库,以Synset为节点,Synset间的相关性为边的权重构造无向赋权网络,表达文本内容;使用UW-PageRank算法评价Synset的权重;根据Synset的权重并结合共指词义现象、词义常用性等因素进行词义消歧。在SemCor数据集对算法进行了评测。 2)基于语义网络与UW-PageRank算法的关键词抽取 提出了基于语义网络与UW-PageRank算法的单文本关键词抽取算法。在词义消歧的基础上,文本中的所有词语都具有确定的词义,对语义网络进行剪裁,去掉词语的其他义项,此时语义网络中的节点即为该词在文本中的义项,然后使用UW-PageRank公式挖掘出重要的词义,其对应的词语即为文本关键词。 在对中英文科技论文的手工标注数据集上,与Tf方法进行比较,结果表明了算法的有效性。 3)启发式的汉语信息抽取规则生成算法——RGA-CIE 提出了一种启发式的汉语信息抽取系统的规则生成算法——RGA-CIE(RuleGeneration Algorithm for Chinese Information Extraction)。采用有监督的自底向上规则学习过程,能够根据中文的特点进行启发式的逐步泛化,同时采用Laplacian~*算子作为评价生成规则的效果。Laplacian~*算子能够很好的平抑覆盖率与准确率的矛盾;采用语义扩展进一步提高规则的覆盖效果。在自主开发的财经新闻信息抽取系统上,对RGA-CIE算法性能进行评测,生成规则的准确率为0.84,召回率为0.82,性能优于手工编制的规则。此外,将信息抽取技术应用于本体的实例获取,在北京旅游信息查询系统(Travelingin Beijing,TBJ)的领域本体构建过程中起了重要的作用。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP391.1

【引证文献】
中国博士学位论文全文数据库 前1条
1 蒋玲;面向学科的知识元标引关键技术研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前2条
1 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
2 王芙蓉;基于Web 2.0的知识管理系统研究与实现[D];上海交通大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
2 钟义信;;人工智能理论:从分立到统一的奥秘[J];北京邮电大学学报;2006年03期
3 钟义信;;论“信息-知识-智能转换规律”[J];北京邮电大学学报;2007年01期
4 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
5 钟义信;意识机:理论与模型[J];电子学报;2000年10期
6 钟义信;知识论:核心问题——信息-知识-智能的统一理论[J];电子学报;2001年04期
7 钟义信;关于“信息-知识-智能转换规律”的研究[J];电子学报;2004年04期
8 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
9 钟义信;知识论框架 通向信息-知识-智能统一的理论[J];中国工程科学;2000年09期
10 钟义信;知行学引论——信息 知识 智能的统一理论[J];中国工程科学;2004年06期
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前1条
1 衣英楠;数字文档管理系统中知识检索的研究[D];山东大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
3 王跃飞;学术期刊编辑的信息能力及其功能[J];安徽工业大学学报(社会科学版);2005年02期
4 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
5 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期
6 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
7 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期
8 李智;;义素分析法与词典释义[J];北方论丛;2007年02期
9 邰海军;杨超;孙志刚;;病态信息检测中检测强度的研究[J];兵工自动化;2008年07期
10 赵勇;刘凯;;数字挖掘方法在遥感分类中的应用研究[J];北京测绘;2009年03期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 哈斯那顺乌日图;;蒙古文WordNet名词同义词集合构建算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王菁华;刘建毅;王枞;;语义网络结构下的词义消歧[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
6 白凤双;杨尚宝;涂序彦;白龙飞;;机制主义下控制系统的拟人特性[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李蕾;许晶;龚媛;周延泉;王枞;钟义信;;基于全信息自然语言理解的语音识别后文本处理[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
8 徐海;;英、汉分类词典编纂刍议[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 徐文堪;;信息革命时代的语言理论和词典编纂[A];中国辞书论集2000[C];2000年
10 王馥芳;;数字化的在线词典趋势[A];中国辞书论集2000[C];2000年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
3 孙鹏飞;基于计算智能技术的蛋白质结构预测方法研究[D];哈尔滨工程大学;2010年
4 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
5 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
6 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
7 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
8 田精白;网络式软件非功能需求分析方法及其应用[D];武汉大学;2009年
9 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
10 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
5 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
6 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
7 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年
8 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年
9 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
10 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 黄晓斌;夏明春;;数字图书馆知识网络的结构与模式[J];国家图书馆学刊;2010年02期
3 高蝴蝶;张志林;;基于知识元的内容组织对数字出版的启示[J];北京印刷学院学报;2009年05期
4 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
5 魏顺平;;基于文献文本的概念图构建方法——以协作学习领域概念图构建为例[J];中国远程教育;2008年02期
6 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
7 李有华;李兴柱;;中小学基于电子学档的发展性评价的实施策略[J];电化教育研究;2008年02期
8 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
9 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
10 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
中国博士学位论文全文数据库 前8条
1 侯孟书;基于P2P的分布式存储及其相关技术研究[D];电子科技大学;2005年
2 肖怀志;基于本体的历史年代知识元应用研究[D];武汉大学;2005年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
5 张海峰;客户综合价值评价及客户知识管理研究[D];哈尔滨工程大学;2006年
6 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
7 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
8 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘冬明;汉英双语平行语料库中对齐方法的研究[D];山西大学;2004年
2 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
3 李晶;基于网络抱团发现的命名实体关系抽取[D];华中师范大学;2006年
4 李立燕;中文科技文献自动摘要系统[D];电子科技大学;2006年
5 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
6 刘小宇;基于语义理解的中文常问问答系统的研究[D];大连理工大学;2006年
7 成鹏;基于语义Web的知识元集成模型研究[D];西安电子科技大学;2007年
8 张小鹏;汉语特定领域本体的自动构造研究[D];华中师范大学;2007年
9 王蕾;面向电子商务的知识链管理研究[D];华中师范大学;2007年
10 李爱明;个性化搜索引擎用户模型研究[D];华中师范大学;2007年
【二级引证文献】
中国期刊全文数据库 前1条
1 冯宜;;微博在教育知识管理中的应用研究[J];现代教育技术;2013年06期
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
3 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
4 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
5 钟义信;;人工智能理论:从分立到统一的奥秘[J];北京邮电大学学报;2006年03期
6 钟义信;面向智能研究的全信息理论——纪念Shannon信息论50周年[J];北京邮电大学学报;1998年04期
7 杨晓兰,钟义信;基于文本理解的自动文摘系统研究与实现[J];电子学报;1998年07期
8 钟义信;“知识论”基础研究[J];电子学报;2001年01期
9 钟义信;知行学引论——信息 知识 智能的统一理论[J];中国工程科学;2004年06期
10 荀恩东,李生,赵铁军;基于汉语二元同现的统计词义消歧方法研究[J];高技术通讯;1998年10期
中国重要会议论文全文数据库 前1条
1 余晓峰;刘鹏远;赵铁军;;一种基于《知网》的汉语词语词义消歧方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【相似文献】
中国期刊全文数据库 前10条
1 胡蓉;词义消歧方法初探[J];洛阳工业高等专科学校学报;2005年01期
2 郭池 ,陈家骏 ,王启祥;一种基于语料库的词义消歧策略[J];计算机工程与应用;2003年35期
3 全昌勤,何婷婷,姬东鸿,刘辉;基于义类的无导词义消歧方法的研究[J];计算机应用研究;2005年04期
4 荀恩东,李生,赵铁军;基于汉语二元同现的统计词义消歧方法研究[J];高技术通讯;1998年10期
5 李生;张晶;赵铁军;姚建民;;词义消歧研究的现状与发展方向[J];计算机科学;2001年09期
6 全昌勤,何婷婷,姬东鸿,刘辉;从搭配知识获取最优种子的词义消歧方法[J];中文信息学报;2005年01期
7 李纲;寇广增;;自举在词义消歧中的应用及其关键问题[J];情报学报;2010年01期
8 陈浩;何婷婷;姬东鸿;;基于MDL聚类的无导词义消歧[J];小型微型计算机系统;2005年10期
9 张明宝;马静;;一种基于知网的中文词义消歧算法[J];计算机技术与发展;2009年02期
10 陈笑蓉;秦进;;基于最大熵原理的汉语词义消歧[J];计算机科学;2005年05期
中国重要会议论文全文数据库 前10条
1 吴崇斌;张全;;上下文边界可变的贝叶斯分类器词义消歧方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
4 余晓峰;刘鹏远;赵铁军;;一种基于《知网》的汉语词语词义消歧方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 吴云芳;温珍珊;段慧明;俞士汶;;语料库粗粒度词义标注[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 何径舟;王厚峰;;基于特征自动选取的汉语词义消歧[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 秦颖;王小捷;;组合中文词义消歧[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 于丽丽;丁德鑫;曲维光;陈小荷;石民;;基于多分类器集成的古代汉语词义消歧[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 王菁华;刘建毅;王枞;;语义网络结构下的词义消歧[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
2 涂锟;基于自然语言与记忆再重构的常识推理模型[D];华南理工大学;2010年
3 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
4 王菁华;文本中知识的获取[D];北京邮电大学;2008年
5 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
6 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
7 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
8 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
9 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
10 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 栾博;基于句法树的中文词义消歧方法研究[D];哈尔滨理工大学;2014年
2 高宁宁;基于混合特征和规则的词义消歧研究[D];吉林大学;2014年
3 史俊冰;问答系统中词义消歧与关键词扩展研究[D];太原理工大学;2011年
4 李小贻;基于语义概念的词义消歧方法[D];华中师范大学;2013年
5 詹靓雯;基于知网的中文词义消歧研究[D];中国计量学院;2012年
6 魏晓亮;概念与属性约束知识抽取及其应用研究[D];北方工业大学;2013年
7 邓宾;中文词义消岐研究[D];昆明理工大学;2009年
8 万海旭;基于WordNet的词义消歧研究[D];吉林大学;2013年
9 陈浩;基于二阶上下文的无导词义消歧研究[D];华中师范大学;2005年
10 赵文静;基于维基百科的微博文本语义概念扩展研究[D];西安电子科技大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026