收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

自然语言处理在药物专利检索系统中的应用

程晓静  
【摘要】:随着计算机应用的日益普遍,人工智能的迅猛发展,计算机在化学领域的应用也愈来愈受到普遍的关注。特别是在有机化学人工智能方面,出现了日益繁多的有关物质分子结构信息处理的专家系统。物质分子结构的计算机处理,需要一种化学家和计算机都能接受的表达形式来表示分子结构,且要求一种分子只能有唯一的一种结构代码表示。在药物专利中,族性结构是通过结构图形与可变部分的文本描述相结合来表达的,计算机本身无法识别自然语言文字。因此,将专利摘要中的文本部分自动的转化为分子结构代码,对于计算机结构信息检索和匹配具有重要的意义。 本论文采用自然语言处理技术(Natural Language Processing),将药物专利摘要中对族性结构的可变部分进行描述的文本部分,半自动的翻译成规范的、唯一的、能够被计算机识别的代码。并结合输入到计算机中的专利结构图形,生成一个描述族性结构的紧缩拓扑关联表(GSCCT表),以便进行药物专利的结构匹配检索。机器翻译系统基于面向对象技术(OOT),通过句法、语法分析,建立语言模型。并结合机器翻译的需要,提出了新的汉语自动分词算法(MM),使词典库结构简化,极大的提高了机器翻译的准确性和速度。同时,词典库是开放式的,可以随时向库中添加新的词条,充分体现了该系统的学习能力和智能化。 本系统应用于“药物专利信息检索系统”,为进一步生成药物专利化合物结构的计算机表达、存储以及匹配所用。它大大减少人工输入表达式的工作量,并且尽可能地减少差错。 通过测试近二百篇药物专利摘要,系统性能良好,达到了预期的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 程晓静,程文堂;自然语言处理技术在药物专利检索中的应用研究(英文)[J];计算机与应用化学;2005年02期
2 舒后;何薇;齐亚莉;;文本数字水印技术研究[J];北京印刷学院学报;2006年01期
3 马汉华;邵志清;过弋;;基于认知心理学模型的自动文本摘要生成技术[J];华东理工大学学报(自然科学版);2009年06期
4 买志玉;金澎;曾赛;;基于大规模语料库的汉语词相似计算[J];中原工学院学报;2010年03期
5 宋柔,欧阳龙根,邱超捷;汉语校对系统的功能定位[J];出版与印刷;1998年03期
6 李季,迟呈英;中文问答系统的研究[J];鞍山科技大学学报;2003年06期
7 程继华;;TP TO P——从PASCAL语言到PROLOG语言的转换方法[J];河南理工大学学报(自然科学版);1989年02期
8 吕学强,王德喜;链接文法及其应用[J];辽阳石油化工高等专科学校学报;2002年04期
9 黄珏;黄志远;;基于Lucene的语段模糊匹配中文检索系统设计与实现[J];浙江理工大学学报;2009年01期
10 席素梅;高茜;徐鑫;;浅谈基于改进贝叶斯模型的词义消歧方法[J];山东轻工业学院学报;2006年03期
11 ;文本挖掘技术用于药物研究[J];广东药学院学报;2009年02期
12 马瑞民;马民艳;;基于CRFs的多策略生物医学命名实体识别[J];齐齐哈尔大学学报(自然科学版);2011年01期
13 吕婷婷;张政;;基于N-gram共现的机器翻译自动评估的研究[J];北京工商大学学报(自然科学版);2006年05期
14 邢丽莉;张兵;谢力;李玥;;Web中文文本分类在防震减灾辅助决策中的应用[J];防灾科技学院学报;2009年04期
15 马永坚,张家芸;冶金动力学预测知识系统的结构与实现[J];北京交通管理干部学院学报;2000年01期
16 张立岩;吕玲;王井阳;;基于最大熵算法的全文检索研究[J];河北科技大学学报;2009年02期
17 马瑞民;马民艳;王浩畅;;基于分类器串联融合的生物医学命名实体识别[J];大庆石油学院学报;2011年02期
18 夏火松;市场营销群体决策支持系统 模型、物理结构与特点[J];武汉科技学院学报;2000年01期
19 李志辉;周竹荣;;基于领域知网的中文智能答疑系统[J];四川理工学院学报(自然科学版);2005年04期
20 李丹;张兆信;宗占国;;利用开源的数据挖掘平台WEKA进行文本分类仿真实验[J];煤炭技术;2011年05期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
4 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
5 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
6 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
9 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
10 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
6 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
7 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
8 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
9 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
10 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978