收藏本站
《中国中医科学院》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的中医文献诊疗信息的智能检索示范研究

王静  
【摘要】:现代中医临床诊疗研究开始重视从以往的研究和治疗经验得到论证和指导,期刊文献更新快,文献数量大,论文内容具有较高的学术价值、比较注意新的趋势和发展等优点,因此,对中医临床文献进行有效的检索至关重要。本研究旨在设计一个基于中医文献信息本体的智能检索模型,能够借助当前最新的语义网知识进行本体层次的设计和本体概念的研究,从而使检索模型具备基本的推理能力,提高查全率和查准率,能将输出结果按照相关性排序并进行统计,从检索到的批量文献中总结、发现和掌握所查专题内容的整体发展状况和遣方用药规律。 1.研究背景 现有的中医文献数据库大多是针对文献外部特征信息建立的,中医临床研究人员很难从检索到的批量文献中掌握所查专题内容的整体发展状况。传统的检索方式主要通过关键词、关键词串或者主题词来进行全文检索,用户很难表达其真正的检索意图,也很难从检索结果提供的大量文献中提取共性的规律。由于检索过程机械,不理解语义。导致一方面,检索结果中包含大量无关信息,另一方面,很多与关键词同义的信息却没能检索出来。其次,大量同领域或者相关领域的数据存储库往往使用不同的标识制度,不兼容的术语和不同的数据格式。目前中医药信息主要以自然描述为主,缺乏知识层次的科学表达,没有统一的术语定义,给数据的集成和共享造成了一定的困难。 2.研究内容 本研究以中医临床文献中的诊疗研究内容为对象,利用本体建设来实现中医文献信息的智能检索。本研究的研究过程主要包括确定研究目标、需求调研、数据采集、数据处理、建立本体、智能检索模型的设计和相关性排序算法、中医临床文献的智能检索模型、系统检索测试等八个部分。 2.1确定研究目标 本研究根据中医医生在临床实际研究中对于文献中所涉及的内容的检索需求,通过部分中医临床文献内容的语义分析和本体建设,实现基于中医临床文献信息的中医智能检索,提高查全率、查准率和输出结果相关性排序。能将输出结果按照相关性排序并进行统计,从检索到的批量文献中总结、发现和掌握所查专题内容的整体发展状况和遣方用药规律。 2.2需求调查 2.2.1对中医临床文献内容的调研 为了基本了解中医临床文献内部诊疗信息中各项信息出现频率以及之间的关系。总结文献中可以为中医临床诊疗研究提供的检索服务的支撑信息。选取中医核心期刊排名前几名的期刊,对其所刊登的2006-2007年度的关于中医临床诊疗研究的文献进行文献诊疗过程中理、法、方、药等信息记录的调研,发现临床作者诊疗研究的各种具体方向,并抽样调查部分文献中体现的具体数据需求。 2.2.2对中医临床医生和科研人员检索需求的调研 为了真正实现基于中医临床文献提供临床诊疗研究需求的检索服务,以调查问卷的形式进行小规模的调查,调查对象为三级甲等医院中的初、中、高级临床医师,共回收有效问卷200份。总结中医临床医生在诊疗研究过程中对文献信息检索的具体需求。经统计分析后,认为临床医师的检索需求重点停留在病、证、症及方剂和针灸疗法上,并且总结确定了一些常用检索式。 2.3数据采集 本研究的目的是实现中医临床文献信息的智能检索,而智能检索之前必须先确定用户的检索需求和检索的方式、对象,建立检索对象的本体,确定各个体之间的语义关联关系。资源库是检索的最基础的设施,是实现智能检索的最基本的保障,要保证资源库中有充足的可供检索的信息。 2.3.1资源库 本研究选择了中国中医科学院中医药信息研究所研制的中医疾病临床研究数据库和中药药理实验数据库。 2.3.2年代 由于资源库中共收录1988年至今的中医临床文献二十七万余篇,数据量庞大,选择基本已经加工完成且年代相对靠近的2005-2007年发表于期刊中的中医临床文献中所涉及的诊疗内容。 2.3.3原则 临床文献篇数比较多的疾病。所研究的对象一定要有一定的文献量,能展现所选年度内的临床研究热点和多发疾病的诊疗情况。 2.3.4内容 选取诊疗研究过程中涉及的疾病、证候、症状、治则、方剂、中药、穴位、药理分类等内容。 2.4数据处理 本研究将实施的本体建设和智能检索将基于已有的资源库进行,因此要对资源库中的数据进行数据清洗和规范整理。 2.4.1参考标准 数据处理必须遵循一定的原则,本研究选取美国国立医学图书馆研制的Mesh主题词表和中国中医研究院中医药信息研究所编制的中医药学主题词表为最基本的词表,并选取部分国标、《中华人民共和国药典》、《中药大辞典》等等作为词表的补充。 2.4.2规范流程 首先将各字段内容与标准词表中的正名进行匹配,匹配失败的词语与异名进行匹配,仍然无法与异名匹配的词语将纳入相似度计算范围,与词表中的正异名分别用Jaccard公式进行相似度计算。根据计算结果,结合人为分析,进行初步的词语规范。由于各字段的采集状况不同,人为参与的程度和难度也不同,其中疾病、中药、腧穴、方剂相对规整,人为参与较少,而证候、症状、治则的规范过程相对复杂,主观判断较多。 2.5建立本体 本研究进行的本体建设主要是针对文献内部内容的实际关联来人工进行的,尊重临床研究的真实内容,并不像以往本体按照教科书和词典来导入建立。 2.5.1确定各个概念间关系属性 2.5.2确定具体概念之间的一一关联 由于所选取的数据存在于不同的数据库表单中,而资源库表结构复杂,共有二十八张表相互关联,要确定两个字段之间一一对应的关系,需要分次进行匹配,逐一确定。 2.5.3建立各表单的关系属性和数据属性 2.5.4建立各实体的本体,逐一添加语义关联的具体实体 选择由美国Stanford大学开发的本体编辑器Prot ege,本研究使用的是Prot ege4.1版本。 2.6智能检索模型的设计和相关性排序算法 2.6.1智能检索模型 2.6.1.1前端系统 1)检索页面:提供检索入口,分为简单检索和高级检索。高级检索选择相应入口后分别填入对应的关键词,并可进行自然语言检索。 2)结果页面:展示结果,并对可统计结果进行频次统计。 2.6.1.2用户意图分析系统 1)自然语言分词:借助本体库中的概念以及正异名词表对用户输入的检索词和自然查询语句进行预处理,以保证检索的概念和组合概念的准确性。 2)基于本体创建的索引库:将本体的三元组(主谓宾)建立索引,然后依据分词结果,匹配获取用户关键词对应的本体,将其转化为spar ql语句。 2.6.1.3语义查询系统 是整个系统的核心,利用本体服务器中概念和概念之间的语义关系,协助查询扩展与查询语义向量等关键模块的实施。Cart Query:接收spar ql语句,并使用本体和本体数据库映射文件,将spar ql转化为sql。Dart Mapping:在本体和数据库间建立映射关系,并生成映射文件,以便Dart Query使用。 2.6.1.4日志系统 日志记录:记录用户的行为日志,如检索关键词、检索结果等。日志分析:对日志进行分析、挖掘,提供如检索时的智能提示、用户推荐等等功能。 2.6.1.5后台数据库:导航信息数据库,信息资源数据库,系统相关数据。 2.6.1.6结果优化模块:对检索结果进行相关性排序,将最符合检索条件的结果放在最前面。因此相似度算法尤其重要。 2.6.2相关性排序算法 与以往的本体相似度计算方式不同,本研究不仅仅从语义关系上考虑本体相似度,因为领域本体的建设并不稳定和完善,给语义相似度计算造成了很大的困难,很难得到行业认可。本研究考虑的输出结果排序主要从两个方面考虑: ·用户查询语言和本体本身的相似度 ·用户查询的词语所对应的本体在文献中的重要性 最终结合两者的计算结果来确定最后的相似度排序。 用户查询词语类似于文本对象。因此在相似度计算上选择了文本相似度算法中的夹角余弦算法 除了基本的文本相似度外,还需要评估用户的查询词语对于一个本体文档的重要程度。一般而言,词语的重要性随着它在一篇文献或者一个检索主题中出现的次数成正比增加,但同时会随着它在整个资源库中出现的次数成反比下降。 因此对于查询匹配度的计算,我们将主要采用TF/IDF方法。 最终的检索结果排序公式参考两个计算结果获得,表达为: SIM=d*Sim+(1-d)/mat(O,t) 其中,Sim计算的是用户查询语言和本体本身的相似度,mat(O,t)计算本体和查询关键字的匹配程度。d为权重因子。这里d暂时先设为0.7,以后可以经过测试不断调整和优化。 2.7中医临床文献的智能检索模型 该模型基于中医临床文献知识体系,引入了本体语义概念,遵循了建立中医药临床文献本体体系开展相关服务的思想。可以实现以下功能: 2.7.1关键词检索 在检索界面检索可以检的内容可以是:疾病、证候、症状、治则、方剂、单味药、腧穴等。 2.7.2导航检索 检索界面左边的导航列里有疾病等的分类导航,用户可以在导航里寻找自己所要查找的项目信息。 2.7.3高级检索 2.7.3.1检索词高级检索 布尔逻辑可以进行是、或、非的检索,用以扩大和缩小检索结果。 截词检索可以进行后截、前截、中截三种类型的检索。 2.7.3.2检索框下拉提示 当输入关键词时,检索框会展开下拉的提示框,向用户展示与所输入的关键词最接近的准确查询词。 2.7.3.3自然语句检索 由于采取了本体库为基础的语义分析,基于概念进行检索。例如,当输入“心绞痛的针灸疗法”,分词工具会将这句话切分成“心绞痛”、“针灸疗法”、“的”,系统会根据常用词表去掉“的”这个助词,然后根据语义关系将“针灸疗法”关联到“腧穴”,根据“被影响”关系,提取心绞痛相关的腧穴内容。 2.7.4专业答疑 可以向管理人员进行提问,管理人员对用户的问题进行答复时,答案会自动发送到用户的邮箱。 2.7.5用户日志 可以记录并向用户展示历次查询过的问题。通过对用户的不断了解、分析,使得个性化检索更符合每个用户的需求。 2.7.6检索结果按照相关性排序 用户可以根据对文献的需求选择按照相关性或者是文献发表日期来排序。 2.7.7统计功能 直接提供所检索文献内容的直观统计信息。 2.8系统测试结果 以“心绞痛的针灸疗法”为例进行检索,检出文献22篇。表明智能检索模型具备按照语义关系进行自然语言检索的功能。以检索“血瘀证”的相关文献为例,传统的检索方式会返回文献828篇,而本研究的智能检索系统为1313篇。智能检索比传统检索多查找出485篇文献,比原检索结果多出59%差别及其明显,证明此智能检索模型能很好的提高检索结果的查全率。由于采用知识(概念)检索技术,明确和缩小了检索范围,减少对无用信息范围的检索,提高了查准率。本研究的智能检索系统结合用户查询语言与本体本身的相似度和用户查询的词语所对应的本体在文献中的重要性两种算法,基于语义关联,可以实现按照检索条件相关性排序,也可以按照文献发表年代排序。因此,本研究已经基本可以达到提高中医临床文献检索服务的查全率、查准率和按照结果相关性排序的设想。 3小结 本文的贡献和创新主要有以下几个方面: ·该研究引入语义网技术,在关系数据库的上层建立本体的数据模型,并据此建立智能检索模型,对同领域异质异构数据库的资源共享提供了可参考的思路和方法,提高了检索服务的查全率、查准率。 ·提出了两种算法相结合的查询结果排序算法公式,可以更准确,更贴切实际的对检索结果进行相关性排序。 ·中医文献信息元数据规范研究。制定相应的核心元数据规范方法及其扩展原则,以规范中医文献信息的描述,指导相关信息数据库的建立。 ·中医临床文献本体概念体系研究。利用文献信息中的理、法、方、药信息的本体,建立中医临床文献信息概念体系,确定概念的属性和各概念之间的语义关系。为中医文献信息和知识的组织以及基于中医文献信息和知识的智能检索提供先决条件。且检索结果可以进行统计,使得用户可以越过庞大的文献浏览,直接掌握检索主题的文献概况。 4.展望 4.1中医证候、症状、治则、中药等信息的标准化工作需要大力投入。 4.2中医诊疗本体的建立需要大量的人力投入。prot ege适合小样本的或者框架表格式的本体建设,中医诊疗本体的细化建设应该考虑可以批量导入式的本体建立工具。本研究进行了更细致的本体建设,可以更直接、快速的提取检索的相关项,据此建立的智能检索模型,还需要更多的测试来证明此项工作的意义和作用。 4.3中医临床医生的参考指导作用 基于对中医医生临床诊疗研究对文献信息的实际需求而设计的智能检索模型,更符合临床医生的检索需求,能更全面的展现文献的内部信息,能够更直接、更贴切的满足临床中医医生对文献所包含信息的获取需求。 4.4希望通过本研究的研究,可以建立一套对中医临床文献进行结构化和关系化建设的合理研究的方法或者操作流程;可以为以后数据库的建立和数据采集加工提供相对标准的操作流程参考。 5结语 中医药信息服务和知识服务,开始重视针对用户的实际需求来完善信息提供方式和方法。由本体概念的引入,使得中医信息检索服务更加快速、准确、全面。同时可以解决由于不同系统或者本领域内不同结构数据库难以共享资源等问题,可以实现理论上的数据资源共享。
【学位授予单位】:中国中医科学院
【学位级别】:博士
【学位授予年份】:2012
【分类号】:R2-03

【相似文献】
中国期刊全文数据库 前10条
1 庞振民;崔素霞;;儿茶的临床应用[J];内蒙古中医药;1993年03期
2 何铭;L型细菌研究文献综述[J];江苏预防医学;1994年01期
3 ;口腔内科学[J];国外科技资料目录(医药卫生);1998年08期
4 李静!610041成都,王家良!610041成都;系统评价的方法与评价原则[J];中华医学杂志;2001年01期
5 陈新政 ,赵润栓;慢性肾功能衰竭的中医药治疗进展[J];国医论坛;2002年06期
6 林果为,蔡端;临床科研的选题、设计和论文的撰写(2)[J];外科理论与实践;2002年06期
7 陶灵霞;;中医药对损伤胃粘膜保护作用的研究近况[J];国医论坛;2006年01期
8 李晋宏;;冠心病的中医治疗近况[J];内蒙古中医药;2006年03期
9 高慧;李巧芬;;雷公藤制剂致性腺损害的研究进展[J];国医论坛;2007年01期
10 龙田;刘磊;;免疫性不孕中医治疗进展[J];山东中医杂志;2008年05期
中国重要会议论文全文数据库 前10条
1 沈裕琥;王海庆;黄相国;葛菊梅;张怀刚;;作物品种间遗传多样性的研究进展[A];21世纪作物科技与生产发展学术讨论会论文集[C];2002年
2 陈生;;国外人格障碍的心理治疗研究现状及评析[A];第十二届全国心理学学术大会论文摘要集[C];2009年
3 武立东;黄海昕;;企业集团子公司的主导行为研究:理论分析[A];第四届(2009)中国管理学年会——组织与战略分会场论文集[C];2009年
4 王毓洲;黄席珍;王菁;肖高辉;罗英;武永吉;;术治疗阻塞性睡眠呼吸暂停综合征文献综述及Meta分析[A];中国睡眠研究会第二届学术年会论著汇编[C];2001年
5 谢纲;曾建国;;莲子心的主要成分和药理作用研究进展[A];2007年中华中医药学会第八届中药鉴定学术研讨会、2007年中国中西医结合学会中药专业委员会全国中药学术研讨会论文集[C];2007年
6 倪琳;;延安《解放日报》改版研究文献综述与分析[A];中国传媒大学第三届全国新闻学与传播学博士生学术研讨会论文集[C];2009年
7 蓝海林;杨京京;;从企业战略的“制度基础观”看中国市场分割——文献综述和未来研究方向[A];第四届(2009)中国管理学年会——组织与战略分会场论文集[C];2009年
8 李成仁;肖岚;李红丽;李泽桂;姚忠祥;刘运来;秦茂林;;在医学本科生中开展知识论坛的实践[A];中国解剖学会第十一届全国组织学与胚胎学青年学术研讨会论文汇编[C];2009年
9 姚志荣;陈洁;鲁智勇;庄寅;姜嫒芳;郭一峰;;国内首报无皮疹型Stevens-Johnson综合征4例并文献综述[A];中华医学会第十二次全国皮肤性病学术会议论文集[C];2006年
10 康雄华;张安录;王世新;;农地内部流转市场研究文献综述[A];土地利用的城乡统筹和区域统筹——2007中国科协年会8.3分会场论文集[C];2007年
中国重要报纸全文数据库 前10条
1 普瑜斌;文献综述写作[N];中国中医药报;2000年
2 上海财经大学金融学院 陈旭;A、B股市场一定要合并吗?[N];人民日报海外版;2001年
3 罗梁波 《甘肃行政学院学报》常务副主编;学术之伤,文章之痛,期刊之痒[N];中国社会科学报;2011年
4 本报记者 郭扶庚通讯员 胥丹丹 杨旎;怎样写好学位论文[N];光明日报;2007年
5 谢世平 潘万旗 梁慕华;艾滋病基本证型主要有六种[N];中国中医药报;2006年
6 李典云;治支气管哮喘中药方[N];上海中医药报;2005年
7 董飞侠;就地取材 乡医写论文也潇洒[N];医药经济报;2006年
8 周吉人;农村金融改革要有些金融功能观点[N];中国经济导报;2007年
9 林艺;锦州石化构建自主知识产权保护平台[N];中国石油报;2007年
10 平安证券首席经济学家 巴曙松朱元倩 顾媞;股改后A+H股价差的实证研究[N];上海证券报;2007年
中国博士学位论文全文数据库 前10条
1 王静;基于本体的中医文献诊疗信息的智能检索示范研究[D];中国中医科学院;2012年
2 李冠宇;基于智能体和本体的语义数据集成研究[D];大连理工大学;2010年
3 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
4 陈明芳;英语博士学位论文文献综述中的转述[D];厦门大学;2006年
5 刘勇;基于本体的家电领域功能知识表达研究[D];中国海洋大学;2011年
6 沈瑾;基于本体的产品延伸服务建模与配置研究[D];上海交通大学;2012年
7 李园白;中医医案文献特殊性评价方法研究[D];中国中医科学院;2010年
8 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
9 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
10 王宇华;基于本体的流程类业务需求建模方法研究[D];哈尔滨工程大学;2011年
中国硕士学位论文全文数据库 前10条
1 周娟;基于本体的工程预算管理系统的研究与实现[D];成都理工大学;2010年
2 万慕晨;基于本体的数字化备课资源知识组织个案研究[D];西南大学;2011年
3 毛鑫;基于本体的语义信息集成与知识发现研究[D];华北电力大学(北京);2010年
4 叶密;基于地理本体的信息检索[D];安徽大学;2010年
5 赵天行;基于本体的应急救援系统研究[D];重庆大学;2010年
6 周艳;基于本体的信息检索的研究与应用[D];电子科技大学;2010年
7 付斐;基于本体的数据集成及其应用[D];河北科技大学;2010年
8 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
9 邵彬;基于本体的海事事故判定系统的设计与实现[D];大连海事大学;2010年
10 侯滇滇;基于本体的服务解决方案专家系统[D];武汉理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026