收藏本站
《哈尔滨理工大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于中文文本分类的自动诊病系统

王丁  
【摘要】: 本文研究基于文本分类技术的自动诊病系统。已有病案记录了疾病现象与疾病种类的关系,利用机器学习方法构造分类器,可以习得疾病现象与疾病种类之间的规律性知识。当面对新的病案时,根据习得的知识,通过对疾病现象的分析,可以预测病人所患疾病的种类,从而实现自动诊病过程。 医疗部门积累的海量文本,为针对医疗领域的信息处理研究提供了宝贵的数据资源。应用自然语言处理技术对医疗领域的信息进行处理,日益成为自然语言处理的一个新兴的研究和应用热点。通过对已有电子病案的分析,可预测各种疾病的人群分布、常见特征以及发展趋向,有利于我们提高医疗水平和治疗效率。因此基于自然语言处理技术的医疗病案研究具有理论意义和实用价值。对于中文病案,实现自动诊病系统需解决组织电子病案、分词、构造分类器等几个主要问题,本文围绕这几个主要问题展开研究。 首先组织电子病案,它是对文本的采集过程。本系统采用出院病人病案为原始数据进行数据采集。电子病案因为已经包括疾病的症状、诊断和治疗情况,成为人工分类后的训练数据,即学习文本。由于学习文本的质量直接关系到系统能否实现,因此需要对其进行预处理,使病案文本以便于计算机处理的数据形式保存。为此,本文构建了病案自动生成和管理子系统确保数据的准确和高效采集,它是诊断系统的支持系统。 接下来从中文文本的自动分词入手,对电子病案进行处理。在自然语言理解当中,词是有意义的最小处理单位。把没有分割标志,也就是没有词的边界的汉字串,自动转换到符合语言实际的词串,即在书面汉语中建立词的边界,这是汉语分词的任务。汉语自动分词是任何中文自然语言处理的第一道“工序”,其作用非常重要。只有逾越这个障碍,中文处理系统才能称得上初步打上了“智能”的印记。本文介绍了目前采用的几种汉语自动分词技术,包括:最大匹配法、改进的最大匹配法、全切分法等。本系统采用分词和词性标注一体化的方法对病案进行预处理,实验表明,该方法准确率高于直接分词方法。 最终本文利用贝叶斯算法,通过对训练文本的学习,构建了一个面向医疗领域的文本分类器,从而实现了本文提出的自动诊病的目标。贝叶斯分类算法 WP=7 是现在比较流行的方法,它的分类效果比较好,简单而且高效,可以通过大规模的训练语料提高分类的质量,还可以对它进行改进。比如应用基于向量空间模型的其它方法对其结果进行修正。贝叶斯算法在概率的分布上做了假设,假设文本的所有属性值在给定类的上下文中是相互独立的。使用一个包含这些假设的具体模型,用大量标记好的文本训练,生成模型参数。测试文本的分类是选择最有可能生成该文本的类。只有以病案文本为知识源建立了知识库,按照疾病的分类进行训练,才可以构造相应的分类器,对相关的新病案进行分类而生成诊断。 本课题采用的是基于统计的信息抽取方法,可解决基于知识的专家系统中知识获取瓶颈的问题,而且知识是来源于真实病案,具有客观性好,一致性强等优点。通过试验证明,本系统具有一定实用性,可实现辅助诊病。本系统还具有较强的可移植性,可扩展到其他应用领域。将知识源扩展一下,通过对分类器的训练,经过一定的预处理,本文可以实现对其它领域的文本处理。本文的研究表明,基于文本分类的自动诊病系统具有较强的通用性,具有一定的后续开发潜力。
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP29

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 欧阳一鸣;诊断型专家系统分析[J];合肥工业大学学报(自然科学版);1999年03期
3 施鸿宝;李波;;分布式专家系统协同问解求解[J];计算机科学;1989年06期
4 刘涌泉;再读词的问题[J];中文信息学报;1988年02期
5 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
6 王永成,苏海菊,莫燕;中文词的自动办理[J];中文信息学报;1990年04期
7 徐辉,何克抗,孙波;书面汉语自动分词专家系统的实现[J];中文信息学报;1991年03期
8 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
9 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
10 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
【共引文献】
中国期刊全文数据库 前10条
1 胡全胜,徐瑞琳,钱双八,刘尚友;农业专家系统[J];安徽农业科学;1991年01期
2 潘娣;;机器翻译的利弊以及发展前景[J];安徽文学(下半月);2008年09期
3 程节华;自动分词中的歧义字段分析及处理[J];安徽农业技术师范学院学报;2000年03期
4 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
5 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
6 耿兆丰,李益明;服装款式智能CAD系统的设计与实现[J];北京服装学院学报;1992年02期
7 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
8 彭泽润;林思佳;;从两个国家标准看汉语的词[J];北华大学学报(社会科学版);2006年06期
9 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
10 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
3 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
5 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
6 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
7 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
9 韩洁;卢朝霞;;企业MIS开发方法和技术的研究[A];1998中国控制与决策学术年会论文集[C];1998年
10 江源富;黄泰翼;;一种基于词的统计属性模型的语音-文本转换方法[A];第二届全国人机语音通讯学术会议论文集[C];1992年
中国博士学位论文全文数据库 前10条
1 陶有德;可修复模型的系统分析[D];北京信息控制研究所;2010年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
5 孔令东;基于模糊Petri网的瓦斯突出空间预测模型研究[D];中国矿业大学;2011年
6 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
7 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
8 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
10 孟庆武;沉积相综合分析方法研究及软件研制[D];中国科学院软件研究所;2001年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
4 尹方园;“VA”动结式表层语义分析[D];湘潭大学;2010年
5 陈万付;商业供应链中知识重用的研究[D];合肥工业大学;2010年
6 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
7 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
8 杨红颖;基于多Agent技术的智能化网络教学系统研究与设计[D];大连海事大学;2010年
9 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
10 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
3 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
5 刘涌泉;再读词的问题[J];中文信息学报;1988年02期
6 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 黄祥喜;书面汉语自动分词的“生成——测试”方法[J];中文信息学报;1989年04期
9 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
10 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
【相似文献】
中国期刊全文数据库 前10条
1 毛布;谢汶;;一种基于贝叶斯算法的页面置换评测系统[J];四川理工学院学报(自然科学版);2010年02期
2 李星;田莹;段海新;;中文垃圾邮件过滤系统的实现和评估[J];大连理工大学学报;2005年S1期
3 宁静;;邮件内容过滤技术探讨[J];铁路计算机应用;2006年01期
4 李雯;刘培玉;;基于贝叶斯的垃圾邮件过滤算法的研究[J];计算机工程与应用;2007年23期
5 尤晶晶;;基于贝叶斯的垃圾邮件过滤优化算法[J];烟台职业学院学报;2008年02期
6 邓义剑;张小刚;;基于动态约简的贝叶斯分类器实现[J];微计算机信息;2010年15期
7 易鸿;;基于贝叶斯算法的神经网络优化方法[J];四川文理学院学报;2010年02期
8 夏超;徐德华;;一种改进的贝叶斯邮件过滤算法[J];计算机与现代化;2010年10期
9 李利杰;;智能垃圾邮件过滤系统研究与实现[J];软件导刊;2010年08期
10 汪明;张征;;SQL Server 2008 R2贝叶斯算法研究[J];河北软件职业技术学院学报;2011年03期
中国重要会议论文全文数据库 前10条
1 朱靖;莫钦华;张赪军;;分布式贝叶斯算法在无线传感器网络容错事件检测中的应用[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
2 顾蕊;;利用贝叶斯算法的目标探测前跟踪方法[A];第七届全国信息获取与处理学术会议论文集[C];2009年
3 陈娟;葛辛;罗向阳;刘粉林;;基于反向查询技术和贝叶斯算法的反垃圾邮件方案[A];2006中国控制与决策学术年会论文集[C];2006年
4 马永立;寿国础;胡怡红;钱宗珏;区海平;;新型网络流量识别分析系统及其性能评估[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
5 姚燕良;戴亚平;;数据融合实验系统的编程实现[A];2004中国控制与决策学术年会论文集[C];2004年
6 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 王天佐;胡华平;刘波;陈新;肖枫涛;;反垃圾邮件技术研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
8 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 王翌;“垃圾”成就了谁?[N];计算机世界;2004年
2 张烨;没有灵丹妙药[N];中国计算机报;2004年
3 马骏;抵御垃邮 刻不容缓[N];中国计算机报;2004年
4 中国反垃圾邮件联盟 王兴宇 叶豪;反垃圾邮件方案谁堪重任?[N];计算机世界;2004年
5 春水东流;Foxmail 5.0 抢鲜体验测试版[N];中国电脑教育报;2003年
6 万平国;给防火墙更多的智能[N];中国计算机报;2004年
7 马骏;抓住垃圾邮件的尾巴[N];中国计算机报;2004年
8 ;战胜垃圾邮件的七种武器[N];计算机世界;2005年
9 本报记者 李刚 特约作者 王兴宇;反垃圾邮件的差距[N];中国计算机报;2004年
10 范成祥;垃圾邮件出口 让中国网络蒙尘[N];河北经济日报;2004年
中国博士学位论文全文数据库 前6条
1 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
2 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年
3 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
6 江敏;贝叶斯优化算法的若干问题研究及应用[D];上海大学;2012年
中国硕士学位论文全文数据库 前10条
1 王丁;基于中文文本分类的自动诊病系统[D];哈尔滨理工大学;2003年
2 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
3 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
4 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
5 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
6 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
7 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
8 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
9 李保秀;中文文本分类技术研究[D];南昌大学;2010年
10 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026