收藏本站
《大连理工大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

中文机构名称的自动识别

张艳丽  
【摘要】: 中文机构名称的自动识别对提高汉语自动分词的精确率有着重要的意义,也是自然语言理解、机器翻译、信息抽取和信息检索的基础。 由于机构名称和姓名同属于专名,而且两者在组成上有一定的相似性,本文首先对中文姓名和中文机构名称进行了对比研究。根据机构名称的特点,并参照中文姓名的识别系统,利用统计方法建立了机构名称特征词词典、前部词词典、单词词典、双词接续词典,综合考虑机构名称上下文以及机构名称本身的构词能力,设计并实现了以统计为主的机构名称识别系统。 由于机构名称长度的不确定性以及用词用字的复杂性,导致机构名称左边界的确定是识别的难点,因而本文根据对汉语语法知识以及实际语料的分析,对机构名称前词进行了研究和分类,总结了有效的规则,以进一步提高机构名称左边界识别的正确率。 通过对实际语料的测试,该模型闭式精确率和召回率分别达94.17%和91.50%,开式精确率和召回率分别达92.40%和86.48%。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP391.12

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 肖洪;薛德军;;基于大规模真实文本的数值知识元挖掘研究[J];计算机工程与应用;2008年30期
【参考文献】
中国期刊全文数据库 前10条
1 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
2 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
3 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
4 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
5 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
6 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
7 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
8 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
9 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
10 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
中国重要会议论文全文数据库 前1条
1 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【共引文献】
中国期刊全文数据库 前10条
1 邱庆山;;现代汉语词汇体系研究综述[J];安庆师范学院学报(社会科学版);2008年10期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
4 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
7 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
8 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
9 宋玲艳;现代汉语新词语浅论[J];北京印刷学院学报;2005年01期
10 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
中国重要会议论文全文数据库 前10条
1 ;Foreign Person Name Recognition in Chinese Texts[A];Proceedings of the second Asia-Pacific International Conference on Computational Methods in Engineering(ICOME2006)[C];2006年
2 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
3 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 胡清平;;受控语言及其在汉英机器翻译里的应用前景[A];国际译联第四届亚洲翻译家论坛论文集[C];2005年
6 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
7 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
8 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
9 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
10 张树武;徐波;黄泰翼;;汉语大词汇/连续语音识别语言建模技术分析[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国博士学位论文全文数据库 前10条
1 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2009年
2 俞理明;汉语缩略研究[D];四川大学;2002年
3 钟吉娅;汉语外源词[D];华东师范大学;2003年
4 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
5 张蕾;概念结构及其应用[D];西北工业大学;2001年
6 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
7 季琴;三国支谦译经词汇研究[D];浙江大学;2004年
8 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
9 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
10 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
5 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
6 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
7 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
8 陈茜;词语借用研究[D];湘潭大学;2010年
9 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
10 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前3条
1 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
2 马颂德,王珏;智能信息处理与知识挖掘[J];世界科技研究与发展;1999年06期
3 常青;文本挖掘 挖掘知识[J];中国计算机用户;2004年24期
【二级引证文献】
中国期刊全文数据库 前3条
1 杨建林;;知识表示与知识相关性度量研究[J];情报理论与实践;2011年05期
2 汤华波;颜慧超;王钊;;知识管理系统工作平台开发[J];软件导刊;2010年12期
3 王洪建;;中小学知识元学习平台设计与建设[J];中小学电教;2009年09期
【二级参考文献】
中国期刊全文数据库 前10条
1 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
5 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
6 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
7 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
8 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
9 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
10 郑家恒,刘开瑛;汉语姓名自动辨识初探[J];语言文字应用;1994年02期
【相似文献】
中国期刊全文数据库 前10条
1 邱均平;马瑞敏;;世界一流大学排行榜:实质内容比机构名称更重要——兼答赵志疆先生[J];评价与管理;2007年02期
2 韦向峰;张全;吴晨;袁毅;;中文问答系统中机构名的处理[J];计算机工程与应用;2008年07期
3 朱末霞;;EI Village 2检索解析[J];图书馆杂志;2009年08期
4 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
5 叶南;立档单位名称变动,档案全宗名称怎么办[J];档案时空;1991年06期
6 陈忠海;古代中外档案管理机构名称浅议[J];档案管理;1994年02期
7 高星;戴玮;黄利辉;李军莲;任慧玲;吴英杰;;中文生物医学文献机构名称规范化研究[J];医学信息学杂志;2010年12期
8 ;1993年SCI收录我国高等院校科技论文数前50名排序[J];中国科技期刊研究;1995年02期
9 陈希南;EI中团体来源字段存在的问题及思考[J];情报理论与实践;1999年05期
10 蒋微;中文搜索引擎的自动分词算法[J];电脑开发与应用;2002年06期
中国重要会议论文全文数据库 前10条
1 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 熊文钊;;国家行政机关名称问题探究——教育部名称更迭引发赔偿诉讼的法律思考[A];行政管理体制改革的法律问题——中国法学会行政法学研究会2006年年会论文集[C];2006年
3 牛建平;;推行政务服务标准化 创新服务型政府平台[A];中国行政管理学会2010年会暨“政府管理创新”研讨会论文集[C];2010年
4 ;Microwave-Accelerated Palladium-Catalyzed Carbonylative Cyclization Reactions of 2-Iodophenol with Alkynes:Rapid and Efficient Synthesis of Chromen-2-one Derivatives[A];中国化学会全国微波化学学术研讨会论文摘要集[C];2005年
5 季德春;鲍洪彤;彭垣;;网络信息资源与期刊编辑[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
6 季德春;鲍洪彤;彭垣;邱彦涛;谢骏;;网络信息资源与期刊编辑[A];学报编辑论丛(第十四集)[C];2006年
7 闻国政;;基层秘书工作改革设想[A];中国当代秘书群星文选[C];1999年
8 陈小华;;浅谈乡村卫生服务管理一体化[A];湖南省卫生经济学会第四届理事会第八次会议暨第二十三次学术年会专辑[C];2009年
9 李云;陈平荣;;当前工商行政管理机关与市场服务中心的主要矛盾及解决对策[A];2002年度湖南省工商行政管理系统获奖论文汇编[C];2002年
10 集美大学“高校心理辅导机构规范化运作研究”课题组;;高校心理咨询辅导机构规范化运作初探[A];高校心理健康教育专业化研究——第八届全国高校心理健康教育与心理咨询学术交流会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 王萌实习生 王爱喜;机构应随路名而改名[N];新乡日报;2007年
2 黄锦军;我省规范医疗机构名称[N];江西日报;2006年
3 田俊荣;银行可实时查询企业身份信息[N];人民日报;2007年
4 记者 杨光艳通讯员 冯玉梅;我市将统一社区卫生服务机构标识[N];德州日报;2008年
5 ;教育部最新公布自费留学中介名单[N];中国教育报;2005年
6 王华;IELTS全球认可机构搜索引擎启动[N];中国教育报;2006年
7 郑春峰;中谷粮油并入中粮集团[N];粮油市场报;2006年
8 徐丽 郑文斌 于瀛;教育盛宴精彩纷呈[N];深圳商报;2006年
9 本报记者 张朝晖 实习记者 林翊;资产评估业:名称之惑折射多头管理之乱[N];中华工商时报;2005年
10 本报记者 林翊;资产评估业:名称之惑折射多头管理之乱[N];福建工商时报;2005年
中国博士学位论文全文数据库 前1条
1 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
2 刘莎莎;大规模中文机构名称与机构地址自动翻译研究[D];哈尔滨工业大学;2010年
3 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
4 李红蕾;医疗卫生服务个体标识信息模型及其应用[D];第四军医大学;2009年
5 刘林;组织机构代码管理系统研究与开发[D];山东大学;2006年
6 柴旭原;上海市近代教会建筑历史初探[D];同济大学;2006年
7 史伟;中文自动分词关键技术研究与实现[D];电子科技大学;2008年
8 黄梅萍;中国独立董事制度研究[D];对外经济贸易大学;2003年
9 尚德华;吉林省组织机构代码信息管理系统[D];长春理工大学;2006年
10 王瑞;卫生资源统计调查数据元提取与标准化研究[D];第四军医大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026