收藏本站
《大连理工大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

SVM和最大熵相结合的中文机构名自动识别

杨德来  
【摘要】:未登录词的识别是汉语自动分词的难点之一,而中文机构名是未登录词的一个重要部分,涉及广泛,种类繁多,形态各异,且绝大多数未收入到词典中。中文机构名的自动识别对提高汉语自动分词和句法分析的精确率都有重要的意义。 本文提出一种支持向量机(Support Vector Machine,SVM)和最大熵相结合的中文机构名自动识别方法。中文机构名识别范围限定在以机构名特征词为结尾的完整机构名。根据机构名的特点,将机构名识别分为两个部分,后界判断和前部标注。对文本中出现在特征词典的词,基于SVM判断是否是机构名特征词(后界判断),从识别出的机构名特征词前词开始向前基于最大熵标注,直到标注到非机构名成分停止标注(前部标注),然后继续在文中重复上述过程。 为了提高后界判断效率,提出驱动式识别方法,对文本中出现的收录在特征词典的词进行后界判断,识别出该词是否是机构名特征词,对识别出的机构名特征词开始前部标注。由此可知,后界判断问题是二值分类问题,而SVM是一种优秀的二值分类器,因此基于SVM的后界判断模型可以有效地解决机构名特征词识别问题。根据机构名特征词的统计分析和语法特征,建立基于SVM的后界判断模型。 机构名前部词组成比较复杂,由于最大熵可以灵活地将许多分散、零碎的知识组合起来,对复杂问题的解决有较好的效果,同时最大熵以较好的效率解决多类分类问题,因此最大熵的前部标注模型有效地解决了比较复杂的中文机构名前部词识别问题。根据机构名前部词的特征和统计分析结果,制定最大熵特征模板,构建特征集并进行参数估计获得基于最大熵的前部标注模型。 实验表明,SVM和最大熵相结合的中文机构名自动识别方法是有效的:系统开式召回率和精确率分别达91.05%,93.59%,F值为92.84%。和当前同类文献相比,本识别系统取得了比较好的识别结果。并且本文所提出的方法具有较强的推广能力,利用本方法还可以对其它未登录词如人名、地名等进行识别。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.4

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 罗安;王勇;张福浩;刘纪平;;基于角色标注的中文POI名称语义分类方法[J];测绘通报;2012年S1期
中国重要会议论文全文数据库 前1条
1 罗安;王勇;张福浩;刘纪平;;基于角色标注的中文POI名称语义分类方法[A];第四届“测绘科学前沿技术论坛”论文精选[C];2012年
中国硕士学位论文全文数据库 前5条
1 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
2 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
3 王秋红;极小化标注的海洋文献复杂分类[D];中国海洋大学;2011年
4 季念星;基于信息抽取技术的商业社会网络创建研究[D];哈尔滨工业大学;2010年
5 胡正;基于垂直搜索技术的网站分析系统的研究与实现[D];西南交通大学;2008年
【参考文献】
中国期刊全文数据库 前10条
1 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
2 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
3 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
4 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
5 宇缨;王晓龙;刘秉权;;一种基于SVM/RS的中文机构名称自动识别方法[J];电子与信息学报;2006年05期
6 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
7 欧嘉致,陈凯江,李宗葛;基于NN/HMM混合模型的汉语地名识别系统[J];计算机工程与应用;2002年23期
8 谭红叶,郑家恒,刘开瑛;中国地名自动识别系统的设计与实现[J];计算机工程;2002年08期
9 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
10 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
中国重要会议论文全文数据库 前2条
1 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【共引文献】
中国期刊全文数据库 前10条
1 徐文莉;;基于最大熵方法的DaR风险度量模型[J];安徽师范大学学报(自然科学版);2007年01期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
4 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
7 吕学强;舒燕;施水才;;搜索日志中“V+N”、“V+V”型短语识别[J];北京信息科技大学学报(自然科学版);2012年02期
8 张仰森;曹元大;俞士汶;;最大熵方法中特征选择算法的改进与纠错排歧[J];北京理工大学学报;2006年01期
9 吕琳;刘玉树;;最大熵和Brill方法结合识别英语BaseNPs[J];北京理工大学学报;2006年06期
10 谭咏梅;王小捷;周延泉;钟义信;;使用SVMs进行汉语浅层分析[J];北京邮电大学学报;2008年01期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
6 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
7 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
9 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
10 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
5 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
6 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
7 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
8 刘运;DDoS Flooding攻击检测技术研究[D];国防科学技术大学;2011年
9 王迈;语言形式化原理[D];上海外国语大学;2011年
10 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
6 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
7 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
8 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
9 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
10 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李凯,黄厚宽;支持向量机增量学习算法研究[J];北方交通大学学报;2003年05期
2 张雪英;朱少楠;张春菊;;中文文本的地理命名实体标注[J];测绘学报;2012年01期
3 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
4 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
5 高国洋;戚银城;潘德锋;;基于条件随机场与规则相结合的中文地名识别[J];电脑开发与应用;2009年08期
6 刘晓娟;;基于Lucene的中文兴趣点名称的切分与匹配研究[J];电脑知识与技术;2011年21期
7 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
8 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
9 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
10 宇缨;王晓龙;刘秉权;;一种基于SVM/RS的中文机构名称自动识别方法[J];电子与信息学报;2006年05期
中国重要会议论文全文数据库 前2条
1 万菁;姬东鸿;任函;冯文贺;;汉语复合名词短语特征结构的标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
中国博士学位论文全文数据库 前3条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 李敬;增量学习及其在图像识别中的应用[D];上海交通大学;2008年
3 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前10条
1 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
2 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
3 张汇;基于贝叶斯的网页文本分类算法[D];华中科技大学;2004年
4 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
5 陈耀东;汉语一体化的句法分析模型的研究[D];国防科学技术大学;2004年
6 王文迅;蛋白质名字识别系统的研究与实现[D];清华大学;2005年
7 肖雪;中文文本层次分类研究及其在唐诗分类中的应用[D];重庆大学;2006年
8 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
9 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年
10 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 李波;基于自主推理的中文命名实体识别方法研究[D];西北大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
2 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
3 高升,贾文举,王晓龙,姜亚学;一个基于互信息的规则量化方法[J];计算机研究与发展;2000年08期
4 黄河燕,陈肇雄;基于多策略的交互式智能辅助翻译平台总体设计[J];计算机研究与发展;2004年07期
5 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
6 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
7 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
8 谭红叶,郑家恒,刘开瑛;中国地名自动识别系统的设计与实现[J];计算机工程;2002年08期
9 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
10 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
中国重要会议论文全文数据库 前3条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 余传明;陈雷;张小青;;基于支持向量机的产品属性识别研究[J];情报学报;2010年06期
2 安国平;姜长生;吴庆宪;;基于PCNN和SVM的图像识别方法研究[J];电光与控制;2008年10期
3 王俊生,韦钰;复参数最大熵图像重建的剑桥算法[J];通信学报;1994年06期
4 吕红,李时光,徐问之,闫旭,吕怡;不完全扇形投影数据的图象重建算法研究[J];重庆大学学报(自然科学版);1997年05期
5 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
6 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
7 阎辉,张学工,李衍达;支持向量机与最小二乘法的关系研究[J];清华大学学报(自然科学版);2001年09期
8 尹中航,王永成,蔡巍;应用支持向量机进行网上信息自动分类[J];高技术通讯;2001年11期
9 朱国强,刘士荣,俞金寿;支持向量机及其在函数逼近中的应用[J];华东理工大学学报;2002年05期
10 侯风雷,王炳锡;基于支持向量机的说话人辨认研究[J];通信学报;2002年06期
中国重要会议论文全文数据库 前10条
1 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
2 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 顾锦荣;刘华强;孙预前;;遗传算法优化的支持向量机模型在热带气旋强度预报中的应用[A];第七届长三角气象科技论坛论文集[C];2010年
10 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
中国重要报纸全文数据库 前10条
1 ;意推出新型驱动式闭式压力机[N];中国建材报;2000年
2 通讯员 李以国 戴俊;宣恩驱动式扶贫:输血造血扶贫扶智并举[N];恩施日报;2011年
3 黄梅县教研室 吴吉成;物理 “任务驱动式”教学模式初探[N];黄冈日报;2010年
4 新疆 陈汝泳;MP4常见背光驱动电路原理与检修[N];电子报;2008年
5 平安集团副总兼首席信息官 罗世礼;实施“服务驱动式”IT管理,支持集团化发展[N];中国保险报;2008年
6 ;德尔福直接驱动压电喷油器技术量产[N];国际商报;2008年
7 李水根;计算机详解配伍与药效关系[N];健康报;2005年
8 本报记者 何建昆 通讯员 王鹏;以科技创领自主汽车之先锋[N];科技日报;2004年
9 陈水清;解读阿尔·里斯[N];财经时报;2007年
10 本报记者  杨占苍;车间进校园 经理上讲台[N];中国教育报;2006年
中国博士学位论文全文数据库 前10条
1 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
2 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
3 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
4 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
5 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
6 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
7 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
8 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
9 张永;基于模糊支持向量机的多类分类算法研究[D];大连理工大学;2008年
10 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 杨德来;SVM和最大熵相结合的中文机构名自动识别[D];大连理工大学;2006年
2 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
3 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
4 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
5 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
6 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
7 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
8 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
9 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
10 刘柳;基于支持向量机和模糊后处理的遥感图像分类研究[D];华中科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026