收藏本站
《上海交通大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的中文组织机构名识别

陈霄  
【摘要】: 中文组织机构名的识别是中文信息处理中的一个重要任务,也是命名实体识别(Named Entity Recognition)研究的重点之一。命名实体包括人名、地名、机构名、时间短语等,组织机构名是其中非常重要的一部分,其识别的难度也是所有命名实体中最大的。包括机构名在内的命名实体的识别是许多自然语言处理任务,如信息抽取、机器翻译、信息检索等的基础,具有十分重要的意义。 统计方法是自然语言处理中最重要的方法之一。在统计学习理论的基础上发展起来支持向量机是一种新的通用学习方法。基于结构风险最小化原则的支持向量机在许多研究问题中,特别是样本集有限的情况下,表现出了优于其它机器学习方法的性能。目前,支持向量机已经应用于自然语言处理的许多领域,如文本分类,浅层句法分析,专名识别等,都取得了不错的效果。 本文提出了一种支持向量机结合主动学习策略进行中文机构名识别的方法:用支持向量机对切分标注过语料中的中文机构名进行识别,并在样本选择和模型训练时,结合了主动学习的策略。我们在大规模的真实文本中对该方法进行了多组开放性测试实验,实验中我们比较了不同特征选择,以及不同的样本选择策略对结果的影响。实验的结果表明,基于支持向量机的方法取得了很好的结果:正确率,召回率和F值分别达到了81.68%,86.84%,84.18%。实验也表明主动学习的策略能有效地减少训练样本的数量,从而减少了人工标注成本。最终,我们在该方法的基础上实现了一个机构名识别的实验系统。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.43

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 车万翔;张梅山;刘挺;;基于主动学习的中文依存句法分析[J];中文信息学报;2012年02期
中国重要会议论文全文数据库 前1条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前1条
1 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前5条
1 刘莎莎;大规模中文机构名称与机构地址自动翻译研究[D];哈尔滨工业大学;2010年
2 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
3 张祝玉;基于条件随机场的中文命名实体识别[D];东北大学;2009年
4 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
5 陈鑫;基于主动学习的汉语依存树库构建[D];哈尔滨工业大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
2 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
3 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
4 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
5 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
6 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
7 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
8 黄德根,岳广玲,杨元生;基于统计的中文地名识别[J];中文信息学报;2003年02期
9 李珩,朱靖波,姚天顺;基于SVM的中文组块分析[J];中文信息学报;2004年02期
10 李丽双;黄德根;陈春荣;杨元生;;SVM与规则相结合的中文地名自动识别[J];中文信息学报;2006年05期
中国硕士学位论文全文数据库 前2条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 谢飞;;支持向量机及其应用研究[J];安徽教育学院学报;2007年03期
2 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
3 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
4 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
5 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
6 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
7 陈念;沈佐民;;基于化学成分检测和SVM分类的茶叶品质鉴定[J];安徽农业科学;2010年15期
8 潘娣;;机器翻译的利弊以及发展前景[J];安徽文学(下半月);2008年09期
9 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
10 林春丽;齐欣;王克成;;SVM-KNN分类器在异常行为检测中的应用[J];辽宁科技大学学报;2010年05期
中国重要会议论文全文数据库 前10条
1 赵延林;安伟光;;复合土钉支护基坑内部整体稳定可靠性分析[A];中国计算力学大会'2010(CCCM2010)暨第八届南方计算力学学术会议(SCCM8)论文集[C];2010年
2 郭玮;李智勇;朱晟;孙慧;;支持向量机在变压器油溶解气体检测中的应用[A];第一届电力安全论坛优秀论文集[C];2008年
3 ;Fuzzy Support Vector Machines Based on Fuzzy Similarity Degree[A];Proceedings of the 5th International Symposium on Test and Measurement(Volume 1)[C];2003年
4 ;Ultrasonic Flaw Classification in Seafloor Petroleum Transferring Pipeline through Chaotic Optimization and Support Vector Machine[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 1)[C];2005年
5 ;Compensated Algorithm of Sensor Characteristic Based on Support Vector Machine[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 4)[C];2005年
6 ;The Support Vector Machine Technique for Concrete Adherence Strength Prediction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年
7 ;GA-SVM Wrapper for Feature Selection[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 9)[C];2005年
8 ;Application of Decision Tree SVMs Based on Class Distribution to Mental Tasks Recognition[A];第七届国际测试技术研讨会论文集[C];2007年
9 ;On-line Estimation of Texaco Coal Gasification Quality Based on Support Vector Machine[A];第七届国际测试技术研讨会论文集[C];2007年
10 彭煊;王炳锡;;支持向量机及其在被动声呐目标识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
7 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
8 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
9 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
10 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
4 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
5 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
6 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
7 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
8 姜念;区间自适应粒子群算法研究及其应用[D];郑州大学;2010年
9 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
10 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李凯,黄厚宽;支持向量机增量学习算法研究[J];北方交通大学学报;2003年05期
2 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
3 冯志伟;;自然语言处理中理性主义和经验主义的利弊得失[J];长江学术;2007年02期
4 张普;;论语言的动态[J];长江学术;2008年01期
5 Г.П.斯莫利茨卡娅;邢行;;普通词典中的专有名词[J];辞书研究;1991年05期
6 冯志伟;基于短语结构语法的自动句法分析方法[J];当代语言学;2000年02期
7 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期
8 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
9 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
10 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
中国重要会议论文全文数据库 前2条
1 苗文彦;赵铁军;周向根;陈庆轩;王欣欣;;面向机器翻译的中文机构地址切分方法[A];2009国际信息技术与应用论坛论文集(下)[C];2009年
2 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 李敬;增量学习及其在图像识别中的应用[D];上海交通大学;2008年
2 车万翔;基于核方法的语义角色标注研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 王丽杰;汉语语义依存分析研究[D];哈尔滨工业大学;2010年
2 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
3 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
4 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
5 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
6 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
7 王莹莹;汉语组块识别的研究[D];大连理工大学;2006年
8 毛婷婷;中文专有名词识别的研究[D];大连理工大学;2006年
9 杨德来;SVM和最大熵相结合的中文机构名自动识别[D];大连理工大学;2006年
10 李湘平;现代汉语序数的考察与分析[D];广西师范大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
2 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
3 赵铁军,方高林,李生;英语介词短语附着决策的研究[J];高技术通讯;2001年03期
4 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
5 宫秀军,孙建平,史忠植;主动贝叶斯网络分类器[J];计算机研究与发展;2002年05期
6 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
7 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
8 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
9 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
10 李珩;杨峰;朱靖波;姚天顺;;基于增益的隐马尔科夫模型的文本组块分析[J];计算机科学;2004年02期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 倪茂树;赵晶;林鸿飞;;生物医学文本分类方法比较研究[J];计算机工程与应用;2007年12期
2 凌俊斌;庄卫华;刘鲁西;;图像检索中的主动学习及其可测量性[J];计算机技术与发展;2006年02期
3 孙卫;庄卫华;林红飞;曾晓勤;;基于相邻边界模型的支持向量预选算法[J];计算机工程;2009年24期
4 鲍翠梅;;基于主动学习的加权支持向量机的分类[J];计算机工程与设计;2009年04期
5 李艳翠;杨勇;周国栋;朱巧明;;基于支持向量机的英语名词短语指代消解[J];计算机工程;2009年03期
6 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
7 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
8 阎辉,张学工,李衍达;支持向量机与最小二乘法的关系研究[J];清华大学学报(自然科学版);2001年09期
9 朱国强,刘士荣,俞金寿;支持向量机及其在函数逼近中的应用[J];华东理工大学学报;2002年05期
10 侯风雷,王炳锡;基于支持向量机的说话人辨认研究[J];通信学报;2002年06期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 李水根;计算机详解配伍与药效关系[N];健康报;2005年
2 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
3 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
4 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
5 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
6 ;选择合适的数据挖掘算法[N];计算机世界;2007年
7 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
8 周颖;王米渠与中医心理学[N];中国中医药报;2006年
9 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
10 本报记者 冯治恩;敢与“雷公”试比高[N];铜川日报;2008年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
7 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
8 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
9 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
10 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
2 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
3 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
4 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
5 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
6 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
7 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
8 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
9 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
10 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026