收藏本站
《长春工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于规则与统计的汉语自动分词研究

李丹  
【摘要】:随着网络的发展,数字化信息迅速增加,人们对中文信息的处理也越来越关注,同时,现代汉语信息的处理和研究也显得尤为重要。汉语自动分词和命名实体识别是中文信息处理的基础研究课题,它的研究和实现具有重要的理论意义和实用价值。由于它的研究结果直接影响到机器翻译、语法分析、语义分析、语音识别、信息检索、信息过滤等领域的研究,因此,对分词和命名实体识别的要求也显得日益迫切并一直引起人们的关注。 同其它语言相比,汉语自动分词和命名实体识别有其特有的难点。我们认为影响分词正确率的因素有两个:1歧义切分问题2汉语人名、地名、机构名等专有名词。目前,汉语自动分词和命名实体识别的处理结果还有待提高。本文对汉语自动分词和作为命名实体识别子问题的中文人名识别这两个问题分别进行了研究,提出了结合词频的机械匹配算法和SVM与错误驱动学习相结合的中文人名识别算法。 汉语自动分词是中文信息处理中的重要步骤,它是诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括基于规则的方法、基于统计的方法和基于理解的方法。本文对现有自动分词算法进行了深入分析,在此基础上着重研究了基于规则和统计的汉语自动分词算法,提出了结合词频的机械匹配算法。该方法首先在基于长度优先的基础上同时结合词频优先进行分词,对未匹配字串再应用改进的正向最大匹配法和逆向最大匹配法结合熵率进行分词。实验结果表明,这种分词算法进一步提高了分词的准确率。 中文姓名识别是中文分词中未登录词识别的一个重要部分,处理好中文姓名问题势必会有效地提高未登录词识别的精度。本文提出了支持向量机和基于转换的错误驱动学习相结合的中文人名识别方法。利用基于转换的错误驱动学习方法对SVM的识别结果进行校正,转换规则较好地处理了语言现象中的特殊情况,进一步提高了SVM的识别结果。实验结果表明,与单独使用SVM模型的人名识别方法相比,加入错误驱动学习方法后,中文人名识别的准确率、召回率和F值均得到了提高。
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
2 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
3 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
4 王国胜,钟义信;支持向量机的若干新进展[J];电子学报;2001年10期
5 刘竞;苏万力;;统计和规则相结合的中文姓名识别方法研究[J];福建电脑;2006年07期
6 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
7 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
8 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
9 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
10 吴胜远;并行分词方法的研究[J];计算机研究与发展;1997年07期
【共引文献】
中国期刊全文数据库 前10条
1 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
4 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
5 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
6 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
7 金添;周智敏;宋千;常文革;;基于模糊超球面支持向量机的超宽带SAR地雷检测[J];兵工学报;2007年12期
8 王玉美,阮晓钢;基于人的语言认知行为的汉语文法分析专家系统[J];北京工业大学学报;2003年01期
9 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
10 薛雨丽;毛峡;张帆;;BHU人脸表情数据库的设计与实现[J];北京航空航天大学学报;2007年02期
中国重要会议论文全文数据库 前10条
1 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
5 孙守迁;王鑫;刘涛;汤永川;;音乐情感的语言值计算模型研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
6 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
7 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
中国博士学位论文全文数据库 前10条
1 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 曾庆虎;机械传动系统关键零部件故障预测技术研究[D];国防科学技术大学;2010年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 赵鹏;离心泵振动故障诊断方法研究及系统实现[D];华北电力大学(北京);2011年
6 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
7 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
8 冯业伟;基于支持向量机和移动Agent技术的银行风险早期预警系统研究[D];中国海洋大学;2011年
9 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
10 吕娜;图像匹配与跟踪研究[D];西安交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
4 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
5 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
6 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
7 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
8 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
9 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
10 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
5 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
6 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
7 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
8 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
9 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
10 刘小虎,李生,赵铁军;词典的模糊查询和单词的快速录入[J];哈尔滨工业大学学报;1997年05期
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 于波;中文全文检索技术研究[D];华中师范大学;2003年
2 彭希鸿;基于Web内容挖掘的网页分类与过滤研究与应用[D];中南大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
2 吴东峥;;基于统计的开放式汉语自动分词[J];福建电脑;2009年03期
3 王希杰;赵晓凡;;浅谈汉语自动分词的几种方法[J];价值工程;2011年13期
4 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
5 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
6 陈湘柳;;汉语自动分词理论对英语教学的启示[J];榆林学院学报;2010年01期
7 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
8 文庭孝,邱均平,侯经川;汉语自动分词研究展望[J];现代图书情报技术;2004年07期
9 邱均平,文庭孝,周黎明;汉语自动分词与内容分析法研究[J];情报学报;2005年03期
10 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
中国重要会议论文全文数据库 前10条
1 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 庄丽;包塔;朱小燕;;盲人用计算机软件系统中的语音和自然语言处理技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
8 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 廉竹钧;;汉语组合型切分歧义字段消歧方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
5 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
6 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
7 丁鸿;百度掀起财富浪潮 中国互联网不再“青涩”[N];中国工业报;2005年
8 王翌;互联网2005:个性化生存[N];计算机世界;2005年
9 王宾;加速争夺中国搜索市场[N];北京商报;2006年
10 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
2 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
3 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
4 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
2 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
3 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
4 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
5 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
6 胡可;基于人工免疫系统的信息过滤技术研究[D];西南交通大学;2006年
7 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
8 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
9 刘禹孜;汉语自动分词中排除歧义字段算法的研究[D];重庆大学;2005年
10 潘景剑;具有中文人名识别功能的汉语自动分词算法研究[D];河北工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026