收藏本站
《南京师范大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语中介语文本词语级错误的自动查错研究及其实现—AECIT

柏晓鹏  
【摘要】: 随着现代出版事业的不断扩大,人工校对的工作量日益增大,产生了机器自动校对的需求。自动校对是自然语言处理的一个重要的研究领域,它的目的主要是在出版行业中减轻校对人员的工作量。中文文本自动校对较英文文本自动校对而言有许多先天性的困难,如分词、词性标记等。 中介语文本由于它的特殊性,无论是从错误产生原因还是错误表现形式都呈现出较普通文本未有的复杂。现有的自动校对系统是面向普通的中文文本,它处理的是母语为汉语的人士所写成的中文文本,它们所使用的训练语料和测试语料是同质的。本文研究的对象是母语为非汉语的人士写成的中文中介语文本。二者相比较而言,后者较前者在研究、处理上多了很多困难,如:训练语料和测试语料不同质,错误种类繁多,难以进行分类等。本文使用了新疆大学预科部少数民族中介语语料库,随机抽取了2063个存在错误的句子,以查找句子中的错误点为目标,构造了汉语中介语自动查错系统AECIT(Automatic Error Checker for Interlanguage Texts),采用窗口移动的方式,一次读取一个三元词串,以二元词的互信息为基本统计手段,结合词性和确定合理搭配阈值进行隔断的方式,从句子中提取发生错误的词语。由于目前中文句法分析和语义分析技术远没有达到可以实用的阶段,所以本文着眼于词语一级的自动查错研究。最终,以合理搭配阈值为3.0为例,AECIT得到了召回率73.7%,精确率50%,误报率50%的结果,并且随着阈值的调整,召回率和精确率会分别上升和下降,以满足不同用户的需要。
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:G356.6;H136

【参考文献】
中国期刊全文数据库 前6条
1 骆卫华,罗振声,宫小瑾;中文文本自动校对技术的研究[J];计算机研究与发展;2004年01期
2 李建华,王晓龙,王平,王淑清;多特征的中文文本校对算法的研究[J];计算机工程与科学;2001年03期
3 张仰森;俞士汶;;文本自动校对技术研究综述[J];计算机应用研究;2006年06期
4 张仰森,丁冰青;基于二元接续关系检查的字词级自动查错方法[J];中文信息学报;2001年03期
5 张仰森;曹元大;俞士汶;;基于规则与统计相结合的中文文本自动查错模型与算法[J];中文信息学报;2006年04期
6 张仰森,丁冰青;中文文本自动校对技术现状及展望[J];中文信息学报;1998年03期
【共引文献】
中国期刊全文数据库 前10条
1 赵莉;;基于OCR的拼写校正系统[J];兵工自动化;2010年09期
2 梁志建,徐广生,方宇彤;科学期刊编辑工作流程再造探索及实践[J];编辑学报;2005年02期
3 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
4 汪维家,陈笑蓉,秦进,陆汝占;一种基于窗口技术的中文文本自动校对方法[J];贵州大学学报(自然科学版);2003年02期
5 郑文曦;包西林;郭辰;姚倩;吴敏;;自动拼写校对的算法设计和系统实现[J];科技和产业;2013年02期
6 骆卫华,罗振声,宫小瑾;中文文本自动校对技术的研究[J];计算机研究与发展;2004年01期
7 龚小谨,罗振声,骆卫华;中文文本自动校对中的语法错误检查[J];计算机工程与应用;2003年08期
8 骆卫华,罗振声,龚小谨;中文文本自动校对的语义级查错研究[J];计算机工程与应用;2003年12期
9 古丽拉·阿东别克,艾尔肯·伊米尔;维吾尔文校对中常见错误分析[J];计算机工程与应用;2005年27期
10 吕威;林文昶;姚正安;李磊;;基于String Kernel和KPCA的负实例语法特征提取算法[J];计算机工程与应用;2009年20期
中国重要会议论文全文数据库 前6条
1 龚小谨;罗振声;骆卫华;;模式匹配和句型成分分析相结合的语法错误自动检查[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 包敏娜;华沙宝;;蒙古文扫描识别系统自动校正算法设计[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 买合木提·木合买提;吐尔根·依布拉音;;基于音节的维吾尔语文本校对系统的研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 龙丽霞;李蕾;钟义信;;一种基于实例语境的汉语语音识别后文本检错纠错方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 陆玉清;洪宇;陆军;姚建民;朱巧明;;基于上下文的真词错误检查及校对方法[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
2 吕艳辉;基于语料库的现代汉语手部动词研究[D];山东大学;2008年
3 王洁;汉语中介语偏误的计算机处理方法研究[D];北京语言大学;2008年
4 徐先蓬;汉语的熵及其在语言本体研究中的应用[D];山东大学;2013年
中国硕士学位论文全文数据库 前10条
1 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
2 郇政永;基于OCR的中文文本校对研究[D];北方工业大学;2011年
3 张春燕;基于自然语言处理的文本分类分析与研究[D];江西理工大学;2011年
4 王垚尧;基于机器学习的经济行业分类方法研究[D];哈尔滨工业大学;2011年
5 朱磊;自然语言处理之汉语文本自动校对[D];电子科技大学;2005年
6 徐仰彬;基于SOM的文本聚类及其在搜索结果中的应用[D];西安电子科技大学;2007年
7 牛海根;文本挖掘技术在短信文本中的应用研究[D];电子科技大学;2007年
8 于志恒;基于笔形相似的文本校对算法及其接口原型系统的研究[D];东北师范大学;2007年
9 马志强;校园网搜索引擎核心技术—中文自动分词[D];北京机械工业学院;2006年
10 包敏娜;《蒙古文印刷体扫描识别系统》(recog1.0版)自动校正算法研究[D];内蒙古大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
2 赵明;手写印刷体汉字识别方法综述[J];计算机研究与发展;1993年04期
3 骆卫华,罗振声,宫小瑾;中文文本自动校对技术的研究[J];计算机研究与发展;2004年01期
4 易蓉湘,何克抗;计算机汉语文稿校对系统[J];计算机研究与发展;1997年05期
5 龚小谨,罗振声,骆卫华;中文文本自动校对中的语法错误检查[J];计算机工程与应用;2003年08期
6 骆卫华,罗振声,龚小谨;中文文本自动校对的语义级查错研究[J];计算机工程与应用;2003年12期
7 张仰森,曹元大,徐波;基于统计的纠错建议给出算法及其实现[J];计算机工程;2004年11期
8 李建华,王晓龙,王平,王淑清;多特征的中文文本校对算法的研究[J];计算机工程与科学;2001年03期
9 王晓龙,王开铸;声音语句输入的研究[J];计算机学报;1994年02期
10 张炘中,沈兰生;印刷体汉字识别技术在我国的发展和应用[J];中文信息学报;1992年01期
【相似文献】
中国期刊全文数据库 前10条
1 郑娟;;大学生英语写作错误分析[J];安徽电子信息职业技术学院学报;2007年02期
2 张志祥;夏小维;;浅析中介语石化内外因及应对策略[J];长沙通信职业技术学院学报;2008年03期
3 邢宁;论情报语言的形式与功能[J];津图学刊;2002年04期
4 高文成;梅德明;;基于CLEC语料库的僵化参数原因认知探索[J];四川外语学院学报;2007年02期
5 齐建晓;;新闻汉英翻译拙涩现象探析[J];新闻爱好者(理论版);2007年03期
6 杨婕;;输出理论及其对外语教学的启示[J];安徽电子信息职业技术学院学报;2007年02期
7 潘家云;Google:作为搭配字典的重要补充[J];外语电化教学;2004年05期
8 莫锦国;汪玉霞;;“沟通世界的桥梁”——WorldCALL 2008国际研讨会评述[J];外语电化教学;2009年04期
9 张辉;王俊凯;;“隐喻”在防止英语学习“石化”现象中的作用[J];安徽电子信息职业技术学院学报;2010年03期
10 卫乃兴;李文中;濮建忠;;COLSEC语料库的设计原则与标注方法[J];当代语言学;2007年03期
中国重要会议论文全文数据库 前10条
1 易绵竹;薛恩奎;李绍哲;南振兴;;一种与UNL接口的机器翻译系统ETAP-3概要[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
2 熊子瑜;;中介语声调系统的评价方法研究[A];第九届全国人机语音通讯学术会议论文集[C];2007年
3 王雪松;;解析英语写作中的石化现象[A];“高教强省”探索与实践——高教科研2008[C];2009年
4 谢旭慧;程肇基;;分类教学 分层达标——构建方言复杂地区高师普通话教学新模式[A];第二届全国普通话水平测试学术研讨会论文集[C];2004年
5 高瑞凤;;英语专业本科生一至四年级英语写作能力发展的评估[A];英语写作教学与研究的中国视角——第四届中国英语写作教学与研究国际研讨会论文集[C];2008年
6 覃凤余;余瑾;王莉宁;;方言~普通话中介语的词汇语法问题[A];第二届全国普通话水平测试学术研讨会论文集[C];2004年
7 王立非;;我国英语写作教学与研究的语料库语言学视角[A];英语写作教学与研究的中国视角——第四届中国英语写作教学与研究国际研讨会论文集[C];2008年
8 蒙雪梅;王雪松;;英语学习错误分析的实证研究[A];“高教强省”探索与实践——高教科研2008[C];2009年
9 伍治国;;调整民族院校外语教学语种势在必行[A];布依学研究(之四)——贵州省布依学会第三次年会暨第四次学术讨论会论文集[C];1993年
10 何彦杰;;方言区(武安)人员普通话学习过程中语音进阶研究[A];第二届全国普通话水平测试学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前3条
1 贵阳市经贸学校 张敏;英语专业交际策略的培训[N];经济信息时报;2007年
2 浙江理工大学外国语学院 潘月明;英语教育要有创意[N];光明日报;2005年
3 记者宋晖 通讯员张新红;语用学研究趋向多元化[N];中国社会科学报;2011年
中国博士学位论文全文数据库 前10条
1 岳辉;朝鲜时代汉语官话教科书研究[D];吉林大学;2008年
2 王洁;汉语中介语偏误的计算机处理方法研究[D];北京语言大学;2008年
3 于天昱;现代汉语反问句研究[D];中央民族大学;2007年
4 崔丹;我国留学生在加拿大短期学习经历中英语熟练度变化的研究[D];上海外国语大学;2013年
5 孙炬;中国英语学习者中介语书面叙事语篇时序性的横断研究[D];山东大学;2007年
6 暴丽颖;英语作为外语的学习环境中的语言石化研究[D];上海外国语大学;2008年
7 刘秋芬;外语学习中的意识与形式意义匹配[D];上海外国语大学;2010年
8 董霄云;探析文化视界下的我国双语教育[D];华东师范大学;2006年
9 丰国欣;第二语言认知协同论[D];华东师范大学;2006年
10 宋秀平;突显、输出和注意[D];上海外国语大学;2008年
中国硕士学位论文全文数据库 前10条
1 阮金菊;中介语僵化现象的研究及其教学启示[D];华中师范大学;2003年
2 吴雪静;ECSE英语作文中的中介语错误分布研究及其涵义[D];东北师范大学;2002年
3 刘妍;论俄语学习者中介语的产生与克服[D];东北师范大学;2003年
4 王帆;浅论中国式英语的现实价值和潜在价值[D];西北大学;2007年
5 张荣婕;第二语言习得过程中僵化现象产生的原因及其应对策略[D];西安电子科技大学;2004年
6 李洋;中国大学生道歉策略的性别差异研究[D];中国海洋大学;2009年
7 赵云峰;中国中学生英语语法词素习得顺序研究[D];中国海洋大学;2005年
8 刘珍;英语科技文章中模糊限制语的中介语视角研究[D];西北师范大学;2001年
9 张爱文;中介语化石化与中国英语教学[D];西南师范大学;2002年
10 陈朗;英语口语交际能力习得中中介语石化倾向诊断研究[D];西北工业大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026