收藏本站
《山西大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语语料库词性标注一致性检查及自动校对方法研究

张虎  
【摘要】:建设高质量的大规模语料库是中文信息处理领域的基础性工程,目前,在机器翻译、语音识别、信息检索、Web文本挖掘等许多领域对语料库的使用越来越多,要求也越来越高。然而我们注意到语料库作为研究资源其价值是通过对语料的标注来体现的,对语料库标注的越准确,语料库的价值就越高。 通过对汉语语料库中兼类词和词性标注情况的分析,我们发现制约语料库词性标注加工质量的一个重要方面是多标记词语的词性标注一致性问题。词性标注的一致性就是指无论一个词兼有几种词性,但在相同或者相似的上下文语言环境下只标最合适的一种词性。然而,迄今为止在词性标注研究中,人们关心的还只是词性标注算法的研究,对词性标注结果不一致现象研究的报道不多。 本文分析了大规模汉语语料库兼类词词性标注序列之后,提出了汉语语料库词性标注一致性检查和自动校对的方法。该方法首先随机抽出一些含有兼类词的句子,经人工校对后,将含有相同兼类词且兼类词词性标注相同的标记序列归为一类;然后对待校语料中含有兼类词的词性序列进行逐一判断;同时,对检查出的标注不一致的词性,提出了一种按离词性类别重心最近的原则归类,实现词性标注的自动较对。主要工作如下: 第一,分析了北大的200万和“863”的150万汉语语料库,建立了兼类词库和兼类词例句库; 第二,通过对汉语语料库兼类词词性标注序列特征的分析,在国内首次提出了描述兼类词词性标记序列上下文环境特征的向量模型; 第三,在国内首次采用分类和聚类的思想解决词性标注一致性检查的问题,分别尝试采用了K-NN分类方法和相似性阈值和最小距离原则的简单聚类方法。 第四,提出了一种自动校对的方法,采用离类别重心最近的原则给不一致的词性自动标注词性。 最后,按照上边提出的方法,设计实现了词性标注一致性检查和自动系统;详细分析了测试结果中的错误实例,提出了算法模型中存在的
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 努尔比娅·塔依尔;地里木拉提·吐尔逊;艾斯卡尔·肉孜;;面向韵律层边界自动划分的维吾尔语词性自动标注技术研究[J];计算机应用与软件;2011年08期
2 姜文斌;吴金星;乌日力嘎;那顺乌日图;刘群;;蒙古语有向图形态分析器的判别式词干词缀切分[J];中文信息学报;2011年04期
3 余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期
4 许德山;张智雄;赵妍;;中文问句与RDF三元组映射方法研究[J];图书情报工作;2011年06期
5 厉小军;戴霖;施寒潇;黄琦;;文本倾向性分析综述[J];浙江大学学报(工学版);2011年07期
6 孙广路;郎非;薛一波;;基于条件随机域和语义类的中文组块分析方法[J];哈尔滨工业大学学报;2011年07期
7 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
8 王斯日古楞;斯琴图;那顺乌日图;;汉蒙统计机器翻译中的调序方法研究[J];中文信息学报;2011年04期
9 玉素甫·艾白都拉;张海军;艾孜尔古丽;;信息处理用现代维吾尔语词干词类标记集研究[J];信息技术与标准化;2011年06期
10 王卫平;孟翠翠;;基于句法分析与依存分析的评价对象抽取[J];计算机系统应用;2011年08期
中国重要会议论文全文数据库 前10条
1 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
2 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
7 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
8 李红印;;颜色词的收词、释义和词性标注[A];中国辞书论集2001[C];2001年
9 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 郭锐;;语文词典的词性标注问题[A];中国辞书学文集[C];1998年
中国重要报纸全文数据库 前6条
1 孟传良;略谈汉外词典的修订[N];中国图书商报;2005年
2 北京大学中文系 陆俭明;要对广大读者负责[N];中国社会科学院院报;2004年
3 王小宁;辞书应慎用“规范”冠名[N];人民政协报;2004年
4 语言所 董琨;错误百出 贻笑大方[N];中国社会科学院院报;2004年
5 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
6 记者 黄小希;部分电子词典内容“缩水”“注水”严重[N];新华每日电讯;2011年
中国博士学位论文全文数据库 前10条
1 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
2 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
6 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
9 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
10 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
2 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
3 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
4 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
5 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
6 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
7 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
8 樊立三;现代汉语语文辞书词性标注研究[D];鲁东大学;2006年
9 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
10 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026