收藏本站
《山西大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

中文语料库切分不一致字串分类校验方法研究

苗玺  
【摘要】:语料库是研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。语料库在自然语言处理的许多方面都有重要的应用价值,语料库的建立为语言学的研究提供了丰富的语言现象,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,为计算语言学学者从加工的语料库中获取语言知识、建立语言模型、研究语言信息处理技术,提供了翔实的语言信息数据。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 建设高质量的大规模语料库是中文信息处理领域的基础性工程,是对任何建立在此基础上的其它研究的成果的重要保障。迄今在世界范围内,一个真正经得起各方面推敲并形成一定影响的大型汉语分词语料库严格说来还没有。问题的要害在于分词语料库的质量。而衡量质量的重要标准之一是分词后的语料库是否具有比较高的一致性。 在生成语料库的过程中,因为多种主观与客观原因,不可避免地会产生切分不一致现象,对大型语料库而言,这个现象更为明显。 目前,人们对分词进行了大量的研究,提出了很多有效的切分算法,但对分词结果不一致现象研究的报道不多。因此为了提高语料库的切分质量,本文对切分不一致进行了探索研究。 本文在对语料库中真实发生的切分不一致现象进行了调查研究、统计分析,总结了切分不一致产生的主观与客观原因,主要做了以下的工作: 1.对150万汉字的熟语料进行了统计分析,总结了语料库中分词结果不一致的主要结构类型。 2.提出了规则分类的方法。对具有明显结构特征的切分不一致字串,用人工归纳的19条规则,来进行分类、标记处理。规则的分类方法对语料库中近50%的字串能够有效地进行分类,说明了规则的有效性。 3.提出使用统计的方法:互信息与假设检验-t检验,结合最近邻分类方法对100万的实验数据进行测试计算,获得了切分不一
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王彬;从硬盘上找回丢失的文件[J];中国金融电脑;1995年08期
2 ;数据库[J];个人电脑;1996年06期
3 朱珞华;巧用WPS的重复执行项[J];微型机与应用;1996年12期
4 韩客松,王永成,滕伟;Web页面中文文本主题的自动提取研究[J];情报学报;2001年02期
5 王彬;从硬盘上找回丢失的文件[J];软件世界;1995年06期
6 朱珞华;巧用WPS的重复执行项[J];电子世界;1996年11期
7 鲍峥嵘,王永成,刘功申,韩客松;一种快速的字串交叉模式匹配算法[J];上海交通大学学报;2003年03期
8 王永成,苏海菊,莫燕;中文词的自动办理[J];中文信息学报;1990年04期
9 朱珞华;巧用WPS的重复执行项[J];电脑编程技巧与维护;1996年10期
10 卢卫东;字处理软件“字串查找”功能在电话查号中的应用[J];市场与电脑;1997年02期
11 邹荣金,蔡士杰,张福炎,苏丰,陈冀兵;字符粘连及字线相交的分割与识别方法[J];软件学报;1999年03期
12 郭嵩山,吴汉荣;国际大学生程序设计竞赛试题与算法分析(二) 回溯算法[J];现代计算机;2000年03期
13 任铁良;快速确定含有关键字串文件的方法[J];现代计算机;1996年04期
14 陈永华,姜国才;阿拉伯数字串的汉语字串转换[J];中文信息;1995年01期
15 钟诚;充分用好WPS2000的查找与替换功能[J];电脑;2001年01期
16 王向阳;画笔应用技巧七则[J];计算机时代;1997年06期
17 江龙;飞行的1998[J];电脑爱好者;1998年05期
18 ;根据内容寻找文件[J];微电脑世界;2000年04期
19 赵峰;数据库中字串的模糊查询[J];河南教育学院学报(自然科学版);1997年04期
20 陈桂林,王永成;字串去重的快速算法研究[J];情报学报;2000年03期
中国重要会议论文全文数据库 前10条
1 景新幸;陈远鹏;;基于HHM的实时数字串语音识别系统[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
2 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 刘永初;朱怀球;;一种基于翻译调控信号的原核生物基因组比较方法[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年
9 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 浙江 傅贇歆;Windows系统自动登录的实现[N];电脑报;2001年
2 王霞;校正IE6的小Bug[N];中国电脑教育报;2003年
3 江苏 邱爱东;^C在WPS和Word中的妙用[N];电脑报;2002年
4 重庆 贺簵;让下载文件自动分类[N];电脑报;2004年
5 凯力;让网络隔而不离[N];中国计算机报;2002年
6 王海珍;阎崇年:学术明星非娱乐明星[N];财经时报;2007年
7 水手;软件汉化基础[N];电脑报;2002年
8 李雪;防范墨菲有高招[N];中国电脑教育报;2003年
9 周进;我的QQ你别用[N];中国电脑教育报;2002年
10 狄立赫列;微软怎会如此粗心[N];电脑报;2004年
中国博士学位论文全文数据库 前3条
1 王龙;教育资源推荐服务中若干关键技术的研究[D];吉林大学;2013年
2 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
3 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 陆军;银行支票中手写用途域字串识别[D];南京理工大学;2013年
2 郑秀玲;“不X是”字串分词歧解及消歧策略[D];上海师范大学;2011年
3 孙励;基于微博的热点话题发现[D];北京邮电大学;2013年
4 谷峰;中文网页层次分类研究[D];华侨大学;2007年
5 林一旻;基于不同特征权重的中文网页自动摘要[D];华侨大学;2007年
6 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
7 邓攀;开放式文档同构引擎关键技术研究与实现[D];上海交通大学;2009年
8 戚圣佳;银行开放平台性能管理系统的设计与实现[D];复旦大学;2009年
9 苏劲松;全宋词语料库建设及其风格与情感分析的计算方法研究[D];厦门大学;2007年
10 刘博;中文语料库分词不一致现象的分层校验[D];山西大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978