收藏本站
《山西大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

大规模汉语语料库分词一致性检验技术研究

刘江  
【摘要】:在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要人工来校验,不可避免的会有一定的疏忽和错误,导致了对同一字段在相同的语言环境下的切分结果不一致。这些不一致现象不仅影响了语料库分词的正确率,而且将错误带到了利用语料库资源进行加工的下一步骤。因此,对语料库加工时,必须对其进行一致性的检查和校正,保证语料库加工的质量。因此,应将分词后的语料库是否具有一致性作为衡量语料库质量的重要标准。 本文针对大规模语料库分词一致性存在的问题,首先分别采用基于规则和采用基于支持向量机的分词一致性检验方法来对测试语料进行分析,然后采用将两者相结合的方法来重新测试。该方法通过对语料库不一致字段应用规则和应用基于SVM的方法对不一致字段进行自动校对,实验取得预期的目标,证明两者相结合的方法可以更好的解决分词一致性这个问题。主要工作如下: 1.研究和分析大规模语料库分词不一致性现象及类型,并统计相应的比例,确定论文的研究对象; 2.给出语料库样本的结构化表示形式,用影响分词正确率的主要因素作为语料库样本向量的特征; 3.从人工校对的正确语料中获取分词范例,基于获取的范例统计得到所需实验数据,根据支持向量机的理论对语料进行自动校对,该方法可以较好的提高语料的分词质量; 4.研究利用规则来解决分词一致性问题,提取出若干条规则,并将获取的规则应用于对语料的分词结果的校对,提高语料的分词质量,在校对过程中同时也对规则进行评价; 5.基于以上的思想和方法,分别对基于规则、基于支持向量机以及将两种方法相结合的方法设计实验模型,并分别对每个模型进行了封闭测试和开放测试。 对将两者相结合的语料库切分一致性校验系统进行开放测试后,一致
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
5 郑德权,于凤,王开涛 ,赵铁军;基于汉语二字应成词的歧义字段切分方法[J];计算机工程与应用;2003年01期
6 钱揖丽,郑家恒;文本切分知识获取及其应用[J];计算机工程与应用;2003年02期
7 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
8 宋礼鹏,郑家恒;基于聚类的语料库分词评价方法研究[J];计算机学报;2004年02期
9 张虎,郑家恒,刘江;汉语语料库词性标注自动校对方法研究[J];计算机应用;2005年01期
10 张虎,郑家恒,刘江;语料库词性标注一致性检查方法研究[J];中文信息学报;2004年05期
【共引文献】
中国期刊全文数据库 前10条
1 刘兴远,方顺兴,姚忠国;建筑结构试验数据处理的几种方法[J];四川建筑科学研究;1993年02期
2 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
3 赵彦辉;张乐文;邱道宏;仲晓杰;;基于粗糙集理论的隧道围岩模糊综合评判[J];四川建筑科学研究;2011年02期
4 吕俊;任雪萍;;一种基于粗糙集理论的变压器故障多变量决策树诊断方法[J];安徽电气工程职业技术学院学报;2011年01期
5 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
6 张燕平;提取特征规则的重复覆盖算法(RCA)[J];安徽大学学报(自然科学版);2002年02期
7 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
8 高湘萍;吴小培;沈谦;;基于脑电的意识活动特征提取与识别[J];安徽大学学报(自然科学版);2006年02期
9 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
10 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
3 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
4 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
5 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
6 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
7 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
8 王红霞;田国会;李晓磊;卜范骞;;基于地标信息融合的家庭环境机器人组合导航[A];第二十六届中国控制会议论文集[C];2007年
9 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
10 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
7 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
8 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
9 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
10 易吉良;基于S变换的电能质量扰动分析[D];湖南大学;2010年
中国硕士学位论文全文数据库 前10条
1 郝慧君;CA-MARKOV模型与GIS、RS在土地利用/土地覆盖变化中的应用研究[D];华中农业大学;2010年
2 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
3 郑占;基于CA模型的城市用地扩张模拟研究[D];华中农业大学;2010年
4 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
5 万成;动态环境下的元胞遗传算法研究[D];南昌航空大学;2010年
6 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
7 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
8 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
9 杨新忠;基于案例的地理时空过程表达模型研究[D];山东科技大学;2010年
10 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 关毅,王晓龙,张凯;基于转移的音字转换纠错规则获取技术[J];计算机研究与发展;1999年03期
3 杨俊龙,金勇进;分层抽样技术在应收账款审计中的应用[J];经济经纬;2002年05期
4 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
5 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
6 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
7 刘涌泉;再读词的问题[J];中文信息学报;1988年02期
8 俞士汶;中文输入中语法分析技术的应用[J];中文信息学报;1988年03期
9 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
10 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
【相似文献】
中国期刊全文数据库 前10条
1 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
2 阎辉,张学工,李衍达;支持向量机与最小二乘法的关系研究[J];清华大学学报(自然科学版);2001年09期
3 朱国强,刘士荣,俞金寿;支持向量机及其在函数逼近中的应用[J];华东理工大学学报;2002年05期
4 侯风雷,王炳锡;基于支持向量机的说话人辨认研究[J];通信学报;2002年06期
5 马永军,方凯,刘暾东,方廷健;基于支持向量机和方差的管道内表面粗糙度等级识别[J];信息与控制;2002年05期
6 吴飞,庄越挺,潘云鹤;基于增量学习支持向量机的音频例子识别与检索[J];计算机研究与发展;2003年07期
7 孙延风,梁艳春;支持向量机的数据依赖型核函数改进算法[J];吉林大学学报(理学版);2003年03期
8 朱永生,张优云;支持向量机分类器中几个问题的研究[J];计算机工程与应用;2003年13期
9 朱家元,吴伟,张恒喜,董彦非;一种新型的多元分类支持向量机[J];计算机工程;2003年17期
10 饶鲜,董春曦,杨绍全;应用支持向量机实现计算机入侵检测[J];西安电子科技大学学报;2003年03期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 山东 申世忠;可避免充电器与电池误接的极性自动校对系统及改进[N];电子报;2010年
2 李水根;计算机详解配伍与药效关系[N];健康报;2005年
3 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
4 郑木昌;邮政贺卡兑奖的操作[N];中国邮政报;2008年
5 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
6 蒋宇;用智慧优化编校软件[N];中国新闻出版报;2006年
7 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
8 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
9 ;选择合适的数据挖掘算法[N];计算机世界;2007年
10 周颖;王米渠与中医心理学[N];中国中医药报;2006年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
7 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
8 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
9 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
10 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 刘江;大规模汉语语料库分词一致性检验技术研究[D];山西大学;2005年
2 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
3 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
4 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
5 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
6 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
7 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
8 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
9 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
10 王奇安;基于广泛内核的CVM算法研究及参数C的选择[D];南京航空航天大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026