收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

大规模语料库分词质量评价方法研究

宋礼鹏  
【摘要】: 在自然语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而,对语料库加工质量检验方法的研究却很少。语料库分词质量的评价问题是汉语语料库的特有问题,已有的简单随机抽样的方法,当语料库规模变大时,无法精确估计分词质量评价中语料库样本的总体方差,同时,为了保证检验的精度,传统抽样方法的检验费用太高。 本文针对大规模语料库分词质量评价中存在的问题,提出了基于聚类的大规模语料库分词质量评价方法。该方法通过对语料库抽样样本进行聚类,实现对语料库抽样样本分词正确率的有效分层,然后对各层样本进行简单随机抽样。主要工作如下: a.研究语料库分词质量评价的抽样方法,采用改进的ISODATA聚类算法实现语料库样本的分层; b.给出语料库样本的结构化方法,用影响分词正确率的主要因素代表语料库样本向量; C.研究聚类中的样本相似性度量公式,采用改进的绝对值法计算。该公式既能反映样本向量间的距离,又能反应样本向量各分量之间的相关性; d.给出聚类结果的评价函数,根据该评价函数可以实现对聚类参数的有益指导,在聚类结束时还可根据评价函数值直接求得聚类所带来的增益。 与已有的简单随机抽样方法相比,本文提出的方法在大规模语料库分词质量评价时,有如下优点; a.通过聚类得到语料库抽样样本分词正确率的分层知识,进而在检验中运用分层抽样带来的增益减少检验的费用: b.用聚类后得到的语料库分词正确率的类别知识很好地解决了语料库分词正确率的方差估计问题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王庆国;;数字正射影像图质量的模糊综合评价[J];测绘技术装备;2004年03期
2 施建勇;闫浩文;;点群分布要素地图综合的质量评价方法[J];矿山测量;2008年05期
3 赵小梅;;半色调图像的质量评价研究[J];电脑编程技巧与维护;2010年10期
4 班武奇,胡月华,朱风云;旅游小区文化质量评价方法[J];科学中国人;1999年08期
5 杨怿菲;;基于空间信息的彩色逆半调图像评价方法[J];计算机应用;2009年06期
6 鲁延京;陈英武;;武器装备体系需求建模质量评价方法研究[J];计算机工程与应用;2010年28期
7 彭强勇;;面向GIS的空间数据质量评价研究[J];安徽农业科学;2011年02期
8 孙凤玲;王金文;方建雷;程颖;花隽芃;;统计过程控制在传感器生产中的应用[J];哈尔滨理工大学学报;2011年03期
9 冯薪桦,丁晓青,吴佑寿;一种虹膜图像的质量评价算法[J];中国图象图形学报;2005年06期
10 胡圣武;王新洲;谢玉波;陶本藻;;基于粗集的GIS产品质量评价[J];武汉大学学报(信息科学版);2006年01期
11 吴冬曼;赵熊;解春伟;林彤;黄晓铃;;网络环境下图书馆服务质量评价方法探析——清华大学图书馆读者满意度调查工作的实践与思考[J];大学图书馆学报;2006年01期
12 文瑛;廖伟志;;非支配解集的质量评价方法[J];广西师范学院学报(自然科学版);2006年02期
13 黄小乔;石俊生;姚军财;杨健;;一种基于S-CIELAB的图像质量评价模型[J];云南师范大学学报(自然科学版);2006年05期
14 张秀华;赵伟;;基于径向基神经网络的数字馆藏质量评价研究[J];情报理论与实践;2009年05期
15 韩孟啸;;遥感数据质量评价方法[J];科协论坛(下半月);2010年03期
16 李昕;洪文学;宋艳东;曹静;马利;;基于多元图形特征与云模型理论的质量评价方法研究[J];计算机应用研究;2010年08期
17 邢素霞;;多光谱图像融合中小波分解层数研究[J];微电子学与计算机;2011年01期
18 刘军;邵振峰;;基于特征结构相似度的遥感影像融合质量评价指标[J];光子学报;2011年01期
19 赵小梅;陈骏骢;;数字加网图像的质量评价研究[J];包装工程;2009年01期
20 魏耀都;谢湘;匡镜明;黄丽;;移动视频质量评价方法及发展趋势[J];电信科学;2010年03期
中国重要会议论文全文数据库 前10条
1 鲍思明;;网络化高标清同播制播系统质量评价及控制[A];2011中国电影电视技术学会影视技术文集[C];2011年
2 魏丽;黄淑娥;李迎春;贺志明;;区域生态环境质量评价方法研究[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“农业气象与生态环境”分会论文集[C];2003年
3 闫靓;陈克安;;一种新的环境声质量评价方法[A];中国声学学会2003年青年学术会议[CYCA'03]论文集[C];2003年
4 东野升云;王世刚;韦健;陈丽伟;吕源治;;基于人类深度感知的立体图像质量评价方法[A];第十五届全国图象图形学学术会议论文集[C];2010年
5 孙娥;丁安伟;;中药饮片质量评价方法及技术平台的建立[A];中华中医药学会第六届中药炮制学术会议论文集[C];2006年
6 张晓炜;耿建飚;;深层搅拌桩处治地基的质量检测及评价方法探讨[A];全国岩土与工程学术大会论文集(上册)[C];2003年
7 张伟松;刘纪平;范荣双;;基于Voronoi图的数字电视台站优化选址分析[A];中国测绘学会2010年学术年会论文集[C];2010年
8 章亭洲;董艳奎;;发酵蛋白类产品的质量评价方法[A];2010年饲料蛋白源应用新技术研讨会暨蛋白源大会论文集[C];2010年
9 钱泳;贾虹;吴国荣;;食物间氨基酸互补作用计算[A];中国营养学会第八届临床营养学术会议暨第三届营养与肿瘤会议论文摘要汇编[C];2001年
10 杨超;吴玲达;;基于视点质量驱动的网格动态简化算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
中国博士学位论文全文数据库 前10条
1 范媛媛;光测设备电视图像无参考质量评价方法的研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2011年
2 张智;居住区环境质量评价方法及管理系统研究[D];重庆大学;2003年
3 田媛;灰度图像无参考质量评价方法研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2010年
4 袁宝玺;超大规模指纹库的索引结构和检索方法[D];北京邮电大学;2013年
5 张艳;立体视频质量评价关键技术研究[D];上海大学;2013年
6 沈丽丽;立体视觉信息客观质量评价算法研究[D];天津大学;2010年
7 钱路路;计算光谱成像技术研究[D];中国科学技术大学;2013年
8 肖冰;人脸画像—照片的合成与识别方法研究[D];西安电子科技大学;2010年
9 赵雪梅;铝合金搅拌摩擦焊接头超声信号特征与质量评价方法[D];哈尔滨工业大学;2010年
10 林翔宇;无参考视频质量评价方法研究[D];浙江大学;2012年
中国硕士学位论文全文数据库 前10条
1 郭晓刚;数字遥感影像构像质量评价方法的研究[D];解放军信息工程大学;2010年
2 陈义如;基于人眼视觉特性的视频质量评价方法研究[D];西安电子科技大学;2014年
3 赵娟;高等教育质量评价方法比较与创新研究[D];山西财经大学;2014年
4 王昌喜;基于加速度信息的上肢动作识别系统设计及动作质量评价方法的研究[D];中国科学技术大学;2010年
5 冉薇;地奥心血康胶囊的质量评价方法研究[D];沈阳药科大学;2008年
6 张江雪;第二次土地调查(农村部分)数据质量控制技术与方法研究[D];中南大学;2009年
7 高亚欣;合成图像的质量评价[D];西安电子科技大学;2013年
8 齐丹丹;注射用丹红(粉针剂)质量评价方法研究[D];沈阳药科大学;2007年
9 袁万立;模糊图像复原及评价方法的研究[D];江南大学;2012年
10 司丹丹;升麻质量评价方法及药物动力学研究[D];沈阳药科大学;2007年
中国重要报纸全文数据库 前9条
1 本报记者 李方;买哪款车最“满意”[N];中国消费者报;2003年
2 本报记者 侯志鸿;航空公司服务水平高过机场[N];中国消费者报;2005年
3 刘荣霞 周婷婷 毕开顺;质量好不好“指纹”能查到[N];中国医药报;2003年
4 本报记者 任丽梅;消费者主权经济时代到来[N];中国改革报;2003年
5 东 黎 记者 曹吉根;“质量指数”成为经济运行航标[N];中国质量报;2004年
6 李哲强 王桂玲 米玉华;河北省水文局提出动态分质水资源评价方法[N];中国水利报;2004年
7 本报记者 吴洁;中药的“指纹”[N];科技日报;2002年
8 记者 王志田 通讯员 王涛;大庆火山岩压裂规范“出炉”[N];中国石油报;2010年
9 主持人 本报记者 王培泉;城市空气质量逐年提高 饮用水不存在安全危害[N];自贡日报;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978