收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究

赵小兵  
【摘要】: 从一个民族的语言系统来说,词汇是承载语言信息的基本载体,它是语言系统中最活跃、最具生命力的元素。假若没有了词汇,语音发挥不了作用,语法也无法建构起来,三要素中词汇占有十分重要的地位。然而,语言不是静止的,它在运用中不断地产生变化,语言是具有生命力的“活”的语言,是一个“语言生态系统”。在语言系统中,社会生活的变化总是最先反映到日常的词汇使用中。因此,三要素中又以词汇的发展变化范畴最大、速度最快。 基本词汇的词是一个民族的人民日常都在使用的、不容易变化,比较稳固的词语,它们一般都具有较强的构词能力,是语言中派生新词的基础。基本词汇是语言词汇系统的核心,基本词汇的研究对语言教学、词典编纂以及语言信息处理等领域应用都具有重要的意义。然而由于基本词汇所具有的“全民常用性、历史稳固性及构词能力强”三大特性概念宽泛、评判标准模糊,而且其量化标准受限于计算语言学的发展程度,因而以往对基本词汇的研究及认定大都限制在语言学家例证性的范畴内,极少进行定量的分析与考察研究。 因此,本论文首先对基于动态流通语料库上进行研究的基本词汇、通用词汇给出了概念界定,并在此基础上确立了本文的研究目标,那就是:在现代汉语动态流通语料库上实现现代汉语基本词汇的自动识别及提取方法研究。 本论文研究将以北京语言大学“国家语言资源监测与研究中心”(平面媒体)的动态流通语料库中的2002~2006年大陆地区发行的六份主流报纸(《人民日报》、《北京青年报》、《北京晚报》、《法制日报》、《环球时报》、《羊城晚报》)作为考察对象,动态跟踪和考察词汇在大众媒体中的真实使用情况。本论文首先提出了词语通用度的计算公式,据此计算并提取“语言工程用现代汉语通用词”CCWE,然后在CCWE词汇范畴内进一步考察语言学家例证所获得的CBVE先验集词汇所具有的统计特征类型,确立基本词汇的特征描述向量,采用遗传算法构造基于动态流通语料库的“语言工程用现代汉语基本词汇”CBVE自动识别及提取模型,实现CBVE的自动提取,为现代汉语基本词汇的研究提供了一种量化考察途径。 本论文的研究内容主要包括: ◇词语预处理: 词语的预处理主要是将网页格式语料文本转化为纯文本格式语料。 ◇文本领域分类、词语切分: 为了计算词语在不同领域的通用程度,需要将语料进行领域分类。本研究将语料分为“政治”、“经济”、“教育”等十个领域类。 ◇CCWE通用词汇特征描述及自动提取: 根据本文对CCWE通用词汇的界定,描述词语通用度特征,提出词语通用度计算公式,进而实现CCWE的自动提取。 ◇构建CBVE基本词汇先验集: 研究语言学家用举例法所获得的基本词汇先验集,根据其特征表现,获取CBVE自动识别及提取模型的构建标准。 ◇选择CBVE基本词汇特征向量: 依据CBVE基本词汇所具有“常用性、稳定性和能产性”的统计特征属性,选择CBVE自动识别及提取模型的特征向量。 ◇构造CBVE基本词汇训练初始集: 对CBVE先验集通过聚类方式进行分类,根据不同的CBVE先验集类别辅助人工标注CBVE训练初始集,为训练和构造CBVE自动提取模型提供保证。 ◇采用遗传算法训练CBVE自动识别及提取模型: 在训练集上,采用遗传算法训练CBVE自动识别及提取模型参数,直到CBVE集合趋向稳定为止。 ◇CBVE自动识别提取模型对比实验分析: 为验证本研究所构造的CBVE的自动识别和提取模型的性能,设计实验进行相关的对比分析。 ◇CCWE通用词汇和CBVE基本词汇专项考察分析: 进行与CCWE通用词汇和CBVE基本词汇研究相关的一些专项考察分析。 本论文的研究创新点及主要贡献体现在如下几个方面: ◇在大规模的动态流通语料库中,考察了大众媒体报纸的词汇真实使用情况。处理考察的语料规模庞大,覆盖文本数632,255个,词次总数247,257,749,不同词数8,750,105。 ◇首次提出了在动态流通语料库中定量分析和考察CBVE基本词汇特征的一种方法,为今后基本词汇从定性研究过渡到定量研究提供了一种途径。 ◇提出了一种词汇通用程度的计算方法,为词汇统计特征考察提供了一种新的计量指标。 ◇借鉴了模式识别领域的研究方法,依据遗传算法搜寻特征向量空间范围广、收敛速度快、鲁棒性强等特点,将其应用到对CBVE自动识别及提取模型的参数训练上,获得了令人满意的结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 熊向荣;;语言研究范式多元化浅析[J];湖南城市学院学报;2007年03期
2 张乃玲;;大学新生英语阅读动机研究[J];山西财经大学学报(高等教育版);2010年S1期
3 曹智峰;;社会网络与语言变异[J];绍兴文理学院学报(哲学社会科学);2011年03期
4 沈榕秋;谈汉语方言的定量研究[J];语文研究;1994年02期
5 常俊跃;;研究范式的选择与我国的外语教学研究[J];外语界;2005年05期
6 李旭东;张善余;;贵州喀斯特高原人口分布的自然环境因素 Ⅰ主要影响因素研究[J];西华师范大学学报(自然科学版);2006年03期
7 王馨雪;;外语教学研究中范式的选择——定量与定性[J];佳木斯教育学院学报;2011年01期
8 秦亚青;;A老师和她的研究课[J];留学生;2010年07期
9 ;辽宁大学出版社新书介绍[J];社会科学辑刊;1986年04期
10 戴斌荣;定量与定性结合——心理学研究方法的发展趋势[J];盐城师范学院学报(人文社会科学版);2005年01期
11 刘晓丽;教学行动研究在大学英语阅读教学中的应用[J];芜湖职业技术学院学报;2005年03期
12 江静;;英汉概念隐喻定量定性分析[J];高等教育与学术研究;2006年01期
13 常俊跃;张英一;吴颖;;关于首次实施2004年高校英语专业八级考试大纲的调查与分析[J];外语与外语教学;2006年07期
14 石爱兵;;九十年代后离合词研究综述[J];和田师范专科学校学报;2006年06期
15 步延新;张和生;;抽样方法在语言学研究中的运用[J];语言文字应用;2006年S2期
16 李游子;;口译学习指标和测试评估[J];外语研究;2007年02期
17 蔡黎曼;黄虹;;西方音乐心理学研究方法对我国音乐心理学研究的启示[J];中国音乐;2007年02期
18 吴日升;邸立英;张杏文;;手机禁忌语使用研究——大学生手机禁忌语使用态度调查[J];河北师范大学学报(哲学社会科学版);2008年01期
19 张敏娜;师谦友;;西安市城市化进程与人居环境的定量研究[J];安康学院学报;2008年02期
20 高娟;孟宪磊;;我国的英语词汇学习策略实证研究回顾[J];科技信息(学术研究);2008年16期
中国重要会议论文全文数据库 前10条
1 周海清;王恭先;陈正汉;;基于面向对象遗传算法的抗滑桩优化设计程序的研制[A];中国土木工程学会第九届土力学及岩土工程学术会议论文集(下册)[C];2003年
2 吴建生;金龙;;基于实数编码的遗传算法神经网络预报建模研究[A];推进气象科技创新加快气象事业发展——中国气象学会2004年年会论文集(下册)[C];2004年
3 申元霞;张翠芳;;GA-BP算法在系统辨识中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 刘辙;彭亮;崔广才;吴学礼;;混合遗传算法在车间调度中的应用[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
5 曹春红;李文辉;张永坚;;遗传蚂蚁算法在几何约束求解中的应用[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
6 姜楠;张春森;;遗传算法在图像模板匹配中的应用[A];高精度几何量光电测量与校准技术研讨会论文集[C];2008年
7 朱秀娥;周宝焜;;振动筛设计的遗传算法[A];福建省科协第三届学术年会装备制造业专题学术年会论文集[C];2003年
8 何奉道;梁向阳;;基于遗传算法的机车周转图优化编制方法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
9 刘忠凯;薛正辉;任武;李伟明;高本庆;;用遗传算法优化八木天线[A];2005'全国微波毫米波会议论文集(第二册)[C];2006年
10 汝勇;杨树强;;遗传算法在历史性约束组合优化问题中的应用[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
中国博士学位论文全文数据库 前10条
1 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
2 张旭;具有拓扑结构布局优化的理论及算法[D];大连理工大学;2004年
3 廖平;基于遗传算法的形状误差计算研究[D];中南大学;2002年
4 周明;高新技术产业投资环境系统研究[D];西北工业大学;2006年
5 张需溥;小型化微带天线的设计与数值分析[D];上海大学;2004年
6 杨春成;空间数据挖掘中聚类分析算法的研究[D];解放军信息工程大学;2004年
7 方娟;基于移动代理的网格资源监控技术的研究[D];北京工业大学;2005年
8 崔晓芳;箱型结构焊接变形预测、控制及应用[D];大连交通大学;2005年
9 张材;薄带坯铸轧板形智能识别与控制系统研究[D];中南大学;2004年
10 田方;遗传算法的改进研究及其在压缩机性能分析与优化中的应用[D];东北大学;2006年
中国硕士学位论文全文数据库 前10条
1 朱奉梅;遗传算法在高校排课系统中的研究与应用[D];东北大学;2009年
2 孙晓丽;基于遗传算法的既有线平面及纵断面整正优化设计[D];中南大学;2010年
3 冯秋霞;解最小生成树问题的新的遗传算法[D];西安电子科技大学;2010年
4 郭佳;基于遗传算法的认知无线网络资源分配技术研究[D];西安电子科技大学;2010年
5 宋品;基于改进遗传算法的波束形成技术研究及其应用[D];西安电子科技大学;2010年
6 梁云静;基于遗传算法的主题爬虫搜索策略研究[D];湖北工业大学;2010年
7 高建兵;基于遗传算法的模糊推理控制系统的参数优化研究[D];辽宁工程技术大学;2011年
8 李振业;多向变异遗传算法及其优化神经网络的研究[D];华南理工大学;2011年
9 栾丽霞;遗传算法在潍坊商校排课系统的研究与应用[D];电子科技大学;2011年
10 王辉;基于改进遗传算法的物流配送路径优化研究[D];山东科技大学;2010年
中国重要报纸全文数据库 前10条
1 朱佩娴;定量研究需“三思”[N];人民日报;2011年
2 陈云松 范晓光 牛津大学Nuffield学院社会学系;浙江省社会科学院;定量研究须直面因果判断[N];中国社会科学报;2011年
3 记者 孙国根;烧秸秆污染大气定量研究获突破[N];健康报;2011年
4 杭兴龙周剑波;破一破“定量”迷信[N];解放军报;2008年
5 陶海 向蜀芳 李玉花;我国疼痛定量研究有新突破[N];科技日报;2001年
6 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
7 高天庆 敖庆达;文学理论中的定量研究[N];文艺报;2004年
8 ;如何进行定量研究[N];中国计算机报;2002年
9 江其勤江兴歌 李志明;完善油气资源潜力定量评价方法[N];中国石化报;2008年
10 陈启光 申春悌 张华强;在中医证候定量研究中应用结构方程模型可行[N];中国医药报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978