收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于唐诗语料词的提取与统计分析的研究

刘杰  
【摘要】: 本文研究的内容是“基于唐诗语料库的‘词’的提取与统计分析的研究”。本文主要是采用了基于语料库统计的方法,统计作为一种工具可以用来帮助发现语言事例中隐藏的许多语言现象,统计手段的引入,使人们能够有一个相对客观的标准来判定唐诗中“词”的概念,词汇语义之间的相互关系等,基于唐诗三百首的语料库,对诗中的词进行提取,再利用统计的方法,对诗歌中的词汇进行分析。主要是建立一个基于频度、相对共现度以及插入率的多维度未登录词统计发现的模型。该模型针对汉语中多字词被大量使用的特点对传统的互信息模型进行了改进,提高了统计自动提词的查准率和查全率。 本文首先对语料库的发展现状和计算语言学的现状进行了简要的介绍,主要采用了基于语料库的统计方法,优化了信息论中的互信息概念,提出了基于同现度,结合力度和插入机率的三维的词的统计发现模型,该模型针对传统的互信息模型进行了改进,经实验验证,大大提高了唐诗语料词的提取的准确率。对于唐诗语料的划分,采用了唐诗固有的特点与现代汉语分词技术相结合的方法,取得了较高的效率。文中还对唐诗语料的共现词和对仗此进行了统计分析,但是此部分仅仅是起步阶段,希望在今后的工作中能继续深入研究。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李海涛;刘婷婷;;重庆首家大型语料库总体功能设计[J];福建电脑;2009年09期
2 张普;关于大规模真实文本语料库的几点理论思考[J];语言文字应用;1999年01期
3 王爽;熊德兰;王晓霞;;基于实例的古文机器翻译设计与实现[J];许昌学院学报;2009年05期
4 曹英;徐卫;;基于网页的语料库自动生成[J];电脑知识与技术;2010年23期
5 吴迪;浅谈开发《CONULEXID英汉语言资料库》的意义[J];科技与出版;1998年04期
6 何儒云,汤艳莉;智能化信息检索研究[J];图书馆;2003年03期
7 陆剑江;张霞;;基于Web语料库的知识发现设计与研究[J];计算机应用与软件;2006年07期
8 张亮;王树梅;黄河燕;张孝飞;;面向中文问答系统的问句句法分析[J];山东大学学报(理学版);2006年03期
9 邱悦;;跨语言信息检索研究[J];图书情报工作;2006年10期
10 郝天侠;;跨语言信息检索技术与应用研究[J];情报杂志;2007年12期
11 王清;殷业;;基于Globish的旅游用英汉翻译系统的研究[J];企业科技与发展;2008年12期
12 高璐;;藏语天气预报语音合成系统的初步研究[J];电脑与电信;2009年01期
13 翟东升;王立轻;;燃料电池英语语料库的建库及其应用研究[J];情报杂志;2010年05期
14 袁煜;;正则表达式在外语教学及研究中的应用[J];软件导刊;2011年01期
15 贾自艳,史忠植;基于概率统计技术和规则方法的新词发现[J];计算机工程;2004年20期
16 何婷婷;谢芳;;利用BP神经网络的中文词义消歧模型[J];华中师范大学学报(自然科学版);2005年04期
17 李雪涛;文茂平;杨鉴;;基于Web网页语料构建动态语言模型[J];信息技术;2006年08期
18 任成梅;李春英;;汉英跨语言信息检索探讨[J];图书馆理论与实践;2006年06期
19 黄万武;孙炳文;;数据驱动语言学习—教学模式的转变[J];武汉科技学院学报;2006年11期
20 姜涛;姚天顺;张俐;;基于实例的中文分词-词性标注方法的应用研究[J];小型微型计算机系统;2007年11期
中国重要会议论文全文数据库 前10条
1 王彬;王依然;文采菊;周鑫;;基于标注语料库的《新闻联播》语言特征统计分析[A];第三届学生计算语言学研讨会论文集[C];2006年
2 董宇;陈小荷;;带标注语料库中切分变异的统计分析及思考[A];第三届学生计算语言学研讨会论文集[C];2006年
3 王东波;陈锋;;现代汉语“名+名+名”组合的统计分析[A];第三届学生计算语言学研讨会论文集[C];2006年
4 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
5 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
6 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
7 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
9 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
10 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 林嘉永;资本市场的实验研究[D];厦门大学;2004年
4 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
5 何婷婷;语料库研究[D];华中师范大学;2003年
6 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
7 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
8 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
9 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
10 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘杰;基于唐诗语料词的提取与统计分析的研究[D];吉林大学;2006年
2 孙红鹰;中国大学英语学习者写作中模糊量词的实证研究[D];吉林大学;2007年
3 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
4 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
5 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
6 王文倩;中国英语学习者英语学术论文中模糊限制语研究[D];鲁东大学;2008年
7 骆文婧;中国英语学习者使用话语标记语But的关联视角研究[D];吉林大学;2008年
8 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
9 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
10 李春青;[D];电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 广萍;Sybase全权统筹云南省经济指标统计分析[N];通信产业报;2003年
2 记者彭道宾通讯员李光东;江西省统计分析成绩斐然[N];中国信息报;2002年
3 记者李子明徐新发;桂林市政府领导高度评价统计分析[N];中国信息报;2003年
4 高岩;最高法院确定2010年全国法院司法统计分析重点课题[N];人民法院报;2010年
5 曾毅 刘晶华 沈季;吉林大学:用创新成就明天[N];光明日报;2004年
6 记者 谢卫东;上海:领导干部个人重大事项网上申报[N];中国纪检监察报;2005年
7 新华社记者 马扬;吉林大学:教授不是“铁饭碗”[N];人民日报;2005年
8 记者 刘书臻;滨州统计分析成为市领导重要决策依据[N];中国信息报;2003年
9 本报记者 周国洪;锁定“科学发展”新方向[N];经济参考报;2007年
10 秦抒 田园 本报记者 金姝;叶对根的深情[N];吉林日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978