收藏本站
《华东师范大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计NLP技术的甲骨卜辞的分析研究

黄勇杰  
【摘要】:殷墟甲骨卜辞是已发现的最早的汉字,是殷商晚期历史的记载,也是中国语言、文化、历史可追溯的最早源头。对甲骨文的收集、整理、著录和研究,已发展成为一门新学科----甲骨学,建立甲骨卜辞语料库,无疑能极大地帮助甲骨学者利用计算机进行辅助研究,加快研究步伐。 本文以甲骨学者关于甲骨卜辞的考释为研究实例,采用语料库和自然语言处理的理论和相关技术,在建立好的简单语料库的基础之上,对甲骨卜辞语料进行标注,特别强调基于NLP技术的词性标注的实现,试图建立甲骨文卜辞领域的语料库,以便实现知识共享和辅助甲骨学者的考释工作的目的。 本文的主要工作及采用的关键技术如下:首先,围绕着考释甲骨文的目的,提出利用计算机进行甲骨文辅助考释的规划过程,并利用语料库相关技术进行加工、分析而形成简单的甲骨文语料库,同时创建一个简单的分词和词性标注系统。人工部分能对甲骨文卜辞语料进行半自动的分词和词性标注,实现甲骨文语料的信息结构化;自动部分则是通过基于统计的NLP技术完成对甲骨卜辞的分析,实现简单的甲骨卜辞自动分词和词性标注;最后对本文所设计的与实现的分词与词性标注系统的模块结构、物理结构设计等方面进行了详细描述,并对系统性能进行了测试。在文章最后,对甲骨卜辞知识库的应用给出了一些解决方案,并考虑在后续工作中实现对整个语料库进行基于标注信息的信息抽取的算法设计及其系统开发。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张永奎;张彦;安增波;刘睿;;Web新闻语料分词和标注错误分析[J];计算机工程与应用;2007年15期
2 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
3 付国宏,王晓龙;面向真实文本的汉语词法自动分析系统[J];高技术通讯;1999年12期
4 姚天昉,林莉,玉素甫·艾白都拉;基于德语语料库词性标注和统计方法的研究[J];上海交通大学学报;1996年06期
5 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
6 梅勇,王群生,徐秉铮;基于 FoxPro for Windows 的汉语语料库系统的构造[J];华南理工大学学报(自然科学版);1998年01期
7 魏欧,吴健,孙玉芳,sonata.iscas.ac.cn;基于统计的汉语词性标注方法的分析与改进[J];软件学报;2000年04期
8 袁里驰,钟义信;一种新颖的词性标注模型[J];微电子学与计算机;2005年09期
9 张跃,姚天顺;基于结合性自动识别中文姓名[J];小型微型计算机系统;1997年10期
10 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期
11 杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期
12 王挺,陈火旺,杨谊,史晓东;一种自适应词性标注方法[J];软件学报;1997年12期
13 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
14 耿骞,毛瑞;汉语自然语言检索中的词法分析处理[J];情报科学;2004年04期
15 应玉龙;李淼;乌达巴拉;朱海;;基于条件随机场的蒙古语词性标注方法[J];计算机应用;2010年08期
16 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
17 李伯约;白若冰;刘井玉;姜妮;向健雄;;基于英汉平行语料库的汉语信息处理研究[J];外国语言文学研究;2004年04期
18 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报(自然科学版);1999年04期
19 韩东妹;林民;;自动词性标注概述[J];内蒙古科技与经济;2006年01期
20 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
中国重要会议论文全文数据库 前10条
1 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 吴金星;长青;;蒙古语语料库基本加工规范初探[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 孟凡东;徐金安;姜文斌;刘群;;异种语料融合方法:基于统计的中文词法分析应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
2 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
3 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
4 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
5 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
6 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
7 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
8 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
9 孟传良;略谈汉外词典的修订[N];中国图书商报;2005年
10 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
中国博士学位论文全文数据库 前10条
1 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
2 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
5 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
6 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
7 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
8 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
9 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
10 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
2 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
3 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
4 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
5 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
6 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
7 孙静;基于平行语料库的无监督中文词性标注研究[D];苏州大学;2010年
8 李泽中;最大熵结合词语聚类的中文词性标注研究[D];大连理工大学;2010年
9 郑秀玲;“不X是”字串分词歧解及消歧策略[D];上海师范大学;2011年
10 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978