收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向计算机的现代汉语“得”字研究

骆琳  
【摘要】: 随着信息时代的到来,中文信息的自动化处理越来越显示出其重要价值。然而缺少细致的致力于规则的句法描写已成为严重制约中文信息自动化处理的瓶颈。句法分析作为自然语言处理中的重点和难点,虽然经过几十年的研究与发展,但是当面对大量真实文本的分析时,由于汉语句子的复杂性和灵活性等特点,对汉语句子的完全分析无论在空间上还是在时间上都受到了极大的挑战。部分句法分析(Partial Parsing)作为近年来出现的一个新的语言处理策略,主要着眼于组块(chunk)的识别与分析。尽管部分句法分析的结果并不是一棵完整的句法树,但各个组块是完整句法树的一个子图(subgraph),只要加上组块之间的依附关系(attachment),就可以构成完整的句法树。这样就使句法分析的任务在某种程度上得到简化,同时也有利于句法分析技术在大规模真实文本处理系统中迅速得到利用。 本文以“面向计算机的现代汉语‘得’字研究”为题正基于此,我们希望通过对“得”字结构的识别研究,使之成为完整句法树的一个子图,从而最终实现计算机的自动识别。由于纯粹从为计算机识别服务的目的出发,立足于面向计算机的自然语言信息处理,我们将研究范围限定在无论来源、无论读音、无论词性,凡字形相同的“得”字均在我们的讨论之列。研究重点主要集中在三个方面。 第一,“得”字结构的分布特征研究。在对各类“得”字的句法功能及语义特征进行明确界定的基础上,对“得”字结构的语体分布特征进行了详细的描述,并对表现出来的明显倾向性进行了适当的分析。着重观察“得”字述补结构中“得”前成分与不同语体的对应关系,以及“得”后不同补语类型在各类语体中的分布情况,并分析其分布状况及产生对应关系的原因。 第二,“得”字结构的组合特征研究。在对各类“得”字左右邻接特征分布进行统计的基础上,结合对“得”字左右邻接限制特征的调查,对“得1”、“得2”、“得3”、“得4”的左邻接和右邻接特征及其限制性特征进行了包括隐性邻接在内的详细描述,发现其邻接规律,并就“得”字的左右显性邻接共现情况进行观察和描述;引入“熵”的计算,通过数据的演算进一步说明各类“得”字对左右邻接词语所具有的选择性。 第三,“得”字述补结构的语法及语义分析研究。在借鉴前人研究成果的基础上,从利于计算机识别与处理的观点出发,对“得”字述补结构的结构类型,即可能式述补结构和非可能式述补结构,从句法模式到句法成分间的语义选择进行了明确的界定;并就非可能式述补结构中补语的结构类型进行分类,确立了非可能式述补结构的结构形式与语法意义的对应关系。 本文研究的创新之处在于: (1)首次以为计算机识别服务为目的,立足于面向计算机的自然语言信息处理,对现代汉语的“得”字进行包括语体分布特征、左右邻接特征、语法结构及语义关系等在内的全方位的观察与研究,借助形式标记的发掘,实现对不同类型“得”字结构的鉴别,以适应计算机对不同“得”字“理解”的要求。 (2)运用词汇语法理论,定量统计与定性分析相结合,研究“得”字结构内部成分之间的邻接关系和共现关系。对显性的邻接特征和左右成分共现情况进行了详细的描述,并对隐性的邻接特征进行了预测。 (3)在“得”字的邻接研究中引入“熵”的概念,通过数据的演算进一步说明各类“得”字对左右邻接词语所具有的选择性。同时,也为今后搭配概率的统计分析提供有利的数据支持。 (4)从为计算机的自动识别提供尽可能形式化、可操作的语言学标准的观点出发,对“得”字述补结构的结构类型,从句法模式到句法成分间的语义选择进行了明确的界定;并就非可能式述补结构中补语的结构类型进行分类,确立了非可能式述补结构的结构形式与语法意义的对应关系。 (5)建立大规模的真实文本语料库,自行标注,为本课题研究奠定了坚实的基础,保证了研究结果的信度和效度。首次实现了在大规模的语料库范围内采用基于统计的方法对现代汉语“得”字在真实文本中的使用情况进行穷尽性的研究。 (6)自行研制WordParse软件和DataWord软件,完成数据库建设及数据统计分析,建构前后接续观察和统计系统;首次将XML技术成功地运用于现代汉语语料处理和语法研究,为计算机辅助现代汉语研究作了一些新的尝试。 (7)本研究为致力于规则化的汉语句法描写作了一次有益的尝试。研究得出的结论及建构的框架能为类似字词结构的计算机处理研究提供借鉴,并为今后计算机相关中文信息处理的应用系统的开发提供语言学上的支持。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄正;表面安装焊接的可靠性设计[J];电子产品可靠性与环境试验;1999年04期
2 朱丹;;中文期刊引文研究论著的计量分析[J];重庆广播电视大学学报;2006年01期
3 赵素萍;浅谈变电站综合自动化系统[J];太原科技;2000年05期
4 何永葱;内江师院(专)学报自然科学发表论文的统计分析[J];内江师范学院学报;2001年02期
5 赵柴厚,罗松江;基于Web Services的动态联盟知识集成结构体系研究[J];大学图书情报学刊;2002年03期
6 卢菁,朱夏,陈兆,王茜;Mobile Agent在信息检索中的应用研究[J];东南大学学报(自然科学版);2003年03期
7 周林兴,罗辉;1990—2002年我国档案信息研究论文定量统计分析[J];档案学通讯;2004年01期
8 杨颖娜;并行分布数据库系统的设计及实现[J];甘肃科技;2004年02期
9 阎培丽,赵素萍;变电站综合自动化系统[J];山西电力技术;1999年03期
10 滕颖,唐小我,李仕明;高新技术产业化过程的风险识别及其分布分析[J];研究与发展管理;2000年03期
11 龚纪文,许德如;利用Access97编制科技论文登记及统计数据库[J];华东地质学院学报;2001年01期
12 张亚生,王霖,王计民;大型仓库分布式监控管理系统的设计与实现[J];电子工程师;2003年02期
13 徐汀荣;统计查询完备化的算法设计与实现[J];微机发展;1992年03期
14 孔繁民,姬爱敏;统计中的查找计数方法[J];郑州轻工业学院学报(自然科学版);1992年03期
15 罗守进,冒晓斌;RAPD文献分布的探讨[J];农业图书情报学刊;1997年S1期
16 朱建新,董绵豫;多层不均匀材料中光吸收系数深度分布计算的理论处理[J];光学学报;1998年09期
17 熊新平,卿杜政;局域网下的分布交互攻防对抗仿真[J];系统工程与电子技术;1998年04期
18 周源泉,郭建英;Barlow-Scheuer可靠性增长模型的Bayes限[J];系统工程与电子技术;1998年08期
19 韩慧莲,杨风暴;分布交互仿真及其关键技术[J];测试技术学报;1998年01期
20 曹广华!安达,袁子龙!安达;分布式数据采集与控制系统——现代石油勘探仪器系统的体系结构[J];石油仪器;1998年06期
中国重要会议论文全文数据库 前10条
1 张水华;梅其炳;马璟;;SD大鼠经口灌胃纳米二氧化钛的亚慢性毒性及其体内分布研究[A];中国毒理学会第五次全国学术大会论文集[C];2009年
2 蔡海鸥;张若欣;;AHP的一致性的概率检验法[A];决策科学与评价——中国系统工程学会决策科学专业委员会第八届学术年会论文集[C];2009年
3 纪宏宇;吴琳华;魏华;唐景玲;刘红梅;刘艳;董迪;;伊曲康唑脂质体在小鼠体内的组织分布[A];2009年中国药学大会暨第九届中国药师周论文集[C];2009年
4 王晓伟;马东钦;许兰杰;朱有朋;詹克慧;;黄淮麦区部分小麦种质资源中矮秆基因的分布[A];全国植物分子育种研讨会摘要集[C];2009年
5 王雪啸;文礼章;;关于甜菜夜蛾英文文献统计量概述[A];华中昆虫研究(第6卷)[C];2010年
6 吴永魁;李乾学;夏志平;张锦霞;刘艳辉;张祚新;;诺氟沙星在鲤鱼体内的分布及对鳃弓软骨的毒性[A];中国毒理学会第四届全国学术会议论文(摘要)集[C];2005年
7 张国钢;楚国忠;钱法文;江红星;刘冬平;;黑脸琵鹭在中国大陆的分布及栖息地的保护状况[A];第八届中国动物学会鸟类学分会全国代表大会暨第六届海峡两岸鸟类学研讨会论文集[C];2005年
8 宋震;邹敏;徐小峰;唐科志;刘英;周常勇;;柚新老枝叶中柑橘衰退病毒的DTBIA检测[A];重庆市园艺学会会员代表大会论文集[C];2005年
9 黄莹莹;叶忍记;吴嘉麟;;软物质与新型软全消光纤维-纳米粒子在纤维中的分布[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年
10 周湾;陈为民;王嫩仙;施祖华;;曲纹紫灰蝶在浙江为害苏铁[A];农业生物灾害预防与控制研究[C];2005年
中国博士学位论文全文数据库 前10条
1 骆琳;面向计算机的现代汉语“得”字研究[D];华中科技大学;2007年
2 张巍;中古汉语同素逆序词演变研究[D];复旦大学;2005年
3 吴国升;春秋文字研究[D];安徽大学;2005年
4 许敏;微囊藻伪空胞基因丛的研究[D];中国科学院研究生院(水生生物研究所);2006年
5 丁志英;穿心莲内酯体内转运与药动学研究[D];吉林大学;2009年
6 吕连忠;类星体多谱勒红移研究[D];中国科学院研究生院(云南天文台);2007年
7 曾炜;绝对程度副词及相关形式的应用研究[D];暨南大学;2007年
8 尹洪波;否定词与副词共现的句法语义研究[D];中国社会科学院研究生院;2008年
9 张富文;伽玛暴脉冲时变特征及其对能量的依赖[D];中国科学院研究生院(云南天文台);2008年
10 陈志琼;手性药物多沙唑嗪对映体的研制与药代动力学研究[D];重庆医科大学;2005年
中国硕士学位论文全文数据库 前10条
1 王振广;多维视野下的现代汉语语气副词研究[D];西北师范大学;2009年
2 冯永辉;佛坪、长青保护区箭竹属大熊猫主食竹的分布及生物量研究[D];西北大学;2006年
3 王新刚;人精子蛋白SP22单克隆抗体杂交瘤细胞株的建立及临床应用[D];南京医科大学;2006年
4 李翼;羟基红花黄色素A在大鼠体内吸收与分布的比较研究[D];中国协和医科大学;2007年
5 张菲菲;欧盟条约英语中词类分布的特点[D];大连海事大学;2008年
6 代玉彪;老关庙下层文化研究[D];吉林大学;2009年
7 孟红光;大鼠骨髓间充质干细胞(MSCs)移植在CIA大鼠中定植与分布的研究[D];山西医科大学;2009年
8 黄静静;血清肌酸激酶在常见神经肌肉疾病中的分布及变化规律[D];福建医科大学;2009年
9 陈健;骨髓间充质干细胞在糖尿病模型鼠体内分布及分化的实验研究[D];南通大学;2008年
10 张明;《世说新语》副词研究[D];东北师范大学;2005年
中国重要报纸全文数据库 前10条
1 国家电力调度通信中心副总工程师 辛耀中;分布与集中并存[N];计算机世界;2001年
2 平安证券综合研究所 高春涛;历年股价结构分布[N];中国证券报;2001年
3 银河证券 王政群;主力筹码分布怎么看[N];市场报;2001年
4 广州证券;2001筹码分布提示当前热点[N];财经时报;2002年
5 国信证券聂芳铭;筹码分布露“天机”[N];中国证券报;2002年
6 马宏图 李 铮;一个都市村庄改造的“得”与“失”[N];河南日报;2004年
7 卞思杰;健身设施免费背后的“失”与“得”[N];济南日报;2004年
8 冯亦珍;信息孤岛的资源粗放分布困扰互联网发展[N];科技日报;2001年
9 古雅月;香港行政长官选举法分布[N];法制日报;2000年
10 记者  毛黎;美观测到两颗超新星并肩共现奇观[N];科技日报;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978