收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文语转换方法研究

魏文密  
【摘要】: 随着计算机技术的发展,语音交互已经成为人机交互的必要手段。让计算机发出自然流畅的语音是人们梦寐以求的事,随着语言学、语音学、计算机技术的发展这个目标离我们越来越近了。近几年虽然有一些文语转换产品问世,但是,这些产品与人们所期望的成熟产品还有相当大的差距。 本文的主要研究内容是文本分析。它是文语转换的第一个模块,目的是为文语转换系统奠定良好的基础。文本分析主要包括文档结构分析、文本规范化、语法分析、韵律建模和字音转换五个部分。本文的成果主要有: (1)研究了常用的分词词典机制,在此基础上提出了按首字建立一级索引、按次字位号建立二级索引的分词词典的构造方法。该方法既可应用在整词二分分词词典中,也可应用在逐字二分分词词典中。实验表明使用该方法可以提高词典的查找速度。这一方案为提高分词速度奠定了基础。 (2)在对分词方法进行了对比研究之后,针对解决交叉歧义问题提出了两种方法。一种方法是无交叉叠加的方法。这一方法在使用逐字最大匹配法分词之后,对这些词语进行交叉叠加,得出词语的切分方法。无交叉叠加的方法,算法简单有效,但算法的时空性能比动态规划方法要差。二是基于组合特征的分词方法。这一方法根据交叉词语的组合特性,先找出所有可能的组合,然后筛选掉不符合条件的组合,并且可以得出歧义链长和词语组合对照表。根据对照表可直接得出词语的切分方法。这一方法实现简单,而且在算法的时空性能上比现有的分词方法都有所提高。但是,这一方法是针对解决交叉歧义问题的,不适用于解决其它的歧义问题。 (3)在介绍了几种歧义处理方法之后,考虑到本文使用组合方法得出的切分结果是一个个句子,因此,本文选择N元语法进行歧义处理。此外,为了获取N元语法中所需要的每个词语的频率,本文利用互联网的搜索引擎进行统计来获取词频。 这些研究工作为提高分词速度奠定了基础,为解决歧义问题提供了可借鉴的方法,具有一定的参考价值。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
2 俞斌;贾雅琼;;基于DSP的中文语音合成系统[J];电声技术;2006年10期
3 姜红;许超众;;从“斗士”到“智者”:舆论监督的话语转型——新世纪以来《南方周末》文本分析[J];新闻与传播评论;2008年00期
4 王冠一;史诗阳;;由突发事件报道中的媒体话语特征看传媒的社会责任担当——以2008年《南方周末》头版突发事件报道为例[J];东南传播;2009年08期
5 姚徐;郭淑妮;李永宏;于洪志;;多级索引的藏语分词词典设计[J];计算机应用;2009年S1期
6 蔡元哲;李佩;刘红岩;何军;杜小勇;;S-SimRank:结合内容和链接信息的文档相似度计算方法(英文)[J];计算机科学与探索;2009年04期
7 柯平;李健;贾东琴;;图书馆战略规划文本模型的构建[J];图书情报知识;2011年04期
8 江耿豪;;自动答疑系统中文自动分词模块设计与实现[J];现代计算机(专业版);2010年02期
9 赵丽;郭宏文;;基于双字哈希的PAT树词典机制的研究[J];黑龙江生态工程职业学院学报;2011年01期
10 张培颖;李村合;;一种中文分词词典新机制——四字哈希机制[J];微型电脑应用;2006年10期
11 李树涛;沈庆华;;基于粒子群优化的文本图像倾斜检测[J];湖南大学学报(自然科学版);2007年11期
12 麦范金;王挺;;基于双向最大匹配和HMM的分词消歧模型[J];现代图书情报技术;2008年08期
13 何叶青;;手机报探析——以2009移动两会手机报为例,兼与《人民日报》两会特刊比较[J];新闻天地(论文版);2009年Z2期
14 田建国;;论梵·迪克的话语分析理论在大众传播研究中的方法论意义[J];新闻传播;2009年10期
15 张晋升;谢璇;;网络政务监督流行语解读——“躲猫猫”事件的符号特征与传播意义[J];国际新闻界;2010年03期
16 蔺春华;;讲什么与怎么讲——关于“中国现当代文学”课程建设的几点思考[J];浙江传媒学院学报;2010年05期
17 陈玫;蒙祖强;;面向医学知识的中文分词词典设计与实现[J];大众科技;2010年11期
18 王彬彬;张力;;知其人 读其书 行其风——斯诺《西行漫记》文本分析兼谈新闻写作[J];新闻世界;2010年S2期
19 王瑞雷;栾静;潘晓花;卢修配;;一种改进的中文分词正向最大匹配算法[J];计算机应用与软件;2011年03期
20 袁小于;;基于规则的机器翻译技术综述[J];重庆文理学院学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
3 庄丽;包塔;朱小燕;;盲人用计算机软件系统中的语音和自然语言处理技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 肖航;靳光瑾;;现代汉语词语切分歧义库构建[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
6 吴金星;长青;;蒙古语语料库基本加工规范初探[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 多拉;扎西加;欧珠;大罗桑朗杰;;信息处理用藏文词类及标记集规范(征求意见稿)[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 周国清;;期刊研究的方法论自觉——关于《中国期刊产业发展报告 No.1》及其他[A];中国编辑研究(2007)[C];2007年
9 邱晗;周强;;自动获取大规模的汉语紧密组合词汇关联对[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
10 邱晗;周强;;自动获取大规模的汉语紧密组合词汇关联对[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库 前10条
1 赵磊;中华人民共和国对联合国的外交政策[D];外交学院;2006年
2 蔡爱国;中国当代历史小说的叙事策略与文本分析[D];苏州大学;2006年
3 刘统霞;被表述的民俗艺术[D];中央民族大学;2008年
4 郭伟宏;赵岐《孟子章句》研究[D];山东大学;2008年
5 栾英;《牡丹亭》英译的描述性翻译研究[D];上海外国语大学;2011年
6 宋杰;品特戏剧的关联研究[D];上海外国语大学;2007年
7 陈运保;我国初中物理学生辅助用书的结构与功能研究[D];西南大学;2007年
8 卢铭君;论美狄亚疯癫的主题[D];上海外国语大学;2009年
9 孔燕妮;袁枚诗歌理论与实践研究[D];复旦大学;2011年
10 李小坤;英语学位论文的语类特征研究[D];浙江大学;2012年
中国硕士学位论文全文数据库 前10条
1 魏文密;文语转换方法研究[D];长安大学;2007年
2 欧阳薇;欧洲风险沟通研究述评[D];兰州大学;2009年
3 曲怡飞;报纸媒体中高考报道的新闻话语分析[D];西北大学;2007年
4 熊玲林;从关联理论角度看导游词的汉英翻译[D];广东外语外贸大学;2007年
5 柳珊珊;初中理科教科书中科学史的文本分析[D];南京师范大学;2008年
6 姜媛媛;大江文学中的‘奇怪的二人组合’[D];首都师范大学;2009年
7 佟欣;改革开放以来我国民办高等教育政策演变分析[D];上海交通大学;2009年
8 蔡小燕;语文教科书中的异域形象[D];华东师范大学;2009年
9 宋迎;评析中国十年跨文化交际博士论文[D];上海外国语大学;2009年
10 冉凡敏;小说《紫色》中的话语分析[D];哈尔滨工业大学;2006年
中国重要报纸全文数据库 前10条
1 ;BI和文本分析的强强联手[N];网络世界;2007年
2 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
3 戴清;燃烧的激情与虚幻的历史[N];文艺报;2002年
4 ;IBM提供概念搜索技术[N];计算机世界;2005年
5 何志钧;创构现代化精密化的当代文艺学[N];中国文化报;2003年
6 ;关于“俄罗斯当代文艺理论与中国文论研究”的对话[N];中华读书报;2004年
7 任海平;《追风筝的人》感人文本+多层次营销[N];中国新闻出版报;2006年
8 王一川;聚焦于文本的愉悦[N];中国教育报;2005年
9 科大讯飞公司;启动“第三种引擎”[N];计算机世界;2002年
10 北师大天津附中 张鉴;让思维“活”起来[N];天津日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978