收藏本站
《安徽大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

中文整句智能输入方法研究

刘政怡  
【摘要】: 自从计算机进入我国,面临的首要问题是中文输入问题。经过20多年的研究,中文的键盘输入从最初的单字输入、词语输入,发展到整句输入,使得输入法越来越具有智能性,能够借助语言的特性提高输入法的性能。中文整句智能输入,实际上是将输入码转换成候选的中文字词,然后根据中文的习惯,选出最大可能的候选语句作为最终的结果。它具有连续输入、不打断用户思路等优点,但是整句转换正确率不高,修改起来比较麻烦,且占用系统资源,使用中不尽人意。本文以拼音输入为例,研究输入法的整句实现,根本目的在于给SR中文笔画智能输入法增加整句功能,使其在竞争激烈的输入法领域占有一席之地。 中文整句智能输入问题可以使用信息论中的信源-信道模型进行描述。假设信源以概率p(S)生成语句S,噪声信道根据p(A|S)把文本的句子转换为拼音序列A。中文整句智能输入问题是根据给定噪声信道输出的拼音序列A,还原原始文本句子S,即选择具有最大后验概率p(S|A)作为输出结果。因此可以采用统计的方法实现中文整句智能输入。在N-gram模型中,把自然语言看成一个离散的马尔可夫模型,假设当前词的出现概率仅与前n-1个词有关,而与其他任何词都不相关。考虑到中文整句智能输入的系统实时性要求,采用二元模型。本文使用SRILM统计语言工具包进行了语料库一元组和二元组的统计,按照首字区位码进行排序,二分查找,有效的建立了便于搜索的统计语言模型。 中文整句拼音智能输入系统包括拼音预处理模块、状态空间生成模块和机器学习模块。拼音预处理模块采用最少分词算法将输入的连续拼音流进行切分,输出一个离散的拼音音节序列,送入状态空间生成模块。状态空间生成模块根据输入的音节构造状态空间,插入对应的候选字词节点,在插入的同时,利用Viterbi动态规划算法,将通用语言模型和用户语言模型通过加权结合起来,计算累积概率,最后由状态空间模型回溯算法得到最优语句候选。状态空间生成模块输出的句子经过用户的联机修正成为正确的句子。该模块修改用户学习的二元统计库的概率值,进行记忆学习,从而使系统的自适应能力越用越好。在状态空间模型中,对于插入操作,即用户在原来输入的基础上接着又输入一个拼音,这时只需对新增的拼音节点与前面的拼音节点可能产生的所有字词候选节点进行累积概率计算,插入到状态空间模型中,对于前面已插入的节点无需任何处理。对于删除操作,则更加方便,只需直接删除与拼音节点相关的候选字词节点即可。而当到达用户输入边界,可以依赖右指针域指向尾节点的候选字词节点累积概率最大者的父指针方便的回溯找到最优语句。 基于以上的框架本文实现了一个基本的拼音整句输入法,利用网络上公布的有限资源,即切分好的1998年1月份《人民日报》作为统计语言模型的训练文本,采用线性插值平滑方法,测试数据取自自然语言处理平台上的文本分类语料库,领域涉及艺术、文学、教育、哲学、通讯、航空、能源、电子、医药、农业等,其整句的平均字转换正确率达到83.81%。为进一步提高转换的正确率,在统计中融入了语言知识,例如长词优先原则、部分语法规则等,平均字转换正确率提高到85.42%。 利用状态空间模型解决了拼音串切分歧义问题。拼音串如果不含分隔符号,则有可能存在歧义,采用一般的切分算法只能保留一种切分结果,而利用状态空间模型,可以将所有歧义组合均保留下来,参与整句拼音转换的竞争,得到全局最优解,而不会因为切分错误较早的将正确答案排除在外。为避免多次构造状态空间模型,进一步提出基于音素的整句实现方法,将音节切分融入整句转换之中,仍然使用状态空间模型,只不过每次插入的是一个音素,而不是切分好的音节,对插入的音素节点,往前搜索,直接将该音素与前面已经输入的音素能组合形成的所有拼音串对应的候选字词插入状态空间,参与整句转换,通过构造一次状态空间模型得到全局最优解。 最后还设计了本输入法和微软拼音输入法的测试程序,对二者的整句功能进行测试对比,不断查找转换错误的原因,对本输入法进行改进。 本文的主要工作: (1)在没有任何原始积累的条件下,利用有限的资源构造了统计语言模型; (2)在实现拼音字词输入法基础上,利用状态空间模型实现了整句输入功能,其转换正确率已基本接近微软拼音输入法; (3)提出了基于状态空间模型的拼音串歧义切分算法,可以得到所有可能的切分组合; (4)提出基于音素的整句实现方法,可大幅提高存在音节切分歧义的整句转换的正确率; (5)实现了本输入法和微软拼音输入法的测试对比程序,便于对本输入法进行改进。
【学位授予单位】:安徽大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.14

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 袁哲;;人工智能在拼音输入法中的应用[J];软件导刊;2010年06期
2 袁哲;;二分法在输入法中的应用[J];软件导刊;2010年12期
中国硕士学位论文全文数据库 前4条
1 周娇;基于生物记忆原理的信息动态智能更替模型研究[D];西安建筑科技大学;2011年
2 高宇栋;基于C/S架构的智能终端字词转换新技术研究[D];宁波大学;2012年
3 翟明新;统计语言模型平滑技术和压缩技术的研究与实现[D];西安电子科技大学;2012年
4 袁廷磊;基于Android平台维吾尔文联想整句输入法的研究与实现[D];新疆大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 刘来旸,瞿有利,樊孝忠;汉语智能输入系统的设计[J];北京理工大学学报;2001年03期
2 黄希琛;王锡龙;;科光智能汉字输入系统软件实现技术[J];长春光学精密机械学院学报;1988年04期
3 吕继兴,蒋文科,臧悦利,屈滨;基于Windows IME汉字输入法的实现[J];河北农业大学学报;2003年S1期
4 戴丹;董芳;;水文输入法的设计与实现[J];大众科技;2006年04期
5 梅勇,王群生,徐秉铮;语音识别后处理中的混合统计模型[J];电子技术应用;1998年03期
6 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
7 徐志明,王晓龙,姜守旭;一种语句级汉字输入技术的研究[J];高技术通讯;2000年01期
8 关毅,王晓龙,张凯;基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用[J];高技术通讯;1998年04期
9 王轩,王晓龙,藏晓莉;统计与规则相结合的计算机音字相互转换技术[J];哈尔滨工业大学学报;1997年04期
10 钟文青,徐秉铮;音字转换系统中字词频的智能调整[J];华南理工大学学报(自然科学版);1995年10期
中国博士学位论文全文数据库 前2条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
2 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
2 张浩华;纳西象形文字信息化处理方法及输入平台的设计与实现[D];昆明理工大学;2003年
3 顾平;一种智能型数码输入技术的研究与设计[D];苏州大学;2005年
4 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
5 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
6 邹荣;大词汇量连续语音识别系统中统计语言模型的研究[D];北京邮电大学;2006年
7 刘武;基于统计机器学习算法的汉语分词系统的研究[D];北京邮电大学;2006年
8 祝嘉;基于GMM的连接词语音识别及大词汇表系统的语言建模[D];苏州大学;2006年
9 娜步青;基于统计的蒙汉机器翻译系统[D];内蒙古大学;2006年
10 李俊;统计机器翻译中解码算法的研究[D];哈尔滨工业大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 李强;“动+趋1+宾+趋2”的语义及结构分析[J];阿坝师范高等专科学校学报;2000年02期
2 史继林;一种少有人提及的省略句[J];阿坝师范高等专科学校学报;2003年02期
3 何清顺;汉英词汇重叠式附加意义对比分析[J];安徽广播电视大学学报;2005年02期
4 高志胜;;现代汉语让步连词研究综述[J];安徽文学(下半月);2008年09期
5 胡蓉;《骆驼祥子》“是”字句浅析[J];安康师专学报;2004年01期
6 年玉萍;试析存现句中的处所词语[J];安康师专学报;2005年02期
7 王松;;基于程度补语句下位分类研究的思考[J];安康学院学报;2012年03期
8 云晓燕;王春英;;基于最大树法的多文档文摘子主题划分[J];辽宁科技大学学报;2009年06期
9 陈子铭;汪红;;基于学习型红外模块的智能家居系统的设计与实现[J];鞍山师范学院学报;2012年02期
10 路崴崴;;“V一下”结构语义分析[J];白城师范学院学报;2010年01期
中国重要会议论文全文数据库 前10条
1 崔岚;阮秋琦;;结点有拥塞的动态最短路径问题的算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
2 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
3 丁昆;牛少彰;;VC++下利用窗口子类化和DDX技术实现密码保护[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
4 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 谢利军;;某机载计算机专用检测设备的设计[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
7 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 唐永明;王小捷;文娟;;基于关联词的复句语言模型[A];第三届中国智能计算大会论文集[C];2009年
9 阚道宏;吴文虎;;句法知识在语音输入系统中的应用[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
10 徐志明;王晓龙;张凯;关毅;孙玉琦;;语音识别语言理解模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
中国博士学位论文全文数据库 前10条
1 郭红;基于第二语言教学的汉语语气范畴若干问题研究[D];南开大学;2010年
2 谷峰;先秦汉语情态副词研究[D];南开大学;2010年
3 刘艳红;唐五代方位词研究[D];南开大学;2010年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 王俊;现代汉语离合词研究[D];华中师范大学;2011年
6 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
7 余成林;汉藏语系语言存在句研究[D];中央民族大学;2011年
8 林新宇;汉语和韩国语话题句对比研究[D];中央民族大学;2011年
9 朴锦海;汉韩频率副词对比研究[D];中央民族大学;2011年
10 熊德米;基于语言对比的英汉现行法律语言互译研究[D];湖南师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 乌晓丽;“X+—N比—N+VP”表义功能新探[D];辽宁师范大学;2010年
2 程艳;日语被动态汉译的研究[D];上海外国语大学;2010年
3 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
4 蒋孟奇;声纳图像数据的高速显示技术研究[D];哈尔滨工程大学;2010年
5 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
6 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
7 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年
8 伍凌;“可是”的虚化及三个平面研究[D];湘潭大学;2010年
9 李佳;印尼留学生11类有标转折复句习得顺序研究[D];江西师范大学;2010年
10 陈盈新;中高级泰国学生汉语能愿动词习得研究[D];广西民族大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 郑娟;;记忆原理在词汇教学中的应用[J];安徽农业大学学报(社会科学版);2008年01期
2 杨志新;谢威士;;以记忆项目自身信息作为提示线索的指向遗忘[J];北京大学学报(自然科学版)网络版(预印本);2007年02期
3 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
4 张淑萍,袁保社;一种手机数字键盘的维吾尔文字母输入法[J];电脑知识与技术;2005年26期
5 张瑞强,王作英,陆大 ;关于汉语音字转换中语言模型零概率的问题[J];电子学报;1998年08期
6 黄永文,何中市;基于全局折扣的统计语言模型平滑技术[J];重庆大学学报(自然科学版);2005年08期
7 徐志明,王晓龙,姜守旭;一种语句级汉字输入技术的研究[J];高技术通讯;2000年01期
8 骆卫华;刘群;白硕;;面向大规模语料的语言模型研究新进展[J];计算机研究与发展;2009年10期
9 刘政怡;吴建国;李炜;;基于整句输入法的状态空间模型[J];计算机工程与应用;2008年30期
10 邢永康;马少平;;统计语言模型综述[J];计算机科学;2003年09期
中国重要会议论文全文数据库 前1条
1 华绍和;蒋顺炳;陈一凡;;有关汉字键盘输入的国家标准与规范[A];中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会论文集[C];2002年
中国博士学位论文全文数据库 前1条
1 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 宁栗;基于Android平台视频监控系统的设计[D];北京邮电大学;2011年
2 李增辉;Android浏览器应用开发平台的研究[D];北京邮电大学;2011年
3 郭凯敏;基于Android平台的维吾尔文智能输入法研究与实现[D];新疆大学;2011年
4 刘瑞顺;基于Android平台的智能手机输入法研究与设计[D];汕头大学;2011年
5 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
6 顾平;一种智能型数码输入技术的研究与设计[D];苏州大学;2005年
7 戴石麟;汉字编码输入法研究[D];重庆大学;2005年
8 黄永文;基于互信息的统计语言模型平滑技术[D];重庆大学;2005年
9 邹荣;大词汇量连续语音识别系统中统计语言模型的研究[D];北京邮电大学;2006年
10 韩卓平;基于统计语言模型的手机中文输入系统的研究与实现[D];苏州大学;2006年
【二级引证文献】
中国硕士学位论文全文数据库 前5条
1 潘海东;智能造字输入系统的优化与完善[D];华南理工大学;2011年
2 樊波;非智能手机输入法的设计与实现[D];北京邮电大学;2012年
3 袁廷磊;基于Android平台维吾尔文联想整句输入法的研究与实现[D];新疆大学;2013年
4 王霈珺;基于语言模型的OCR识别后蒙古文文档错误校正方法的研究[D];内蒙古大学;2013年
5 王世元;基于文本服务框架的拼音输入法客户端设计与实现[D];哈尔滨工业大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 谭毓安,张治中,张雪兰;汉字输入系统的分析与设计[J];兵工自动化;1995年03期
2 樊孝忠,柳林,任锋;汉字智能输入刍议[J];兵工自动化;1995年04期
3 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
4 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
5 苏伟,崔广才,黄希琛,赵建平;中文WINDOWS智能汉字输入系统通用接口设计[J];长春光学精密机械学院学报;1997年02期
6 张建康;试析“不完整句”[J];重庆广播电视大学学报;2001年01期
7 吕继兴,蒋文科,臧悦利,屈滨;基于Windows IME汉字输入法的实现[J];河北农业大学学报;2003年S1期
8 李晶皎,孙杰,张俐,姚天顺;语音识别中HMM与自组织神经网络结合的混合模型[J];东北大学学报;1999年02期
9 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
10 江铭虎,朱小燕,袁保宗;语音识别与理解的研究进展[J];电路与系统学报;1999年02期
中国重要会议论文全文数据库 前3条
1 华绍和;蒋顺炳;陈一凡;;有关汉字键盘输入的国家标准与规范[A];中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会论文集[C];2002年
2 魏立钦;;形码类输入法的特点及汉字编码发展探讨[A];中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会论文集[C];2002年
3 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
中国硕士学位论文全文数据库 前3条
1 张建勋;汉字键盘输入和非键盘输入若干问题研究[D];安徽大学;2003年
2 张俊;基于神经网络的拼音汉字转换[D];南京理工大学;2004年
3 戴石麟;汉字编码输入法研究[D];重庆大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026