收藏本站
《哈尔滨工业大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于用户信息的自适应输入方法

乔刚  
【摘要】:中文输入法是指为了将汉字输入计算机或手机等电子设备而采用的编码方法,是中文信息处理的重要技术。随着近些年来科技的不断进步,网络时代的来临以及电脑的普及,使得用户对于中文输入的要求越来越高,既要有速度也要有准确率。同时,自然语言处理技术的发展也促进了中文输入方法发生重大变革。在这种环境下,基于用户信息的自适应输入方法就成为人们的迫切需求,人们希望拥有一种为自己量身定做的适合自己的输入法,使自己在使用这个输入法时效率和速度都能得到满足。 那么如何实现这种输入方法呢?中文输入法核心技术就是拼音的切分、音字转换以及候选的生成,所以需要从这几方面入手进行特殊处理、更新和优化。主要方法是根据用户的相关信息或者对用户的输入进行容错处理,来自适应的发生变化。例如先收集用户的使用输入法时的信息、用户的电脑使用日志、IE缓存信息等,然后根据这些信息进行处理来推测用户会对那一个领域的词汇感兴趣,然后把相应的专业词库添加到系统词库中而不必要的词库不需要添加,这样可以缩小系统词库,使词库载入时占用的内存更少、加载更快,并且把这些信息通过中文信息的分词、抽取技术抽取出用户词汇,形成用户词典,更新到系统词库中。 本课题主要进行以下研究工作: (1)拼音容错:针对拼音输入时的一些错误操作(如出现拼写、多输、少输、误输等)做出合理的错误推测,根据推测进行容错处理,容错方法主要包括替换容错、删除容错和交换容错。 (2)用户词库的自适应构建:定期的收集用户的个人信息(包括用户电脑使用日志、IE缓存、用户个人文档等),并对用户信息进行一系列中文信息的处理最终形成用户词库。 (3)词库的自适应更新:系统自动加载通用词库,专业词库作为备选词库,系统根据用户信息,自适应的进行专业词库的添加、删除操作。 上述研究已经应用到INSUN输入法中,为了方便实现新的功能对原有输入法中的一些逻辑结构做了适当优化,使逻辑结构更加合理。 最后,对这种输入方法进行了系统的测试,采用在音字转换之后的准确率来进行性能测试。测试结果表明音字转换的汉字准确率和每行转换的准确率均有了较大提高。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.14

【参考文献】
中国期刊全文数据库 前10条
1 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
2 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
3 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期
4 曲维光;吉根林;穗志方;周俊生;;基于语境信息的组合型分词歧义消解方法[J];计算机工程;2006年17期
5 袁鼎荣;李新友;邵延振;;用于中文分词的组合型歧义消解算法[J];计算机应用与软件;2011年06期
6 王晓龙;拼音语句汉字输入系统InSun[J];中文信息学报;1993年02期
7 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
8 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期
9 罗盛芬,孙茂松;基于字串内部结合紧密度的汉语自动抽词实验研究[J];中文信息学报;2003年03期
10 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
【共引文献】
中国期刊全文数据库 前10条
1 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 高良才;汤帜;陶欣;房婧;;一种自动发现、分割与标注引文元数据的方法[J];北京大学学报(自然科学版);2010年06期
4 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
5 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
6 文娟;王小捷;;中文高频词串的抽取及其在语言模型中的应用[J];北京邮电大学学报;2009年05期
7 徐光侠;封雷;涂演;李成;;基于Android和Google Maps的生活辅助系统的设计与实现[J];重庆邮电大学学报(自然科学版);2012年02期
8 黎孟雄;;基于移动Agent的教学资源智能采集系统的研究[J];长春大学学报;2010年12期
9 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
10 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
3 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
5 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
6 王红滨;刘大昕;;元数据提取综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
7 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
9 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 刘丽艳;盛立东;;一个特定人手写汉字识别系统的实现[A];第八届全国汉字识别学术会议论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 晁冰;基于支持向量机的软件可靠性模型分类及失效分析[D];武汉大学;2010年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 王迈;语言形式化原理[D];上海外国语大学;2011年
4 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
5 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
6 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
7 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
8 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
9 方向红;基于内涵逻辑的现代汉语连接词及关联句式语义研究[D];上海师范大学;2004年
10 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
中国硕士学位论文全文数据库 前10条
1 许旭;韵律对并列结构歧义的消解影响[D];辽宁师范大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
6 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
7 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
8 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
9 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
10 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 刘禹孜,何中市;一种基于SVM和规则消除组合型歧义的算法[J];重庆大学学报(自然科学版);2005年10期
4 徐志明,王晓龙,姜守旭;一种语句级汉字输入技术的研究[J];高技术通讯;2000年01期
5 李新福;赵杰;梁巍;;基于互信息的宋史语料库词表的提取[J];河北大学学报(自然科学版);2006年05期
6 杨长生;何志钧;;汉语同音词汇的辨析[J];计算机研究与发展;1987年01期
7 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
8 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
9 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
10 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
中国重要会议论文全文数据库 前1条
1 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国硕士学位论文全文数据库 前2条
1 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
2 樊庆林;基于笔画的联机手写汉字识别系统的研究与实现[D];安徽大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 谢宇斌;唐启涛;;建立中小型高效快速的模糊查询[J];电脑知识与技术;2011年16期
2 ;《单词大师》(Word Master) 良师益友[J];电子计算机与外部设备;2000年12期
3 陈海燕,何肇基;金属材料专业词库系统的开发[J];金属热处理;2001年05期
4 沉默的石头;;QQ好友昵称怎么输 QQ拼音来协助[J];电脑迷;2010年17期
5 黄希琛;无编码通用词库的高倍逻辑压缩和反向查询技术原理[J];中文信息学报;1994年02期
6 林亚平;异或哈希算法查找中文词组性能评价[J];中文信息学报;1995年01期
7 杨春花;张洁;胡芳立;;一个书面汉语词库系统的设计与实现[J];山东轻工业学院学报;2006年02期
8 罗勇;;利用Excel打造“紫光拼音”股票词库[J];电脑爱好者;2008年06期
9 郭瑞枫;;论词库在IRS中的作用[J];南京大学学报(自然科学版);1986年04期
10 吕强,钱培德,杨季文;一个基于神经网络表示的词库对象实现[J];计算机研究与发展;1993年06期
中国重要会议论文全文数据库 前10条
1 陈小荔;;香港小学一年级拼音识字方法初探(提纲)[A];语文现代化论丛(第八辑)[C];2008年
2 李军杰;;信息化带调拼音在汉语母语学习中的应用[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
3 邵云华;;用户信息行为研究的现状、进展和发展趋势[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 吴文超;;坚持拼写原则,勿拆“拼音铁路”——纪念《汉语拼音方案》公布50周年[A];语文现代化论丛(第八辑)[C];2008年
5 严振华;;可用于盲打的固定码长“数字——拼音组合码”汉字查字表[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
6 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 吐尔根·依布拉音;艾尔肯·伊米尔;;英—维Internet在线翻译系统开发的初探[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 曹阿荣;;汉字的完全声韵码[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
9 娄玉娟;;试论提高英语学习效率[A];江西省抚州市社科联论文集(2002-2003)教育文化类[C];2003年
10 张雅楠;何泾沙;;基于Internet网络身份信息管理[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国重要报纸全文数据库 前10条
1 蔡若愚;还有什么能历久弥坚?[N];中国经济导报;2009年
2 北京 韩继军;把我的词库带回家[N];中国电脑教育报;2000年
3 浙江 楼国栋;让五笔加加拥有智能陈桥的词库[N];电脑报;2002年
4 陈建明;打造你超大的输入法词库[N];中国计算机报;2003年
5 北京 秋风;收复失地,紫光拼音行吗?[N];电脑报;2010年
6 实习记者 孙超逸;腾讯360“隔空交锋”斗争升级[N];北京日报;2010年
7 本版编译 王惠民;打印机暗藏代码可暴露用户信息[N];北京科技报;2005年
8 戴宝纯;ERP实施:提高用户信息满意度[N];中国冶金报;2003年
9 芳群;中华神差[N];建筑报;2000年
10 CUBN记者 陈文喜;安全巨头又爆“口水仗” 奇虎360遭瑞星“后门”诽谤?[N];中国联合商报;2010年
中国博士学位论文全文数据库 前10条
1 孙韬;社会化媒体中提升用户参与度的关键因素研究[D];北京大学;2013年
2 吴丽英;词项装配与合并的最简研究[D];上海外国语大学;2008年
3 肖宇;校园网络信息传播特性与用户影响力研究[D];华中科技大学;2012年
4 张磊;个性化推荐和搜索中若干关键问题的研究[D];北京邮电大学;2009年
5 刘继;基于网络社团分析的协作推荐方法研究[D];大连理工大学;2010年
6 刘鹏;网络用户行为分析的若干问题研究[D];北京邮电大学;2010年
7 陈毅波;基于关联数据和用户本体的个性化知识服务关键技术研究[D];武汉大学;2012年
8 黄琛;下一代互联网认证技术与授权模型研究[D];北京邮电大学;2008年
9 吕宁;基于上下文的个人信息管理研究[D];华中科技大学;2012年
10 熊菲;互联网用户行为分析及信息演化模式研究[D];北京交通大学;2013年
中国硕士学位论文全文数据库 前10条
1 乔刚;基于用户信息的自适应输入方法[D];哈尔滨工业大学;2013年
2 邓蓉;基于本体的深度搜索系统关键词库的构造与研究[D];江西师范大学;2011年
3 侯倩;关于我国SNS网站的研究[D];西北大学;2010年
4 张林林;汉语语文转换中NHMM算法和音库词库设计的研究[D];西南交通大学;2011年
5 何水霞;基于B-Tree索引和BerkeleyDB的中文词库的设计和实现[D];华中科技大学;2009年
6 卢海滨;新时期汉语外来词研究[D];河北大学;2006年
7 翟羽佳;基于社交网站的用户信息行为研究[D];山东理工大学;2013年
8 刘文鹏;基于词库与贝叶斯定理的中文单词分词方法的研究[D];华中科技大学;2012年
9 张黎明;腾讯校友网用户策略研究[D];电子科技大学;2010年
10 张聪;微博用户关注推荐及排名策略研究[D];郑州大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026