收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向WI输入法的新词发现技术研究与实现

周春波  
【摘要】:拼音输入法通过输入拼音串转换为汉字串,转换的准确率很大程度上取决于词典是否涵盖常用词汇,特别是一些新兴词汇。手工向词典中加入新词费时费力,而新词发现技术则从大规模文本中自动挖掘新词,具有自动化、易于发现热门词汇等特点。本文将探讨新词发现技术,并将挖掘出来的新词添加到输入法词典中以期提高输入法的音字转换准确率。 本文首先探讨了两类新词的挖掘方法:情感词以及商品词。在情感词挖掘中,本文提出基于最大流最小割原理的迭代中文情感词挖掘方法,实验结果显示,基于该思想在挖掘主观词方面具有较强能力,其性能高于传统的基于统计模型的主观词挖掘方法;在商品词挖掘中,本文选择用户在购物网站上的搜索日志作为发现商品词的数据来源,并根据搜索日志的数据特点,在对用户查询(query)的自然分词基础上,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。 最后,本文介绍了针对“苹果”公司iOS平台的输入法开发的相关流程,并展示了新词发现技术在WI输入法中发挥的重要作用。WI输入法是哈尔滨工业大学计算机学院语言技术中心网络智能研究室研发的一款面向苹果平台的中文语句级输入法。它的第一个版本于2010年11月11日发布,目前已有用户12万以上,其输入的准确性、流畅性等获得了用户的广泛好评。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.14

【引证文献】
中国博士学位论文全文数据库 前1条
1 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
3 ;The information entropy of a static dilaton black hole[J];Science in China(Series G:Physics,Mechanics & Astronomy);2008年02期
4 贺敏;龚才春;张华平;程学旗;;一种基于大规模语料的新词识别方法[J];计算机工程与应用;2007年21期
5 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期
6 丁建立;慈祥;黄剑雄;;一种基于免疫遗传算法的网络新词识别方法[J];计算机科学;2011年01期
7 贾自艳,史忠植;基于概率统计技术和规则方法的新词发现[J];计算机工程;2004年20期
8 孙晓;黄德根;宋海玉;任福继;;Chinese New Word Identification:A Latent Discriminative Model with Global Features[J];Journal of Computer Science & Technology;2011年01期
9 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
10 罗盛芬,孙茂松;基于字串内部结合紧密度的汉语自动抽词实验研究[J];中文信息学报;2003年03期
中国重要会议论文全文数据库 前1条
1 颜伟;;基于动态流通语料库的VSM新词发现策略[A];2004年辞书与数字化研讨会论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 刘晓梅;当代汉语新词语研究[D];厦门大学;2003年
中国硕士学位论文全文数据库 前2条
1 邱明娟;论新词的发展[D];南京师范大学;2007年
2 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 吴燕琼;;当代汉语新词语中的英语缩略词[J];安徽工业大学学报(社会科学版);2008年06期
2 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
3 王如利;;北京市新英源借词使用情况年龄差异研究[J];北京教育学院学报;2009年04期
4 张庭华;;树立正确的国家体育语言规范观[J];北京体育大学学报;2009年02期
5 王智群;;媒体在新词语传播中的作用和职责[J];编辑学刊;2011年06期
6 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
7 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
8 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
9 金其斌;;试析《朗文当代英语大辞典》新词部分的得与失[J];辞书研究;2007年01期
10 伍巧芳;;新词语词典的释义研究[J];辞书研究;2010年02期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 吴悦;燕鹏举;翟鲁峰;;一种基于二元背景模型的新词发现方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 吴悦;燕鹏举;翟鲁峰;;基于二元背景模型的新词发现[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
4 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
6 谢俊英;;新词语发现手段和新词语词典编纂浅谈[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
7 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
9 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
10 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 李颖玉;基于语料库的欧化翻译研究[D];上海外国语大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年
4 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 杨峰;本体映射关键技术研究[D];吉林大学;2011年
7 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
8 周小玲;基于语料库的译者文体研究[D];湖南师范大学;2011年
9 曾晓洁;现代汉语母语教育演进研究[D];湖南师范大学;2011年
10 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 肖伟;上海市老年乒乓球运动开展现状的调查研究[D];上海体育学院;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
6 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
7 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
8 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
9 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
10 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
3 胡艳波;崔新春;路青;;基于SKOS的知识管理研究[J];电子技术;2011年11期
4 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
5 熊大红;;知识服务模型和农业知识服务平台设计研究[J];湖南农业科学;2009年06期
6 梁贤,林涛;农业科研系统信息服务的现状与对策[J];市场论坛;2004年12期
7 ;日本农业信息化服务的主要特点[J];吉林农业农村经济信息;2006年08期
8 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统[J];计算机工程与应用;2007年09期
9 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期
10 郭庆琳,樊孝忠;基于自然语言理解的自动应答系统[J];计算机工程;2004年13期
中国博士学位论文全文数据库 前3条
1 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
2 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
3 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 常卫丽;领域本体在中文命名实体识别中的应用研究[D];武汉理工大学;2011年
2 王永芳;面向农民的问答系统设计与实现[D];山西大学;2011年
3 张春雨;中国枣网上智能专家系统[D];河北农业大学;2002年
4 王丁;基于中文文本分类的自动诊病系统[D];哈尔滨理工大学;2003年
5 黄辉宇;基于神经网络的不良信息实时监测系统研究[D];燕山大学;2003年
6 马建斌;基于SVM的中文电子邮件作者身份挖掘技术研究[D];河北农业大学;2004年
7 梅胜;基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现[D];南京理工大学;2004年
8 黄春娟;网络环境下个性化信息服务及其响应系统研究[D];南京理工大学;2004年
9 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
10 聂颂;具有自动分类功能的主题搜索引擎的研究[D];天津大学;2004年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁娟娟;现代汉语新词折射出的社会文化信息[J];保定师范专科学校学报;2004年04期
2 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
3 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
4 邱薇;论现阶段新词的产生及其规范问题[J];西华大学学报(哲学社会科学版);2005年02期
5 潘勇;陈云香;;新词新语研究中的几个问题[J];西华大学学报(哲学社会科学版);2006年03期
6 石飞;王炜;;城市路网结构分析[J];城市规划;2007年08期
7 曹聪孙;;时代的脉搏 生活的镜子——《新词新语词典》编后赘语[J];辞书研究;1990年02期
8 周洪波;从隐性到显性:新词语产生的重要途径──兼谈新词新语词典的编写[J];辞书研究;1994年04期
9 陈原;辞书与语言规范化问题[J];辞书研究;1999年02期
10 周荐;从词长看词典语汇单位的确定[J];辞书研究;1999年02期
中国重要会议论文全文数据库 前1条
1 颜伟;亢世勇;;基于语料库的现代汉语新词语动词语法特征的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前1条
1 刘吉艳;汉语新词语词群现象研究[D];上海外国语大学;2008年
中国硕士学位论文全文数据库 前1条
1 骆彬;汉语新词语辅助识别系统的研制[D];中国社会科学院研究生院;2003年
【相似文献】
中国期刊全文数据库 前10条
1 陈华,周家启;网络k度薄弱最小割集及其快速搜索算法[J];重庆大学学报(自然科学版);1989年06期
2 姚波,侯文婷,洪先龙,蔡懿慈;FAME:一个标准单元模式下基于最小割和枚举的快速详细布局算法(英文)[J];半导体学报;2000年08期
3 陆宁,史玉芳,田敏;子系统对复杂网络系统可靠度的影响研究[J];华中科技大学学报(城市科学版);2003年01期
4 伍博;王燕;谷金宏;;基于图论优化的约束纹理合成[J];河南师范大学学报(自然科学版);2010年01期
5 张涛;余卫宇;李植炜;;基于Adaboost和最小割算法的视频人脸检测[J];自动化与仪表;2010年09期
6 章文捷,沈元隆;计算线形和环形连续k-out-of-n:F系统可靠性的新算法[J];通信学报;2000年08期
7 何瑞春;张忠辅;段刚;;网络割的计数[J];大学数学;2007年06期
8 章文捷,沈元隆;不可修线形连续k-out-of-n:F系统的可靠性分析[J];南京邮电学院学报(自然科学版);2000年01期
9 王璐;;基于最小割模型的快递企业配送中心选址建模研究[J];物流技术;2010年12期
10 马国顺;直接寻求最小割求解网络的最大流问题[J];基建优化;1983年05期
中国重要会议论文全文数据库 前10条
1 郑蝉蝉;郭明珠;贾连军;赵芳;孟紫阳;;供水系统抗震可靠性算法比较分析[A];第八届全国地震工程学术会议论文集(Ⅱ)[C];2010年
2 李艳;关宇东;王宏民;王英;;基于push-relabel的视频对象提取算法的研究与实现[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅱ)[C];2008年
3 金凌;吴文虎;吴根清;;基于N-gram语言模型的音字转换栈解码算法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 张若冰;杨娅;勇强;;无创性WI技术评价2型糖尿病患者左心室功能[A];第十届全国超声心动图学术会议论文[C];2010年
5 张艳容;鲁成发;严天慰;吕清;谢明星;王美玲;项飞翔;洪柳;林铤;尹烨华;;无创性WI技术在评估甲亢患者血流动力学改变中的初步探讨[A];中国超声医学工程学会第二次全国浅表器官及外周血管超声医学学术会议论文汇编[C];2009年
6 刘秉权;张凯;王晓龙;;语音识别中基于规则的语言模型的研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
7 顾源泓;施荣杰;陈文斌;沈一帆;;基于能量最小化的Monte Carlo方法在图分割问题上的应用[A];2005年全国理论计算机科学学术年会论文集[C];2005年
8 肖镜辉;刘秉权;;一种非时齐的隐马尔科夫模型及其在音字转换中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
10 王远志;;最大流的矩阵算法[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 ;Wi—Fi芯片组销售额去年增长25%[N];人民邮电;2009年
2 记者 李辉;今年Wi—Fi手机增长强劲[N];中国高新技术产业导报;2010年
3 本报记者 高辉;Wi—Fi直连很精彩[N];网络世界;2010年
4 记者 吴文治;国美在京门店半年内全覆盖Wi—Fi[N];北京商报;2010年
5 ;Wi—Fi网络的2010安全行[N];网络世界;2011年
6 闫冰;Wi—Fi机遇莫错过[N];网络世界;2008年
7 深圳商报实习记者 孙翊 记者 郑恺 实习生 廖铮;深圳商家争装Wi—Fi为抢客[N];深圳商报;2010年
8 记者 赵艳秋;Wi—Fi芯片:多元市场比拼 新一轮竞争开始[N];中国电子报;2008年
9 Wi-Fi联盟首席执行官Edgar Figueroa;Wi—Fi:从未停止的创新[N];人民邮电;2010年
10 ;Wi——Fi借802.11n抢攻全球市场[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 刘龙城;赋权哈明距离下若干网络逆问题的研究[D];浙江大学;2009年
2 刘威;大型管网系统考虑腐蚀影响的抗震可靠性分析与优化[D];同济大学;2007年
3 赵明喜;基于感知特征的网格处理算法的研究[D];上海交通大学;2006年
4 董世都;计算机视觉测量关键技术研究[D];重庆大学;2011年
5 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
6 吴亚东;图像复原算法研究[D];电子科技大学;2006年
7 罗明星;网络安全传输协议的若干问题研究[D];北京邮电大学;2011年
8 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
9 崔雨勇;智能交通监控中运动目标检测与跟踪算法研究[D];华中科技大学;2012年
10 侯叶;基于图论的图像分割技术研究[D];西安电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 周春波;面向WI输入法的新词发现技术研究与实现[D];哈尔滨工业大学;2011年
2 秦波;发电厂电气主接线可靠性研究与实践[D];广西大学;2002年
3 李南希;基于图论的彩色图像分割方法研究[D];华南师范大学;2007年
4 周箴毅;动态场景中基于背景建模的运动目标检测算法的研究[D];上海交通大学;2008年
5 曲彦龄;基于在线选择的图分割技术的研究与应用[D];天津大学;2010年
6 钱摇琨;生命线工程网络系统抗震可靠性分析[D];同济大学;2006年
7 徐秋平;基于图割理论的目标提取方法研究[D];陕西师范大学;2009年
8 李萍;高血压所致不同左房容积患者的WI曲线分析[D];河北医科大学;2011年
9 赵静;WI技术在妊高征患者心血管功能评价中的应用研究[D];吉林大学;2012年
10 刘技;基于图割的CT影像分割算法研究[D];天津医科大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026