收藏本站
《中国石油大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

分词连写的中文信息处理

任红梅  
【摘要】: 词是最小的表示独立语义的语言单位,各种自然语言文本的处理都是以词为基础的。可是,汉语文本被表示为连续的汉字串,词与词之间没有明确的分隔标记。显而易见,自动识别词边界,即将汉字串切分为正确的词串的分词问题,就成为了实现中文信息处理的各项任务中的首要问题。长期以来,分词问题也严重地阻碍了中文信息处理的发展。 结合中文信息处理的发展趋势,提出了一种分词连写的中文输入软件,把目前中文信息处理不可逾越的一个阶段——分词,提前到文本输入的时候进行,这是以最低消费和最高精度进行分词的最佳时机。本文在理论及实践上创新之处主要如下:分析了分词连写的必要性和可行性,提出了分词连写的对策:推行分词连写的中文输入软件。提出了基于全切分算法的逐步求精的分词策略,该策略首先利用无交叉歧义边界确定算法来把较长的中文字串分成若干个句子,紧接着对每个句子采用全切分算法,生成中文分词有向图,然后经过确定性切分阶段和未登录词识别阶段,对上述中文分词有向图进行裁边,从而减少有向图的切分路径。利用图论中的邻接矩阵作为转换点,深度优先搜索整个有向图,可以得到所有可能的切分形式。最后对各种切分形式进行综合衡量,利用最少分词原则、断点前后两字的互信息、词语频率等信息给每条切分路径打分,选择合适的分词结果。
【学位授予单位】:

知网文化
【相似文献】
中国重要会议论文全文数据库 前10条
1 鞠爱篱;;从语文现代化看“汉语拼音分词连写”(提纲)[A];语文现代化论丛(第八辑)[C];2008年
2 曹娟;周经野;;隐式分词连写输入方法——解决汉语分词问题的根本途径[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 毛永波;;辞书中成语注音的分词连写问题[A];中国辞书论集1997[C];1997年
4 陆丙甫;;全球化和汉语的优化[A];语文现代化论丛(第七辑)[C];2006年
5 段晓平;;中小学语文教材中的注音规范问题[A];中国语文现代化学会2003年年度会议论文集[C];2003年
6 吴文超;;坚持拼写原则,勿拆“拼音铁路”——纪念《汉语拼音方案》公布50周年[A];语文现代化论丛(第八辑)[C];2008年
7 冯志伟;;英德法语的正词法与汉语拼音正词法[A];中国语文现代化学会2003年年度会议论文集[C];2003年
8 陆丙甫;;增加汉字书写系统的语法信息[A];中国语文现代化学会2003年年度会议论文集[C];2003年
9 丁俊;;党政机关不规范用字现象归因及对策[A];中国管理科学文献[C];2008年
10 张育泉;;注音与拼写[A];中国语文现代化学会2003年年度会议论文集[C];2003年
中国重要报纸全文数据库 前9条
1 叶秀荣;盲文的来历[N];中国档案报;2005年
2 庞可慧;汉语拼音运用中的混乱现象[N];语言文字周报;2007年
3 周有光;我对几个语文问题的看法[N];北京日报;2004年
4 范可育;拼写教学是汉语拼音教学的空白点[N];语言文字周报;2005年
5 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
6 范可育;《语言文字法》确定《汉语拼音方案》拼写和注音两大功能[N];语言文字周报;2005年
7 记者 初霞;排查整改净化语言环境[N];哈尔滨日报;2008年
8 张育泉;拼音贺年卡二三事[N];语言文字周报;2010年
9 记者 龙群;《九江市社会用字管理暂行规定》出台[N];九江日报;2009年
中国硕士学位论文全文数据库 前3条
1 任红梅;分词连写的中文信息处理[D];中国石油大学;2007年
2 左杉;汉语拼音在初级对外汉语教学中的应用研究[D];辽宁师范大学;2008年
3 李辉阳;面向CAI的简述文字判读技术及其应用研究[D];湘潭大学;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978