收藏本站
《大连理工大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的开放式汉语自动分词

关宏超  
【摘要】: 汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着语料库规模的进一步扩大。 本文在基于统计的汉语自动分词的基础上,引入开放学习机制,通过有监督和无监督相结合的学习方法,建立包含可信度修正和部分三元语法信息的多元分词模型。然后讨论了切分算法和人机交互等几个实现中的具体问题。通过实验确定模型参数和阈值。实验结果表明,引入开放学习机制的分词模型,闭式分词正确率达到99.07%和开式分词正确率达到98.08%,同时增强了分词系统的适应性和消歧能力。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 何儒云,汤艳莉;智能化信息检索研究[J];图书馆;2003年03期
2 赵军;黄昌宁;;基于例子的基本名词短语识别中词语分布相似度的研究[J];模式识别与人工智能;1998年02期
3 谈文蓉;符红光;刘莉;杨宪泽;;一种基于贝叶斯分类与机读词典的多义词排歧方法[J];计算机应用;2006年06期
4 张孝飞;陈肇雄;黄河燕;王建德;;基于锚点词对的双语词对齐算法[J];小型微型计算机系统;2006年02期
5 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
6 买志玉;金澎;曾赛;;基于大规模语料库的汉语词相似计算[J];中原工学院学报;2010年03期
7 陈史政;章权兵;;关于词聚类中二元词聚类的一些探讨[J];福建广播电视大学学报;2007年06期
8 郭雁军;;基于英文文档的WHY问句自动问答技术研究[J];科技传播;2010年12期
9 张健,李素建,刘群;N-gram统计模型在机器翻译系统中的应用[J];计算机工程与应用;2002年08期
10 梁娜;耿国华;周明全;;自然语言处理中的语义关系与句法模式互发现[J];计算机应用研究;2008年08期
中国重要会议论文全文数据库 前10条
1 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 ;汉语共时语料库:持续开发与多维应用[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
3 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
4 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
5 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
7 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
4 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
5 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
6 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
7 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
8 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
9 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
10 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
4 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
5 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
6 何婷婷;语料库研究[D];华中师范大学;2003年
7 葛诗利;面向大学英语教学的通用计算机作文评分和反馈方法研究[D];北京语言大学;2008年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
10 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
3 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
4 吕红周;俄汉双语语料库语义范畴自动标注[D];黑龙江大学;2007年
5 张剑;基于人工神经网络构建英语情态动词may的语义排歧模型[D];燕山大学;2009年
6 程亮;自然语言机务信息中语义句式的研究[D];南京航空航天大学;2006年
7 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
8 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
9 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
10 宋余亮;俄语现代标注语料库的理论与实践[D];中国人民解放军外国语学院;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026