收藏本站
《大连理工大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的开放式汉语自动分词

关宏超  
【摘要】: 汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着语料库规模的进一步扩大。 本文在基于统计的汉语自动分词的基础上,引入开放学习机制,通过有监督和无监督相结合的学习方法,建立包含可信度修正和部分三元语法信息的多元分词模型。然后讨论了切分算法和人机交互等几个实现中的具体问题。通过实验确定模型参数和阈值。实验结果表明,引入开放学习机制的分词模型,闭式分词正确率达到99.07%和开式分词正确率达到98.08%,同时增强了分词系统的适应性和消歧能力。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP391.1

知网文化
【参考文献】
中国期刊全文数据库 前2条
1 张民,李生,赵铁军,张艳风;统计与规则并举的汉语词性自动标注算法[J];软件学报;1998年02期
2 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
【共引文献】
中国期刊全文数据库 前10条
1 邓曙光;刘金铸;曾朝晖;;基于自学习机制汉语自动分词系统研究[J];平原大学学报;2006年01期
2 张会平;周宁;陈立孚;;跨语言信息检索可视化研究[J];情报科学;2007年01期
3 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期
4 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
5 王海峰,李生,赵铁军,杨沐昀;汉英机器翻译中汉语离合词的处理策略[J];情报学报;1999年04期
6 闫引堂,周晓强;交集型歧义字段切分方法研究[J];情报学报;2000年06期
7 付国宏,王晓龙;基于词形的汉语文本切分方法[J];情报学报;1999年03期
8 冯书晓,徐新,杨春梅;国内中文分词技术研究新进展[J];情报杂志;2002年11期
9 文庭孝,侯经川,邱均平,张洋;汉语自动分词新思维:无词典切分[J];情报杂志;2005年02期
10 吴凡;;信息检索中的中文分词问题研究[J];情报杂志;2008年07期
【同被引文献】
中国期刊全文数据库 前10条
1 丁蔚,倪波,成颖;情报检索的发展——情报学世纪回眸之一[J];情报科学;2001年01期
2 徐海燕,卢晓勤;智能情报检索与NLP[J];情报科学;2001年12期
3 蔡栋;第二代搜索引擎模式探析[J];情报理论与实践;2001年03期
4 高薇薇;国内中文搜索引擎现状述略[J];情报杂志;2001年09期
5 邱君瑞;自然语言处理与信息检索系统[J];情报杂志;2002年03期
6 魏欧,吴健,孙玉芳,sonata.iscas.ac.cn;基于统计的汉语词性标注方法的分析与改进[J];软件学报;2000年04期
7 许龙飞,杨晓昀,唐世渭;基于受限汉语的数据库自然语言接口技术研究[J];软件学报;2002年04期
8 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期
9 张民,李生,赵铁军,张艳风;统计与规则并举的汉语词性自动标注算法[J];软件学报;1998年02期
10 张亮;王树梅;黄河燕;张孝飞;;面向中文问答系统的问句句法分析[J];山东大学学报(理学版);2006年03期
【二级参考文献】
中国期刊全文数据库 前1条
1 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
【相似文献】
中国期刊全文数据库 前10条
1 何儒云,汤艳莉;智能化信息检索研究[J];图书馆;2003年03期
2 赵军;黄昌宁;;基于例子的基本名词短语识别中词语分布相似度的研究[J];模式识别与人工智能;1998年02期
3 谈文蓉;符红光;刘莉;杨宪泽;;一种基于贝叶斯分类与机读词典的多义词排歧方法[J];计算机应用;2006年06期
4 张孝飞;陈肇雄;黄河燕;王建德;;基于锚点词对的双语词对齐算法[J];小型微型计算机系统;2006年02期
5 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
6 买志玉;金澎;曾赛;;基于大规模语料库的汉语词相似计算[J];中原工学院学报;2010年03期
7 谢芳;胡泉;;基于BP神经网络的词义消歧模型[J];计算机工程与应用;2006年12期
8 何婷婷;谢芳;;利用BP神经网络的中文词义消歧模型[J];华中师范大学学报(自然科学版);2005年04期
9 陈史政;章权兵;;关于词聚类中二元词聚类的一些探讨[J];福建广播电视大学学报;2007年06期
10 曹鸿霞;;统计与神经网络相结合的词义消歧模型[J];武汉理工大学学报;2006年08期
中国重要会议论文全文数据库 前10条
1 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 ;汉语共时语料库:持续开发与多维应用[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
3 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
8 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
9 郎君;刘挺;李生;张会鹏;;基于XML的开放式语言技术平台:LTP[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 夏云庆;郝博一;徐睿峰;;意见目标网络与意见目标抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
6 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
7 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
8 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
9 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
10 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 于洋;基于语料库的环境话语中的联合研究[D];山东大学;2013年
3 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
4 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
5 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
6 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
7 李斌;用ELAN自建汉语方言多媒体语料库及其应用研究[D];湖南师范大学;2013年
8 何婷婷;语料库研究[D];华中师范大学;2003年
9 葛诗利;面向大学英语教学的通用计算机作文评分和反馈方法研究[D];北京语言大学;2008年
10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
2 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
3 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
4 吕红周;俄汉双语语料库语义范畴自动标注[D];黑龙江大学;2007年
5 程亮;自然语言机务信息中语义句式的研究[D];南京航空航天大学;2006年
6 张剑;基于人工神经网络构建英语情态动词may的语义排歧模型[D];燕山大学;2009年
7 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
8 杨雅琴;视频字幕识别结果校对方法的研究与实现[D];北京邮电大学;2009年
9 周程远;中文自动分词系统的研究与实现[D];华东师范大学;2010年
10 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026