收藏本站
《大连理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于字词联合解码的中文分词研究

佟德琴  
【摘要】:中文分词在中文信息处理中起着举足轻重的作用,分词的精度直接影响到后而一系列自然语言处理任务的正确性。近年来,中文分词的发展虽然已取得了骄人的成绩,但由于汉语语言自身的特点,仍存在一系列的难题,很多分词系统往往在个别领域切分的较为理想,而在另外一个领域却表现出不尽人意,因此,跨领域分词也被引入到了SIGHAN Bakeoff 2010评测任务中。 本文在已有的研究基础上,提出了一种新的基于字和词的条件随机场(CRFs)的联合解码模型,把二者结合在一个统一的中文分词框架下,基于字标注的条件随机场CRFs分词,选择的是一条全局最优的路径做分词结果:在全局最优的路径里,某个局部却不一定是最优的,因此,我们把局部最优结果放到统一的模型框架下,再进行二次选择组合最优的结果,通过利用词图能够充分融合词层面的信息、的特点,使两种方法有效地结合起来。 针对跨领域未登录词的特点,提出了一种称为上下文变量(Context Variables)的数据来衡量某个候选词在篇章内的上下文信息;同时,使用语义资源,利用同义词的上下文语境相似的特点,用其同义词的节点代价作为自己的代价,提高了未登录词的召回率。 该方法在SIGHAN Bakeoff 2010的中文简体语料上进行了测试,在四个不同领域中,除了文学领域外,F-值均高于相应相应测试的最好成绩,并且,OOV的召回率分别达到了70.7%、84.3%、79.0%和86.2%。实验结果证明,这种方法不仅结合了基于字标注和基于词标注两种方法的优势,而且能将二者的优势影响扩大,进一步地提高了未登录的识别效果。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
2 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
3 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
4 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
5 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
6 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
7 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
8 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
9 谷俊;王昊;;基于领域中文文本的术语抽取方法研究[J];现代图书情报技术;2011年04期
10 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
中国重要会议论文全文数据库 前10条
1 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
8 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
9 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
10 游世辉;李雪芹;陈子娟;万小平;;结构可靠性分析的随机无网格法与蚂蚁算法[A];庆祝中国力学学会成立50周年暨中国力学学会学术大会’2007论文摘要集(下)[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
3 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
4 谢国宁 谢敬爱;天津临空产业等待起飞[N];中国现代企业报;2006年
5 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
6 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
7 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
8 张韬;谷歌推出“谷歌拼音”力拼百度[N];上海证券报;2007年
9 王翌;互联网2005:个性化生存[N];计算机世界;2005年
10 李永胜;在中文网页搜索质量上 Google险胜百度[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 张晓峰;基于条件随机场的目标提取[D];华东师范大学;2012年
2 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
3 刘春原;基于GIS系统的岩土参数随机场特性研究[D];天津大学;2003年
4 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
5 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 杨卫国;关于强极限定理的若干研究及应用[D];上海交通大学;2007年
7 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
8 陈振龙;独立增量随机场的分形性质[D];西安电子科技大学;2004年
9 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
10 苏项庭;基于粘结裂缝模型的非均匀准脆性材料断裂模拟研究[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 佟德琴;基于字词联合解码的中文分词研究[D];大连理工大学;2011年
2 史鹏治;基于CRFs的产品评论情感分类[D];上海师范大学;2012年
3 李宏波;综合字典和统计分析的中文分词系统的研究与实现[D];武汉理工大学;2010年
4 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
5 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
6 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
7 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
8 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
9 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
10 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026