收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的中文分词的研究与实现

崔明明  
【摘要】: 词是最小的能独立运用的语言单位,然而汉语不同于西方语言的一个显著特点是文本中词与词之间没有显式的分隔标记。中文分词是是中文信息处理的基础,在搜索引擎、机器翻译、文本分类等中文信息处理的各项任务中首要做的工作都是中文分词。当今的中文分词方法主要可分为三类:机械分词法;语义分词法和人工智能分词方法。近些年来,中文分词研究取得了一定的进展,但是目前较为成熟的技术都是机械式的分词系统,也就是说都需要大量的人力建立一个人工词典,并随时进行词典的维护。这样浪费了大量的人力,并且难以很好的解决未登录词的识别问题。 本文分析了现有分词解决方案的优势和不足,提出一种基于机器学习的中文分词方法,并实现了机器学习分词模型系统。系统采用机器学习方法为基本框架建自动分词模型,不借助人工词典,设计了机器学习分词系统的四个模块,为每一个模块选择合适的算法并对针对分词系统性能的需要对算法进行了优化。采用N-gram语言模型,运用EM算法迭代地训练模型,优化模型参数。为了进一步提高模型性能,防止EM固有的局部最优问题,本文研究并使用了基于互信息的算法进行词典修剪。考虑到互信息能更好地反映两个字之间的耦合性,对字符串进行划分时,用基于字符间的互信息的方法代替了最大似然估计方法,并且通过多次实验合理的设置了阈值,使得修剪率大大提高,从而使机器建立的词典具有高效性。切分过程系统利用改进正向最大匹配算法,提高了分词切分效率。 本文研究并实现了基于机器学习的分词系统。实验结果表明,所提出的方法通过机器学模型成功的让计算机独立建立了一个分词词典,切分以后得到较高的准确性,准确率达到90.81%,分词速度平均达到了12000字/秒以上,即有较为满意的分词性能,并在解决歧义处理和未登录词识别问题中能够获得满意的结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘征;孙汉卿;;机器学习在入侵检测中的应用[J];职业技术;2011年04期
2 徐栋;;机器学习在网络攻击检测中的应用[J];河南科技;2011年13期
3 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
4 周拴龙;;Lucene.net中文分词算法分析[J];郑州大学学报(理学版);2011年03期
5 陈可佳;;社会网络分析中的机器学习技术综述[J];南京邮电大学学报(自然科学版);2011年03期
6 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
7 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[J];信息网络安全;2011年09期
8 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
9 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
10 段晓阳;马卉芳;韩志杰;王冠男;;无线传感器网络入侵检测系统研究综述[J];电脑知识与技术;2011年13期
11 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
12 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
13 仇颉;;基于机器学习的墙壁图样演化系统[J];微处理机;2011年03期
14 贾志洋;李伟伟;高炜;夏幼明;;基于支持向量机的搜索引擎垃圾网页检测研究[J];云南民族大学学报(自然科学版);2011年03期
15 樊振宇;;软件故障度量方法[J];装备制造技术;2011年08期
16 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
17 刘靖;;基于改进局部保持映射的图像特征提取算法[J];哈尔滨师范大学自然科学学报;2010年06期
18 梁春林;;动态免疫网络在臭氧浓度监测中的应用[J];计算机工程与设计;2011年06期
19 黎超;吴义国;魏星;;基于主成分分析的SMO文本分类[J];现代计算机(专业版);2011年10期
20 张颖彬;孟嗣仪;刘云;;基于SVM的相关反馈图像分类和检索方案[J];铁路计算机应用;2011年08期
中国重要会议论文全文数据库 前10条
1 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
6 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
7 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
8 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
9 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
10 张燕;张付志;;跨系统个性化服务方法和用户模型研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
2 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
3 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
4 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
5 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
6 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
9 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
10 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
4 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
5 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年
6 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
7 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
8 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
9 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
10 万辉;自主载体语义级环境建模和规划的研究与实现[D];沈阳工业大学;2006年
中国重要报纸全文数据库 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
3 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
4 记者 何边;网络化激活人工智能[N];计算机世界;2001年
5 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
6 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
7 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
8 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
9 王育昕吴红梅;高水平原创性科技成果大量涌现[N];新华日报;2008年
10 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978