收藏本站
《湖北工业大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于沙普利值的中文文本识错研究

夏恒  
【摘要】:在计算机全面普及的今天,使用计算机进行中文信息处理已经成为当今人们工作、生活中必不可少的一部分。现代社会需要计算机具有准确的中文输入、中文显示、文本编辑和输出等文本处理等功能,同时,也需要计算机可以智能地进行文本识错。 中文识错方法研究是中文信息处理领域是一个重要的研究方向,做好中文识错的处理首先要解决的基础难题是对文本进行准确的识别——这就需要对文本进行准确的分词,再对分词后的文本进行识错处理。本课题是在实验室已取得的基于特殊标志符的分词基础上进行中文识错方法研究,其主要研究内容是对待处理的文本进行分词,然后核查语句或句子是否正确,如果不正确,能将不正确的词语提取出来并提出修正建议。 本文主要进行了以下三方面的工作: (1)对实验室已取得的研究成果——特殊标志符分词算法进行改进。即:在中文文本句子中,选择具有特殊意义和作用的字词或者是符号作为标志符,运用改进的特殊标志符算法对中文文本进行更加精准的分词。 (2)引入N-gram模型对已分词的文本进行语段一级的识错。即:假设中文文本中的第N个词只与它前面出现的N-1个词相关,与文本中的其他词语都不相关,这样对于句子出现的概率而言,等于其每个词语出现的概率的乘积。运用N-gram模型可以进行语段识错。 (3)运用博弈论中沙普利值的概念,对语段组建博弈模型,查找文本中词汇级错误。即:在数据库的支持下,运用到博弈论的沙普利值来得出随后的最大的可能性词语,这样可以提高遍历比较的准确度。 中文的识错与修正是一个非常有意义的工作,虽然我们对基于沙普利值的中文文本识错策略进行了一些研究,但由于此领域涉及的知识领域广,实现起来复杂繁琐,需要用到的数据量大,而短短的研究生学习期间能够做的工作非常有限,所以还有很多不足的地方仍需进一步改进和完善。
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 刘浪;唐海军;陈仲君;;Shapley值在动态联盟利益分配博弈分析中的应用[J];工业工程;2006年06期
2 高伟锋;刘连芳;;基于分词和基于N-Gram的网页分类系统比较研究[J];广西科学院学报;2005年S1期
3 何晓明;洪亲;蔡坚勇;林鸿;;基于n-gram中英文字符串分割算法实现[J];电脑知识与技术;2012年23期
4 李凌;王翔;;论博弈论中的策略思维[J];上海经济研究;2010年01期
5 李继锋,刘群;基于N-Gram模型的高速汉字编码识别系统[J];计算机工程与应用;2004年03期
6 陈笑蓉;秦进;汪维家;陆汝占;;中文文本校对技术的研究与实现[J];计算机科学;2003年11期
7 李建华,王晓龙,王平,王淑清;多特征的中文文本校对算法的研究[J];计算机工程与科学;2001年03期
8 张仰森;俞士汶;;文本自动校对技术研究综述[J];计算机应用研究;2006年06期
9 林伟;柳荣其;徐熙;;一种基于N-Gram的垃圾邮件过滤方法研究[J];计算机应用与软件;2010年02期
10 李文;洪亲;滕忠坚;石兆英;胡小丹;刘海博;;基于n-gram的字符串分割技术的算法实现[J];计算机与现代化;2010年09期
中国硕士学位论文全文数据库 前3条
1 陈永超;基于字数差别因子的中文文本相似度研究[D];湖北工业大学;2011年
2 李腊腊;基于特殊标志符的中文分词算法研究[D];湖北工业大学;2010年
3 桓乐乐;基于马尔科夫模型词序因子的文本相似度研究[D];湖北工业大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 李建伟;刘学振;李洁勇;;博弈论在房地产企业中的应用[J];安徽建筑;2006年04期
2 赵莉;;基于OCR的拼写校正系统[J];兵工自动化;2010年09期
3 贺亚兰;;高校毕业生就业市场的博弈分析[J];北京理工大学学报(社会科学版);2005年06期
4 戴剑;;高校二十年“体教结合”问题的多维度审视[J];长春师范学院学报;2011年04期
5 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
6 曾群华;邓江楼;张勇;潘芬萍;;基于新制度经济学的同城化研究[J];城市观察;2012年02期
7 鲁明勇;彭延炼;;我国旅游研究应用博弈论的现状及问题[J];科技和产业;2006年08期
8 姚作芳;刘兴土;杨飞;;马尔科夫方法修正的灰色模型在吉林省粮食产量预测中的应用[J];地理科学;2010年03期
9 朱锋;;基于shapley值法分析信息分布状况对联盟的影响[J];东南大学学报(哲学社会科学版);2009年S1期
10 张霞;马一宁;陈静汝;;一种基于用户查询意图的聚类分析算法[J];电脑知识与技术;2012年14期
中国重要会议论文全文数据库 前9条
1 范冬;肖条军;杨丹琴;;大型工程物资采购的合作博弈分析[A];第二十七届中国控制会议论文集[C];2008年
2 孙浩;何华;;拟阵上集合对策的拟边缘贡献解(英文)[A];中国运筹学会第八届学术交流会论文集[C];2006年
3 王愚;陈冬梅;张小敏;;基于和谐度的虚拟企业利益分配策略研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
4 梁加驰;沈竞;;基于R语言的MCMC方法研究[A];第十届中国不确定系统年会、第十四届中国青年信息与管理学者大会论文集[C];2012年
5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 包敏娜;华沙宝;;蒙古文扫描识别系统自动校正算法设计[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 买合木提·木合买提;吐尔根·依布拉音;;基于音节的维吾尔语文本校对系统的研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 龙丽霞;李蕾;钟义信;;一种基于实例语境的汉语语音识别后文本检错纠错方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 陆玉清;洪宇;陆军;姚建民;朱巧明;;基于上下文的真词错误检查及校对方法[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 王玉冬;高新技术企业资金运营模式与机制研究[D];哈尔滨理工大学;2010年
2 曾群华;新制度经济学视角下的长三角同城化研究[D];华东师范大学;2011年
3 程庆辉;高速铁路科技创新的产学研一体化模式研究[D];中南大学;2011年
4 王振锋;服务供应链合作关系与利益分配研究[D];重庆大学;2011年
5 黄洋;考虑风险的双源供应模式管理研究[D];华中科技大学;2011年
6 潘翰增;旅游服务供应链协调研究[D];哈尔滨理工大学;2011年
7 黄洋;考虑风险的双源供应模式研究[D];华中科技大学;2011年
8 张艳;中国证券市场信息博弈与监管的研究[D];四川大学;2003年
9 鲍海君;土地开发整理的BOT项目融资研究[D];浙江大学;2005年
10 屈国俊;中国证券市场监管:基于博弈论视角的分析[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 孙洋;基于个体的财富分配模型[D];大连理工大学;2010年
2 史大运;胶州湾适航资源分析及航道通航环境安全综合评价[D];中国海洋大学;2010年
3 马勤;基于群体智能算法的动态目标跟踪技术研究[D];天津理工大学;2010年
4 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
5 沈敏;项目实施中业主与承包商博弈行为分析研究[D];武汉理工大学;2010年
6 徐丽平;基于内容挖掘的中文垃圾邮件过滤技术研究[D];东北财经大学;2010年
7 张民涛;中国经济周期波动的持续期依赖特征研究[D];东北财经大学;2010年
8 张快娟;制造业与物流业协调发展的计量分析[D];浙江工商大学;2011年
9 李颖;基于知识溢出效应的知识联盟利益分配研究[D];西安电子科技大学;2011年
10 郇政永;基于OCR的中文文本校对研究[D];北方工业大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 李志强,王世俊;灰色马尔柯夫模型在地表水体DO浓度预测中的应用[J];重庆环境科学;2002年03期
2 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
3 郭屹;;对中文自动分词机制的研究和改进[J];电脑知识与技术;2008年07期
4 常凯;;基于TF*IDF垃圾邮件过滤改进算法的研究[J];电脑知识与技术;2010年25期
5 沈文婷;;数据库关键字查询清理技术研究[J];电脑知识与技术;2011年34期
6 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
7 刘乐平;张美英;李姣娇;;基于WinBUGS软件的贝叶斯计量经济学[J];东华理工学院学报(社会科学版);2007年02期
8 张永祥;蔡德所;唐迎春;;马尔可夫链式灰色模型在南宁邕江水质预测中的应用[J];广西水利水电;2007年03期
9 李广原;属性论在文本相似度计算中的应用[J];广西师院学报(自然科学版);2000年03期
10 潘磊;雷钰丽;王崇骏;谢俊元;;基于权重的Jaccard相似度度量的实体识别方法[J];北京交通大学学报;2009年06期
中国重要会议论文全文数据库 前1条
1 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年
中国博士学位论文全文数据库 前3条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
3 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前9条
1 陈永超;基于字数差别因子的中文文本相似度研究[D];湖北工业大学;2011年
2 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
3 苏振魁;基于马尔科夫模型的文本相似度研究[D];大连理工大学;2007年
4 王莹莹;中文短语相似度计算方法研究及应用[D];长沙理工大学;2008年
5 游春晖;基于语义情感倾向的文本相似度计算[D];电子科技大学;2008年
6 赵巾帼;基于语义距离的概念语义相似度研究[D];中南大学;2008年
7 金希茜;基于语义相似度的中文文本相似度算法研究[D];浙江工业大学;2009年
8 李腊腊;基于特殊标志符的中文分词算法研究[D];湖北工业大学;2010年
9 杨茂;基于句子相似度的文本比对算法研究[D];电子科技大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
2 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
3 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
4 李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期
5 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
6 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
7 张雪英;Jürgen Krause;;中文文本关键词自动抽取方法研究[J];情报学报;2008年04期
8 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
9 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
10 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
7 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
9 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
10 曹娟;周经野;;隐式分词连写输入方法——解决汉语分词问题的根本途径[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 四川 萧风;走近“类标志符”[N];电脑报;2005年
6 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
7 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
8 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
9 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
10 ;为专业打印提供更高扩展性[N];中国计算机报;2004年
中国博士学位论文全文数据库 前10条
1 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
2 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 毛昱;基于流形正则化和情感要素的半监督中文文本情感分类[D];北京邮电大学;2012年
5 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
6 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年
7 梁金宝;藏语历史文献词汇统计研究[D];中国社会科学院研究生院;2013年
8 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
9 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
10 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
3 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
4 许林杰;中文文本分词研究[D];山东师范大学;2003年
5 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
6 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
7 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
8 夏恒;基于沙普利值的中文文本识错研究[D];湖北工业大学;2013年
9 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
10 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026