收藏本站
《西安电子科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义的中文文本预处理研究

张宁  
【摘要】:中文文本分类处理的对象是汉语文本,汉语自然语言复杂灵活,文本中存在近义、多义等多种复杂语义关系,相对于英文文本而言,中文文本的构成特点与特征提取机制部存在特殊性,但现有的分类对于中文文本语义方面的研究仍缺乏完善的机制。因此,基于语义层次对中文文本分类进行研究必将成为中文文本分类的研究趋势。 论文针对中文文本语义信息丰富的特点,对预处理过程中的分词、词性标注及特征提取等进行了语义研究。首先分析了中文文本的特点和处理难点及文本分类和预处理的国内外研究现状;然后提出使用语义知识库消除分词过程中的切分歧义的算法,并利用分词的语义标注信息结合词性词典进行词性标注。在特征提取过程中提出利用语义知识库所提供的语义概念进行概念聚类,降低特征项的空间维度。最后,根据所提出的语义处理算法设计了基于语义的分词及词性标注系统,对结果进行实验分析,并验证语义特征提取方法的有效性。实验表明本文所提出的基于语义的中文文本预处理方法能够解决大部分切分歧义问题,并且能够有效提高分词及词性标注性能,降低特征空间维度,从整体上提高分类性能。 文本预处理是文本分类的基础环节,对于分类性能具有较大的影响,基于语义对中文文本预处理过程进行研究,对于更好的表示文本,改善文本预处理结果,提高分类的精度和效率,具有重要的研究意义。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前2条
1 全方磊;数据特征提取在高铁车地传输中的应用研究[D];浙江大学;2013年
2 戚孝铭;基于蜂群算法和改进KNN的文本分类研究[D];上海交通大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
3 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
4 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
5 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
6 洪铭材;张阔;唐杰;李涓子;;基于条件随机场(CRFs)的中文词性标注方法[J];计算机科学;2006年10期
7 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期
8 高洁,吉根林;文本分类技术研究[J];计算机应用研究;2004年07期
9 刁倩,王永成,张惠惠,何骥;文本自动分类中的词权重与分类算法[J];中文信息学报;2000年03期
10 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
中国博士学位论文全文数据库 前1条
1 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
2 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
3 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
4 曹勇;中文Web文本分类技术研究[D];厦门大学;2007年
5 蒋敏梅;基于概念的文本分类研究[D];北京交通大学;2008年
6 何金凤;基于中文信息检索的文本预处理研究[D];电子科技大学;2008年
7 张治国;中文文本分类反馈学习研究[D];西安电子科技大学;2009年
8 刘延吉;基于词典的中文分词歧义算法研究[D];东北师范大学;2009年
9 王之鹏;Web文本分类系统中文本预处理技术的研究与实现[D];南京理工大学;2009年
10 宋丽平;文本分类中特征选择方法的研究[D];西安科技大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
3 陈基漓;牛秦洲;;WEB挖掘在农业信息网站个性化服务中的应用[J];安徽农业科学;2008年35期
4 陈键;胡学刚;;词分布均衡度评价特征词选取方法的文本分类[J];安徽科技学院学报;2009年02期
5 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
6 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
7 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
8 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
9 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
10 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
6 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
7 詹宇斌;殷建平;周文兰;;基于概率关联图挖掘Web日志中有趣关联规则[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 周永健;郑玉明;廖湖声;;基于模糊聚类的文本分类器[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
9 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
10 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 李滨;自然空间查询语言解译机制研究[D];解放军信息工程大学;2009年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
6 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
7 王迈;语言形式化原理[D];上海外国语大学;2011年
8 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
9 徐东辉;加克“语言转化”思想研究[D];首都师范大学;2012年
10 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
5 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
6 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
7 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
8 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
9 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
10 何昌钦;图像检索方法研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
3 胡中华;赵敏;;基于人工蜂群算法的TSP仿真[J];北京理工大学学报;2009年11期
4 何桦;顾全;夏可青;;基于最大匹配原则的变电运行培训仿真评估新方法[J];电力系统自动化;2008年18期
5 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
6 尹清波,张汝波,李雪耀,王慧强;基于动态马尔科夫模型的入侵检测技术研究[J];电子学报;2004年11期
7 李剑;景博;杨义先;;一种基于Metropolis准则遗传算法的多边多议题协商[J];电子学报;2009年05期
8 张昊;陶然;李志勇;蔡镇河;;基于KNN算法及禁忌搜索算法的特征选择方法在入侵检测中的应用研究[J];电子学报;2009年07期
9 朱明旱;罗大庸;易励群;;一种序列的加权kNN分类方法[J];电子学报;2009年11期
10 代建英,何中市;基于词性信息的汉语时间语词消歧算法[J];重庆大学学报(自然科学版);2005年09期
中国博士学位论文全文数据库 前1条
1 景东升;基于本体的地理空间信息语义表达和服务研究[D];中国科学院研究生院(遥感应用研究所);2005年
中国硕士学位论文全文数据库 前10条
1 赵文余;钢材下料问题的多目标智能优化算法研究[D];河北农业大学;2011年
2 叶晓龙;车地无线数据传输接口协议研究与应用[D];浙江大学;2012年
3 程敏;基于Webcam的照片检索技术的研究与实现[D];浙江大学;2003年
4 刘翔;多媒体信息综合检索的关键技术研究[D];浙江大学;2004年
5 尹荣;一种基于图元的多级图像检索系统[D];太原理工大学;2004年
6 史家康;基于肤色分割预处理的人脸检测方法研究[D];南京理工大学;2004年
7 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
8 苏文;自然场景中常见景物的识别研究[D];南京理工大学;2005年
9 任柯昱;特定图像内容的自动识别与过滤技术[D];中国工程物理研究院;2005年
10 张水利;彩色图像检索方法研究[D];太原理工大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 杨炳儒,周颖;知识发现系统内在机理[J];北京科技大学学报;2002年03期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
5 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
6 冯素琴;陈惠明;;利用上下文信息解决汉语组合型歧义[J];电脑开发与应用;2007年01期
7 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
8 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
9 王娟琴;超维检索模式研究[J];大学图书馆学报;1999年01期
10 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
中国博士学位论文全文数据库 前5条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
2 杨昂;文本分类算法研究[D];湖南大学;2002年
3 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
4 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
5 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
6 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
7 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
8 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
9 张滨;中文文档分类技术研究[D];武汉大学;2004年
10 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
2 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
3 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
4 李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期
5 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
6 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
7 张雪英;Jürgen Krause;;中文文本关键词自动抽取方法研究[J];情报学报;2008年04期
8 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
9 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
10 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
7 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
9 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
10 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
6 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
7 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
8 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
9 ;为专业打印提供更高扩展性[N];中国计算机报;2004年
10 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年
中国博士学位论文全文数据库 前10条
1 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
2 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 毛昱;基于流形正则化和情感要素的半监督中文文本情感分类[D];北京邮电大学;2012年
5 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
8 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
2 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
3 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
4 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
5 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
6 许林杰;中文文本分词研究[D];山东师范大学;2003年
7 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
8 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
9 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
10 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026