收藏本站
《重庆大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本分类特征提取方法的研究与实现

林少波  
【摘要】:随着计算机网络技术的迅猛发展,文本信息数量呈现指数级的增长。文本分类作为一种有效的文本信息组织管理技术能很好地组织管理海量、异构的信息。在文本分类基础上通过信息检索、过滤等技术可以帮助人们从海量信息中快速,准确地查找相关知识信息,提高生活工作效率,因此对文本分类技术的研究具有较大的研究意义和实用价值。 本文首先对文本分类关键技术进行研究分析,在此基础上对特征提取方法进行了重点研究,提出了新特征提取方法,并利用新特征提取方法设计开发了一个中文文本分类系统,实验结果分析表明文中提出的特征提取方法取得了良好的实验效果。本文主要的研究工作如下: ①分析了对文本分类过程及关键技术,研究了文本特征特征提取方法。通过对基于过滤模型的几种常用特征提取方法分析比较后,发现文本特征提取过程中负相关特征与弱相关特征对特征提取质量好坏易产生较大的干扰。为了避免这种干扰,本文提出一个基于类别正相关和类别强相关的特征提取方法SP (Strong Correlation and Positive Correlation,正相关与强相关),S P方法通过优先选择正相关特征和强相关特征,有效地减少了负相关特征和弱相关特征的干扰,从而保证高质量文本特征的提取。 ②设计与实现了一个中文文本分类系统,把文本分类的特征提取方法SP应用到中文文本分类系统。文中对中文文本分类系统进行了总体设计和功能模块设计,分析研究汉语语法分析工具包ICTCLAS与全文检索工具包Lucene,并将二者结合作为中文文本分类系统搭建解决方案,最终实现了中文文本分类系统。 ③在中文文本分类系统上对特征提取方法进行大量的实验。把本文提出的新特征提取方法与常用的DF、CHI、CC等特征提取方法进行对比实验,利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果表明SP方法通过提取高质量的特征词,构造低维的特征向量,能够有效地降低特征空间维度,在中文文本分类中表现出良好的特征提取效果,反映了类别间的差异度。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前7条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
3 王煜;王正欧;白石;;用于文本分类的改进KNN算法[J];中文信息学报;2007年03期
4 成颖,史九林;自动分类研究现状与展望[J];情报学报;1999年01期
5 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
6 徐燕;李锦涛;王斌;孙春明;;基于区分类别能力的高性能特征选择方法[J];软件学报;2008年01期
7 肖明,沈英;自动分类研究进展[J];现代图书情报技术;2000年05期
中国博士学位论文全文数据库 前2条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前2条
1 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
2 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
3 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
4 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
5 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
6 易军凯;孟庆庆;;基于意群的计算机证据倾向性研究[J];北京化工大学学报(自然科学版);2010年01期
7 周世斌;白敬华;刘玉树;;统计流形上基于核近邻算法的文本分类研究[J];北京理工大学学报;2010年03期
8 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
9 黄文良;李石坚;刘菊新;徐从富;;一个大规模垃圾短信实时过滤系统[J];北京邮电大学学报;2008年03期
10 柯丽;王明文;何世柱;黎佳;罗远胜;;基于频率共现熵的跨语言网页自动分类研究[J];江西师范大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
6 汤练兵;库少平;李宁;;等长扩展码的一种自适应译码电路设计[A];2006年电气工程教育专业委员会年会论文集[C];2006年
7 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
9 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
10 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 陆满君;通信辐射源个体识别与参数估计[D];哈尔滨工程大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
4 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
8 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
9 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
10 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
6 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
7 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
8 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
9 谢华;基于特征选择和质心构建的文本分类研究[D];大连理工大学;2010年
10 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张琪玉;缺乏抽词词典是自动抽词标引难以普及的主要原因[J];图书与情报;1998年02期
2 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
3 王晓晔,王正欧;K-最近邻分类技术的改进算法[J];电子与信息学报;2005年03期
4 吴志峰,田学东;人名、机构名在基于概念的文本分类中的应用研究[J];河北大学学报(自然科学版);2004年06期
5 王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期
6 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
7 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
8 范焱,陈恩红,王清毅,蔡庆生,刘洁;超文本协调分类器的性能研究[J];计算机研究与发展;2000年09期
9 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
10 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 乐斌;Boosting算法研究及其在光谱分析中的应用[D];浙江大学;2004年
2 关晓蔷;基于决策树的分类算法研究[D];山西大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 何建英;陈蓉;徐淼;刘佳;于中华;;基于类别特征向量表示的中文文本分类算法[J];计算机应用研究;2008年02期
2 袁方,杨柳,张红霞;基于k-近邻方法的渐进式中文文本分类技术[J];华南理工大学学报(自然科学版);2004年S1期
3 程传鹏;;一种改进的X~2统计量方法[J];中原工学院学报;2010年06期
4 龙军;王易;刘高嵩;;基于二叉树多类支持向量机的文本分类研究[J];计算机系统应用;2009年05期
5 呼声波;刘希玉;;网页分类中特征提取方法的比较与改进[J];山东师范大学学报(自然科学版);2008年03期
6 李广原;一种特征词权重调整算法的研究[J];电脑与信息技术;2005年04期
7 李钝;曹元大;万月亮;;基于关联规则的安全特色关键词提取研究[J];计算机工程与应用;2006年S1期
8 吕英杰;叶强;李一军;;模糊综合评判理论在网页自动分类中的应用[J];计算机工程;2007年15期
9 李艳玲;戴冠中;朱烨行;;基于类别空间模型的文本倾向性分类方法[J];计算机应用;2007年09期
10 刘伟成;孙吉红;;基于专题文献的信息内容过滤系统设计[J];武汉科技大学学报(社会科学版);2009年02期
中国重要会议论文全文数据库 前10条
1 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
2 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
3 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
4 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
5 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
6 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
7 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
8 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
10 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
3 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
4 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
5 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
6 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
7 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
8 中科院自动化所 何鹏 陶建华 谭铁牛;看懂人的“脸色”[N];计算机世界;2005年
9 张东方;沙明;杨松松;人工神经网络在中药领域中的应用[N];中国医药报;2003年
10 东莞市神州视觉科技有限公司总经理 潘恒义;避免价格战在AOI市场重演[N];中国电子报;2007年
中国博士学位论文全文数据库 前10条
1 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
2 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
3 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
4 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
5 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
6 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
7 冯坤;基于内积变换的机械故障特征提取原理与早期识别方法研究[D];北京化工大学;2012年
8 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
9 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
10 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
2 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
3 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
4 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
5 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
6 李保秀;中文文本分类技术研究[D];南昌大学;2010年
7 李原;中文文本分类中分词和特征选择方法研究[D];吉林大学;2011年
8 赵蕾蕾;基于词和基本短语模式的特征提取方法[D];河北大学;2009年
9 单世磊;面向专利领域的中文文本分类与检索方法研究[D];大连理工大学;2011年
10 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026