收藏本站
《重庆大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本分类特征提取方法的研究与实现

林少波  
【摘要】:随着计算机网络技术的迅猛发展,文本信息数量呈现指数级的增长。文本分类作为一种有效的文本信息组织管理技术能很好地组织管理海量、异构的信息。在文本分类基础上通过信息检索、过滤等技术可以帮助人们从海量信息中快速,准确地查找相关知识信息,提高生活工作效率,因此对文本分类技术的研究具有较大的研究意义和实用价值。 本文首先对文本分类关键技术进行研究分析,在此基础上对特征提取方法进行了重点研究,提出了新特征提取方法,并利用新特征提取方法设计开发了一个中文文本分类系统,实验结果分析表明文中提出的特征提取方法取得了良好的实验效果。本文主要的研究工作如下: ①分析了对文本分类过程及关键技术,研究了文本特征特征提取方法。通过对基于过滤模型的几种常用特征提取方法分析比较后,发现文本特征提取过程中负相关特征与弱相关特征对特征提取质量好坏易产生较大的干扰。为了避免这种干扰,本文提出一个基于类别正相关和类别强相关的特征提取方法SP (Strong Correlation and Positive Correlation,正相关与强相关),S P方法通过优先选择正相关特征和强相关特征,有效地减少了负相关特征和弱相关特征的干扰,从而保证高质量文本特征的提取。 ②设计与实现了一个中文文本分类系统,把文本分类的特征提取方法SP应用到中文文本分类系统。文中对中文文本分类系统进行了总体设计和功能模块设计,分析研究汉语语法分析工具包ICTCLAS与全文检索工具包Lucene,并将二者结合作为中文文本分类系统搭建解决方案,最终实现了中文文本分类系统。 ③在中文文本分类系统上对特征提取方法进行大量的实验。把本文提出的新特征提取方法与常用的DF、CHI、CC等特征提取方法进行对比实验,利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果表明SP方法通过提取高质量的特征词,构造低维的特征向量,能够有效地降低特征空间维度,在中文文本分类中表现出良好的特征提取效果,反映了类别间的差异度。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 何建英;陈蓉;徐淼;刘佳;于中华;;基于类别特征向量表示的中文文本分类算法[J];计算机应用研究;2008年02期
2 袁方,杨柳,张红霞;基于k-近邻方法的渐进式中文文本分类技术[J];华南理工大学学报(自然科学版);2004年S1期
3 程传鹏;;一种改进的X~2统计量方法[J];中原工学院学报;2010年06期
4 龙军;王易;刘高嵩;;基于二叉树多类支持向量机的文本分类研究[J];计算机系统应用;2009年05期
5 呼声波;刘希玉;;网页分类中特征提取方法的比较与改进[J];山东师范大学学报(自然科学版);2008年03期
6 李广原;一种特征词权重调整算法的研究[J];电脑与信息技术;2005年04期
7 李钝;曹元大;万月亮;;基于关联规则的安全特色关键词提取研究[J];计算机工程与应用;2006年S1期
8 吕英杰;叶强;李一军;;模糊综合评判理论在网页自动分类中的应用[J];计算机工程;2007年15期
9 李艳玲;戴冠中;朱烨行;;基于类别空间模型的文本倾向性分类方法[J];计算机应用;2007年09期
10 刘伟成;孙吉红;;基于专题文献的信息内容过滤系统设计[J];武汉科技大学学报(社会科学版);2009年02期
11 金春霞;;Web文本挖掘相关技术研究及应用[J];现代计算机(专业版);2009年03期
12 刘伟成;孙吉红;;基于专题文献的信息内容过滤系统研制与实现[J];图书馆理论与实践;2009年07期
13 周雪芹;刘建舟;邵雄凯;廖力;;中文文本分类中特征提取的方法[J];湖北工业大学学报;2010年02期
14 于洪波;;网页特征提取技术研究[J];山东理工大学学报(自然科学版);2011年02期
15 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
16 王煜,王正欧,王明春;基于粗集和决策树的Web文本分类规则抽取[J];情报学报;2005年06期
17 吕林霞;张明新;;基于Web挖掘的专业文本特征提取方法研究[J];兰州石化职业技术学院学报;2007年03期
18 牛强;王志晓;陈岱;夏士雄;;基于KNN的Web文本分类方法的研究[J];计算机应用与软件;2007年10期
19 陆国丽;王小华;王荣波;;最大词重降维算法与模拟退火算法相结合的文本聚类方法研究[J];现代图书情报技术;2008年12期
20 何海斌;司建辉;;大规模文本分类中特征提取方法的比较研究[J];电脑知识与技术;2009年21期
中国重要会议论文全文数据库 前10条
1 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
2 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
3 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
4 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
5 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
6 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
7 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
8 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
10 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
3 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
4 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
5 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
6 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
7 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
8 中科院自动化所 何鹏 陶建华 谭铁牛;看懂人的“脸色”[N];计算机世界;2005年
9 张东方;沙明;杨松松;人工神经网络在中药领域中的应用[N];中国医药报;2003年
10 东莞市神州视觉科技有限公司总经理 潘恒义;避免价格战在AOI市场重演[N];中国电子报;2007年
中国博士学位论文全文数据库 前10条
1 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
2 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
3 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
4 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
5 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
6 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
7 冯坤;基于内积变换的机械故障特征提取原理与早期识别方法研究[D];北京化工大学;2012年
8 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
9 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
10 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
2 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
3 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
4 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
5 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
6 李保秀;中文文本分类技术研究[D];南昌大学;2010年
7 李原;中文文本分类中分词和特征选择方法研究[D];吉林大学;2011年
8 赵蕾蕾;基于词和基本短语模式的特征提取方法[D];河北大学;2009年
9 单世磊;面向专利领域的中文文本分类与检索方法研究[D];大连理工大学;2011年
10 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978