收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于PCA与多视图学习的中文文本分类研究

孟晓倩  
【摘要】: 随着信息时代的来临,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并准确、全面、快速地将用户所需要的信息从文本信息系统中选取出来成为当前信息科学和技术领域的一大挑战。文本分类技术作为文本信息处理领域的关键技术之一,在较大的程度上解决了信息混乱的问题。 文本分类面临的一个主要问题就是在用向量空间模型表示文本时,向量空间的维数过高,这样就造成了分类算法的计算复杂度很高。首先要进行特征选择,常用的特征选择方法包括:信息增益、互信息、χ2统计、期望交叉熵、词频方法、文档频次方法、文本证据权等。本文是从多种特征选择函数的差异性着手进行研究的。 本文的主要工作包括以下内容: 1.本文在各特征选择函数之后应用了主成分分析(Principal Component Analysis)的方法,它进一步的降低了特征维数并选出更具代表性的特征项。实验表明应用PCA后各分类器的分类性能得到了明显地提高。 2.本文将PCA应用到各特征选择函数之后,基于各特征子集的差异性提出了一种改进的多视图学习策略。将PCA与多视图学习策略相结合应用到文本数据分类中来,实验表明其可行性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 甘淑,袁希平,何大明;澜沧江流域山区土地覆盖遥感监测中PCA特征变换处理[J];昆明理工大学学报;2000年06期
2 黄贤武,仲兴荣,王加俊;基于WT/PCA的自适应神经网络人脸识别方法[J];计算机应用;2003年06期
3 张辉;;K-L变换在人脸识别特征提取中的应用[J];黑龙江史志;2008年01期
4 张宁;刘立;;基于PCA的实时人脸识别[J];中国科技信息;2009年05期
5 胡冰;周海芳;王攀峰;刘衡竹;;遥感图像PCA融合的并行算法研究与实现[J];微电子学与计算机;2006年10期
6 倪世贵;白宝钢;;基于PCA的人脸识别研究[J];现代计算机(专业版);2011年03期
7 曾阳艳;叶柏龙;;基于PCA方法的人脸特征提取和检测[J];电脑知识与技术;2008年04期
8 刘炳;;基于C8051F020单片机的多串口通讯技术[J];科学技术与工程;2009年08期
9 张宁;;基于PCA算法的人脸识别研究[J];山西电子技术;2009年02期
10 冯颖凌;王宏玉;;PCA在人脸识别中的应用[J];济源职业技术学院学报;2009年04期
11 路刚;;基于指数损失的PCA方法研究[J];电脑知识与技术;2010年19期
12 李谊,王知衍,曾海赞;采用混合神经网络高精确度提取机票字符[J];计算机工程与应用;2004年08期
13 万福才;鄂佳;;统计过程监控综述[J];沈阳大学学报;2009年03期
14 王贵成;于宗靖;;基于可编程计数器阵列的正弦波脉宽调制方法[J];信息系统工程;2010年11期
15 严其艳;;基于主成分分析和动态神经网络的时间序列预报[J];中国西部科技;2009年10期
16 谢永林;;PCA算法及其在人脸识别中的应用[J];计算机与现代化;2009年06期
17 常玉清,王福利;基于多采样率数据的软测量模型[J];系统仿真学报;2001年S1期
18 潘芸;王富东;顾俊强;;基于SST 89系列单片机的智能测速仪表设计[J];工业控制计算机;2007年11期
19 刘英姿;;AHP和PCA法在村镇发展条件评价中的应用[J];山西建筑;2009年35期
20 冯亚丽;蒋文文;刘泽光;;一种改进的基于肤色分割和PCA人脸检测方法[J];科学技术与工程;2010年10期
中国重要会议论文全文数据库 前10条
1 潘竟虎;李宝娟;;基于空间PCA的兰州市热环境人文驱动因素分析[A];地理学核心问题与主线——中国地理学会2011年学术年会暨中国科学院新疆生态与地理研究所建所五十年庆典论文摘要集[C];2011年
2 ;PCA-BP Neutral Network Design for Inverse Decoupling Compensator of Induction Motor Drives[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
3 ;Probabilistic PCA Based Spatio-Temporal Multi-Modeling for Distributed Parameter Processes[A];中国自动化学会控制理论专业委员会C卷[C];2011年
4 唐伟;陆文凯;;基于L1-PCA算法的去相关拉伸技术[A];中国地球物理2010——中国地球物理学会第二十六届年会、中国地震学会第十三次学术大会论文集[C];2010年
5 于德浩;龙凡;韩天成;宋长青;肖辉;;基于PCA-WT的数据融合技术[A];国家安全地球物理丛书(六)——空间地球物理环境与国家安全[C];2010年
6 胡先保;卢美萍;;自控镇痛(PCA)[A];浙江省医学会疼痛学分会成立大会暨首届浙江省医学会疼痛学分会学术年会论文汇编[C];2011年
7 薛巧平;廖斌;胡帆;;基于PCA的压缩传感图像融合算法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
8 党同心;沈伟;黄洁;;基于复小波变换和PCA的雷达包络特征分析[A];2010年通信理论与信号处理学术年会论文集[C];2010年
9 李世文;郭健军;赵翠梅;;地佐辛、舒芬太尼等不同药物复合施行骨科术后PCA镇痛的效果的观察[A];浙江省医学会疼痛学分会成立大会暨首届浙江省医学会疼痛学分会学术年会论文汇编[C];2011年
10 于宁宁;贾渝;赵建成;;PCA(主要成分分析),一个解决分类学问题的简易途径(英文)[A];Abstracts of International Symposium on Systematic Lichenology & Bryology[C];2010年
中国博士学位论文全文数据库 前10条
1 田文;多视图图像的快速三维场景重建[D];华中科技大学;2010年
2 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
3 王峻峰;基于主分量、独立分量分析的盲信号处理及应用研究[D];华中科技大学;2005年
4 徐丽;影响前列腺癌预后因素的COX模型分析[D];中国人民解放军军医进修学院;2009年
5 刘普幸;额济纳旗胡杨径向生长的水文气候因子研究[D];兰州大学;2007年
6 赵忠盖;基于PCA统计过程监控的若干问题研究[D];江南大学;2007年
7 刘社兰;肝硬化大鼠肝移植后肠道细菌分子生态结构与血清代谢组学的研究[D];浙江大学;2009年
8 阮宗才;基于图象的绘制技术研究[D];安徽大学;2002年
9 陈世哲;微电子产品视觉检测中关键技术研究[D];哈尔滨工业大学;2006年
10 柳伟;三维模型特征提取与检索[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 孟晓倩;基于PCA与多视图学习的中文文本分类研究[D];河北大学;2010年
2 鲁婷;K-近邻中文文本分类方法的研究[D];合肥工业大学;2010年
3 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
4 何钟莉;中文文本分类关键技术研究与实现[D];西安电子科技大学;2009年
5 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
6 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年
7 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
8 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
9 李保秀;中文文本分类技术研究[D];南昌大学;2010年
10 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
中国重要报纸全文数据库 前10条
1 本报记者 李静华;PCa技术解决建筑用工荒[N];中国房地产报;2011年
2 王迪;PCA新药呼之欲出[N];医药经济报;2010年
3 高岚;PCA 计算、存储、通信各司其职[N];中国计算机报;2001年
4 特约通讯员 杨建斌;盐湖PCA减水剂项目加紧施工[N];运城日报;2009年
5 本报记者 高岚;Intel四处插手互联[N];中国计算机报;2001年
6 记者 孙文博/深圳;Intel大学计划着眼下一代人才储备[N];电子资讯时报;2002年
7 本报记者 高岚;Intel向网络说“开放”[N];中国计算机报;2001年
8 闻丹岩;团结就是力量[N];中国计算机报;2002年
9 ;Intel在等待[N];中国电子报;2002年
10 本报记者 武汉 摄影记者 刘小戎;架一座业界的桥[N];网络世界;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978