收藏本站
《北京邮电大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

文本分类和聚类中若干问题的研究

杨震  
【摘要】: 文本分类和聚类是文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息。文本分类和聚类作为获取和组织大量文本数据的关键技术,可以在很大程度上解决信息杂乱和信息爆炸的问题。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类和聚类有着广阔的应用前景。随着信息化时代的到来,文本分类和聚类的重要性日趋显著,其研究工作已经不仅仅是科学家的兴趣所在,世界上许多国家和地区的政府及工业界都十分关注并积极投身于文本分类和聚类领域的研究。 本文针对文本分类和聚类中亟需解决的海量应用、分类精度以及理解深度等问题,开展了以下创新性研究: 第一,探讨了基于统计模型的文本分类。主要研究了传统的统计模型方法在文本分类领域中的应用。首先,研究了基于贝叶斯方法的文本分类技术。在此基础上,利用加权的方法提出了一种改进的贝叶斯算法。其次,研究了如何利用无标签样本进行学习的问题。通过采用转导推理,整合了无标签样本和有标签样本的学习。最后,探讨了字符级统计方法在文本分类中的应用。此外,通过把垃圾邮件过滤和短信分类任务的解决贯穿始终,将这一部分的研究内容在其上逐一实现。实验结果表明,本文的方法不仅易于工程实现,能够联合无标签样本学习,而且可以较好地在分类速度和精度之间进行折衷,以达到快速准确处理海量文本信息的能力。 第二,探讨了基于分类器集成的文本分类。主要研究了基于简单多数投票策略的分类器集成问题。首先,给出了一个分类器错误的分解式(E+V分解),在理论证明的基础上,提出了一个能够指示分类器集成性能的指标|V|。借由线性规划方法,分析了基于简单多数投票策略的分类器集成性能的理论上下界。最后,探讨了可能达到集成性能理论上界的两种途径:1)选择性分类器集成;2)基于|V|指标优化的分类器集成。此外,我们将这部分所研究的方法应用于垃圾邮件过滤任务。实验结果表明,本文的方法能够很好地提高集成后文本分类器的精度,具有良好的应用前景。 第三,探讨了基于非线性方法的文本聚类。我们期望能够将传统的文本聚类处理提升到“理解”的层次。将文本聚类处理领域的研究,从长期专注于“语法”层次的研究,演进到“语义”的层次。首先,通过使用流形学习工具,研究了中文词汇在语义空间(分类空间)的分布情况,这部分研究将为进一步基于语义的特征选择工作打下良好的基础。在此基础上,利用WordNet词典进行了短信聚类的研究。实验结果表明,本文的方法能够更好地反映文本之间的内在联系。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.1;TP18

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 王明娟,朱诗兵;星间链路信道模型研究[J];装备指挥技术学院学报;2005年04期
2 赵培东;谢剑英;;基于小波域局部统计模型的图像水印容量分析[J];九江学院学报;2007年03期
3 朱宁,符名培,李竹梅;因子分析在教学管理中的应用[J];桂林电子工业学院学报;2002年04期
4 刘鑫;贺振华;黄德济;;基于双变量收缩函数的局域自适应图像去噪[J];计算机应用;2006年05期
5 田杨;陈辉;徐立艳;;一种基于排序理论的精确直方图规定化算法[J];科技信息(学术研究);2008年07期
6 李俊;周凤岐;周军;卢晓东;;基于候选轨迹统计模型的红外弱小点目标检测(英文)[J];火力与指挥控制;2009年04期
7 宇航;周强;;汉语基本块标注系统的内部关系分析[J];清华大学学报(自然科学版);2009年10期
8 杨杨;柴常春;董刚;杨银堂;冷鹏;;考虑电感效应和工艺波动影响的互连延时建模与计算[J];西安电子科技大学学报;2010年03期
9 刘亚雷;顾晓辉;;改进的辅助粒子滤波当前统计模型跟踪算法[J];系统工程与电子技术;2010年06期
10 赵琪;薛环振;张显俊;;基于统计模型的书法笔画轮廓恢复[J];计算机应用研究;2010年10期
中国重要会议论文全文数据库 前10条
1 余水生;王保林;游坚;张文祥;;柳钢焦炭热性能对高炉冶炼影响的统计模型及分析[A];第八届全国冶金工艺理论学术会议论文专辑[C];2005年
2 刘实;王宁;朱其文;王新国;胡中明;陈长胜;;长春市空气污染潜势预报的统计模型研究[A];城市气象服务科学讨论会学术论文集[C];2001年
3 李斌;姚康泽;王岩;;基于高分辨距离像统计模型的雷达目标识别[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
4 李优;;支持向量机在组块识别中的应用[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
5 赵春;张进平;贾金生;卢正超;;包含首蓄因子的心墙土石坝水平位移统计模型研究[A];中国水利学会第三届青年科技论坛论文集[C];2007年
6 陈永胜;刘小明;任福田;张黔芳;;道路安全设计支持平台之统计模型的研究[A];第七次城市道路与交通工程学术会议论文集[C];2002年
7 严力蛟;全为民;赵晓慧;;千岛湖浮游植物统计模型及其预测[A];浙江省第二届生物多样性保护与可持续发展研讨会论文摘要集[C];2004年
8 黄勃;刘瑞玉;;胶州湾非生物环境因子统计分析[A];动物学专辑——上海市动物学会1997年年会论文集[C];1997年
9 杨雪艳;董礼仁;周宪明;高锋;;长春市火险等级预报的统计模型研究[A];大气科学发展战略——中国气象学会第25次全国会员代表大会暨学术年会论文集[C];2002年
10 邓敏;张燕;李俊杰;;GIS空间目标间方向关系的统计表达模型[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 李传金;设计新的统计模型[N];经济视点报;2006年
2 葛新权 北京信息科技大学经济管理学院;经济统计模型的建模原则与创新[N];中国社会科学报;2010年
3 于洋;统计模型参数估计及其应用成功[N];科技日报;2007年
4 钟君君;高盛:“买房算投资”低估了中国的消费水平[N];第一财经日报;2006年
5 李敏;“模型黄土高原”建设取得长足进展[N];黄河报;2007年
6 中国国际期货 张立军吕圳 郭良周;糖价特立独行 压力重重难上涨[N];期货日报;2007年
7 唐国储;法兴银行欺诈案对中国银行业改革的启示[N];金融时报;2008年
8 韩际平;不断地追求卓越[N];中国信息报;2008年
9 长软国际科技(北京)有限公司 华桦 刘会治 ;量化个人信用程度[N];中国计算机报;2005年
10 中国物流与采购联合会常务副会长 丁俊发;中国物流业将进入协调发展快车道[N];国际商报;2006年
中国博士学位论文全文数据库 前10条
1 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
2 赵必强;中低纬电离层年度异常与暴时特性研究[D];中国科学院研究生院(武汉物理与数学研究所);2006年
3 孙俊;流媒体编码和传输中若干关键技术的研究[D];中国科学院研究生院(计算技术研究所);2006年
4 崔艳秋;基于小波域统计模型的图像去噪算法研究[D];吉林大学;2006年
5 李智录;大坝安全监控统计模型研究[D];西安理工大学;2006年
6 李卫华;数字图像预处理与融合方法研究[D];西北工业大学;2006年
7 练秋生;基于视觉特性的多方向小波构造及其应用研究[D];燕山大学;2006年
8 龙建辉;高速远程黄土滑坡预测预报方法研究[D];长安大学;2008年
9 李士斌;深井岩石破碎规律及破碎的分形机理研究[D];大庆石油大学;2006年
10 侯建华;基于小波及其统计特性的图像去噪方法研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨金仑;云龙水库大坝安全监测数据分析方法研究[D];昆明理工大学;2008年
2 彭惠芬;潜油电泵轴的可靠性分析与设计[D];大庆石油学院;2006年
3 张艳芳;大坝基础扬压力模型研究及其应用[D];河海大学;2006年
4 欧小哲;基于统计模型的颅面复原技术研究[D];西北大学;2009年
5 陈志伟;基于统计模型和GPU的实时海浪模拟研究[D];苏州大学;2009年
6 杨杨;考虑工艺波动的互连信号完整性分析[D];西安电子科技大学;2009年
7 郭伟;人脸老化模拟方法研究[D];中南大学;2009年
8 郑文波;基于多水平统计模型的气象数据研究[D];华中科技大学;2010年
9 刘东方;基于三维重建的脊椎几何形态统计模型研究[D];西北大学;2010年
10 骆桢轩;组合统计模型在程序错误定位中的应用[D];上海交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026