收藏本站
《南京理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

自动文本分类若干基本问题研究

宋枫溪  
【摘要】:本文对基于学习的自动文本分类中的若干基本问题进行了深入的研究,取得了一系列研究成果。现将论文中的主要内容归纳如下。 文本分类的性能评估 本文通过对多标号文本分类特点的研究,强调了正确使用文本性能评估指标的重要性。在逐个分析传统文本分类性能评估指标,如BEP值、F_1值、查全率-查准率曲线等基础上,提出了两种新的性能评估指标:弃真率-取伪率曲线和风险平衡值。同传统评估指标相比,新指标更加直观和易于计算。 文本表示 众所周知,文本分类系统的性能不仅取决于学习算法,而且与文本表示方式密切相关。本文全面考察了停用词、词根、索引方式、特征权和规范化等主要因素对向量空间模型表示能力的影响。对大量仿真实验结果的统计分析表明,进行规范化处理总能大幅提高文本分类器的分类效果。而其他因素对文本分类性能的影响远没有预期的那么大。同人们的普遍认识相反,剔除停用词不仅不能改善文本分类效果,反而甚至会起到降低分类效果的作用。 字符串方式是一种与文本描述语言无关的文本表示方式。由于其存在着数据噪声大、计算复杂、易于过训练等缺点,人们通常认为其表示能力远不如主流文本表示方法——词袋表示法。随着计算机硬件的不断发展和高性能学习算法的涌现,考虑到对东方语言进行分词处理所面临的诸多困难,有必要重新审视字符串方式的文本表示能力。在语料库Reuters-21578上进行的大量实验结果表明,在表示能力方面字符串方式与词袋表示方式并无显著差异。 文本分类领域中一直存在着,通过特征权来改善文本表示能力的朴素思想,但相应的实验结果很不一致。事实上,在很多情况下基于不同特征权的文本表示方式在表示能力方面并不存在显著差异。为了解释这一现象,本文以Bayes分类器为基准分类器,从理论上研究了特征权向量对文本表示能力的可能影响,得出了特征权向量不可能有效改善文本表示能力的重要结论。 特征选择 在文本分类中,特征空间的维数高达几万,甚至远远超出训练样本个数,是一种 Abst限et 博十论文 十分普遍现象。为了使学习算法变得可行,必须首先用特征选择方法降低特征空间的 维数。本文提出了5种新的文本特征选择方法:低损降维、频率差、Bayes准则、Fl 值准则和Fishe:鉴别量。大量实验结果表明,“低损降维”和“频率差”的降维能力 可以与最好的两种经典特征选择方法“互信息”和“x’一统计量”相媲美,但计算效 率更高。 文本分类器 经典Fisher鉴别分析通过最大化类间散度和类内散度的比值来确定样本的最优投 影方向。当类内散布矩阵为奇异矩阵时,最大化Fisher鉴别函数实际上是一个病态问 题。因此,如何处理类内散布矩阵的奇异性成为Fisher鉴别分析的基本任务之一。与 Fisher鉴别分析不同,本文提出的源于Fisher鉴别准则的大间距线性投影将充分利用 类内散布矩阵的奇异性,来确定最优投影方向,并根据投影结果直接对样本进行分类。 理论分析说明,大间距线性投影实际上是线性可分条件下线性支持向量机的一种特殊 情况。 类间散度和类内散度是用来衡量投影样本可分性的两种不同指标。类间散度越 大,投影样本的可分性就越好;类内散度越小,投影样本的可分性也越好。因此,寻 求最大化样本可分性的投影方向,可以归结为求解一个多目标规划问题。Fisher鉴别 准则通过最大化类间散度与类内散度的比值,从而将原来的多目标规划转化为单目标 规划,本文提出的“最大散度差”则通过最大化两者的广义差来达到同样的目的。理 论分析说明,大间距线性投影分类器是类内散布矩阵为奇异矩阵时,最大散度差分类 器的极限情况。 “最小二乘误差”是用于确定线性鉴别函数的重要准则之一,它将寻找鉴别函数 中的权向量的问题,归结为求解一个线性方程组。但是,如何求解这个线性方程组以 获得所需的分离向量,以往的理论研究并不彻底,忽略了很多重要情况。另外,人们 也未能明确给出依据该准则获得的解向量的物理含义。通过研究线性可分条件下“最 小二乘误差”解的物理含义,本文提出了一个新的线性分类器—最小模最小二乘误 差分类器。 大量实验结果表明本文提出的大间距线性投影、最大散度差和最小模最小二乘误 差分类器在文本分类和人脸识别方面均具有十分良好的分类性能,可以与支持向量机 相媲美。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前8条
1 陈林;杨丹;;独立于语种的文本分类方法[J];计算机工程与科学;2008年06期
2 白振田;侯汉清;;文本自动分类中抽词词典的约简算法研究[J];情报理论与实践;2007年05期
3 张海龙;王莲芝;;自动文本分类特征选择方法研究[J];计算机工程与设计;2006年20期
4 田苗苗;;基于决策树的文本分类研究[J];吉林师范大学学报(自然科学版);2008年01期
5 戴臻;;一种基于非监督判别语义特征提取的文本分类算法[J];数字技术与应用;2012年11期
6 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
7 吴守用;;基于SVM的哈萨克语文本分类初探[J];现代计算机(专业版);2010年04期
8 刘华;;汉语信息处理中短语优势的理据及实验证明[J];语言文字应用;2007年04期
中国博士学位论文全文数据库 前10条
1 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
2 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
3 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
4 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
7 王建国;特征抽取方法研究及其在人脸识别中的应用[D];南京理工大学;2008年
8 梅健;基于Web服务组合的文本分类PSE问题研究[D];上海大学;2008年
9 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
10 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 张春燕;基于自然语言处理的文本分类分析与研究[D];江西理工大学;2011年
2 符会涛;基于互信息的文本自动分类特征选择方法研究[D];新疆大学;2011年
3 赵德圣;基于关联技术的中文文本分类研究[D];南京理工大学;2011年
4 李煦;农业高校图书馆在农业知识服务中的应用研究[D];湖南农业大学;2011年
5 刘欣;基于结构信息的中文网页自动分类技术研究[D];南京航空航天大学;2010年
6 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
7 吕斐斐;学位论文预审分配管理系统研究[D];哈尔滨工业大学;2010年
8 金鹤;基于Lucene的期刊网站内信息检索系统的设计与实现[D];哈尔滨工业大学;2010年
9 徐欣;基于粗糙集理论的文本分类研究[D];浙江理工大学;2011年
10 王雷;基于支持向量机的文本分类器设计与实现[D];东北财经大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
2 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期
3 金忠,杨静宇,陆建峰;一种具有统计不相关性的最佳鉴别矢量集[J];计算机学报;1999年10期
4 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
5 章新华;一种特征选择的动态规划方法[J];自动化学报;1998年05期
6 宣国荣;柴佩琪;;基于Chernoff上界的特征选择[J];模式识别与人工智能;1996年01期
7 宣国荣;柴佩琪;;基于巴氏距离的特征选择[J];模式识别与人工智能;1996年04期
8 汪保友;周益群;周水庚;胡运发;;基于主观Bayes方法的渐进式中文文档分类[J];模式识别与人工智能;2001年04期
9 宋枫溪;陈才扣;刘树海;杨静宇;;文本表示方式对线性支持向量机分类性能的影响[J];模式识别与人工智能;2004年02期
10 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
【共引文献】
中国期刊全文数据库 前10条
1 方国桢,吴莉;化学计量学在元素形态同时测定中的应用[J];四川有色金属;1999年03期
2 张育智;李乔;;基于区间估计的结构损伤识别方法研究[J];四川建筑科学研究;2007年06期
3 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
4 汪浩瀚;曾建军;;芜湖市工业企业效益的统计分析及综合评定[J];安徽大学学报(自然科学版);1991年02期
5 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
6 刘盛东,吴荣新;由冒落孔导高预报煤层顶板导高的回归分析研究[J];安徽地质;2001年01期
7 周胜生,杨奇;联合经营平衡价格的稳定性[J];安徽机电学院学报;2000年04期
8 项立群;概率方法在一种期权定价中的应用[J];安徽工程科技学院学报(自然科学版);2003年02期
9 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
10 董如何,肖必华,方永水;正交试验设计的理论分析方法及应用[J];安徽建筑工业学院学报(自然科学版);2004年06期
中国重要会议论文全文数据库 前10条
1 冯艳;于立平;邵玮;乔俊峰;唐燕;;转变经济发展方式对北京经济影响的测度[A];科学发展:社会管理与社会和谐——2011学术前沿论丛(下)[C];2011年
2 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
3 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
4 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
5 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
6 陈才扣;崔美琳;曹丽;刘永俊;;基于核的二维最大散度差投影鉴别分析及人脸识别[A];第二十七届中国控制会议论文集[C];2008年
7 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
8 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 尹雪娇;;基于蚁群算法的故障诊断[A];创新沈阳文集(A)[C];2009年
中国博士学位论文全文数据库 前10条
1 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
2 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
3 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
6 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
7 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
8 徐红林;基因调控网络的建模及其结构分解方法研究[D];江南大学;2010年
9 傅军;新型墙体抗裂抗渗性能及工程应用研究[D];浙江大学;2010年
10 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 杜武青;西部大气环境中聚酯玻璃钢老化及室内外老化相关性研究[D];南昌航空大学;2010年
5 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
6 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
7 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
8 李臻;城市公交车辆智能调度优化研究[D];山东科技大学;2010年
9 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
10 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张峻峰;郑怀国;孙素芬;邱琳;;网络环境下农业知识服务实现策略研究[J];安徽农业科学;2008年23期
2 张红云,石阳,马垣;数据挖掘中聚类算法比较研究[J];鞍山钢铁学院学报;2001年05期
3 杨立玲;胡跃明;王婷;戚其丰;;基于小波结构矩的图像识别算法[J];半导体技术;2009年11期
4 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
5 谢宇;张仰森;肖建涛;;规则与统计相结合的汉语词义消歧模型[J];北京机械工业学院学报;2007年03期
6 李明;刘鲁;王君;黄兆东;;基于模糊文本分类的多知识领域专家推荐方法[J];北京航空航天大学学报;2009年10期
7 张树华;从传统咨询服务走向网络咨询服务[J];北京图书馆馆刊;1999年04期
8 杜春光;个性化信息服务的模式研究及策略分析[J];国家图书馆学刊;2005年02期
9 杨炳儒,周颖;知识发现系统内在机理[J];北京科技大学学报;2002年03期
10 李卫东;宋威;李欣;杨炳儒;;一种多标准决策树剪枝方法及其在入侵检测中的应用[J];北京科技大学学报;2007年04期
中国重要会议论文全文数据库 前10条
1 邱立坤;陶然;龙志祎;程葳;;面向互联网的话题发现技术研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
2 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
3 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
4 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
5 郑伟;张宇;邹博伟;洪宇;刘挺;;基于相关性模型的中文话题跟踪研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 姚天昉;娄德成;;汉语语句主题语义倾向分析方法的研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 唐慧丰;谭松波;程学旗;;监督学习方法在语气挖掘中的应用研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 张健沛;徐泼;杨静;;一种轻量级个性化搜索引擎系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 赵海勇;基于视频流的运动人体行为识别研究[D];西安电子科技大学;2011年
2 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
3 何婷婷;语料库研究[D];华中师范大学;2003年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
6 谭天乐;基于粗糙集的过程建模、控制与故障诊断[D];浙江大学;2003年
7 李仁璞;分类数据挖掘中若干基本问题的研究[D];天津大学;2003年
8 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
9 刘志刚;支撑向量机在光谱遥感影像分类中的若干问题研究[D];武汉大学;2004年
10 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
2 牟威;分层遗传算法在图像模板匹配中的应用[D];北京邮电大学;2011年
3 江叶婵;手机阅读内容研究[D];安徽大学;2011年
4 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
5 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
6 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
7 王茜;基于Linux的网络防火墙技术研究[D];大连海事大学;2001年
8 杨昂;文本分类算法研究[D];湖南大学;2002年
9 胡丹;基于Rough Set的规则提取与粗—模糊神经网络研究[D];四川师范大学;2002年
10 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
【二级引证文献】
中国期刊全文数据库 前10条
1 朱颢东;周姝;钟勇;;结合ODF和辨识集的特征选择[J];重庆邮电大学学报(自然科学版);2010年01期
2 张福泉;;基于启发式搜索的主题策略研究[J];重庆科技学院学报(自然科学版);2011年05期
3 高波;;基于语料统计树的专业信息库生成算法[J];常州工学院学报;2009年Z1期
4 朱坤红;邓蓉;;基于知识树的文本自动分类方法探索[J];电脑知识与技术;2010年22期
5 徐春雨;;基于RBF神经网络的Web文本分类的研究[J];电脑知识与技术;2011年13期
6 贾昱晟;;基于机器学习的中文文本分类技术研究[J];电脑知识与技术;2011年21期
7 杜卫锋;秦克云;;不协调决策表几种约简标准及其关系分析[J];电子学报;2011年06期
8 王娟;;Web文本分类技术研究[J];福建电脑;2008年09期
9 郭宇;;Web数据挖掘及其在人才引进方面的应用[J];硅谷;2011年24期
10 胡婕茹;杨小平;黄都培;;从百度百科挖掘领域知识相关度[J];广西师范大学学报(自然科学版);2011年04期
中国重要会议论文全文数据库 前1条
1 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
2 杨茂龙;相关投影分析在特征抽取中的应用研究[D];南京理工大学;2011年
3 陈子春;集值信息系统的知识发现与属性约简研究[D];西南交通大学;2011年
4 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年
5 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
6 李欣;二维及双模态融合的单训练样本人脸识别技术研究[D];哈尔滨工程大学;2011年
7 管凤旭;基于流形学习及可拓分类器的手指静脉识别研究[D];哈尔滨工程大学;2010年
8 单建芳;面向事件的文本表示研究[D];上海大学;2012年
9 张静;水库防洪分类预报调度方式研究及风险分析[D];大连理工大学;2008年
10 黄永文;中文产品评论挖掘关键技术研究[D];重庆大学;2009年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
3 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
4 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
5 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
6 宋全红;基于OGC WPS标准的空间统计PSE研究及PSE-SDBI实现[D];辽宁工程技术大学;2009年
7 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
8 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
9 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
10 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前8条
1 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
2 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
3 李晓黎,史忠植;用数据采掘方法获取汉语词性标注规则[J];计算机研究与发展;2000年12期
4 宣国荣;模式识别中欧氏距离特征选择新方法[J];计算机应用与软件;1985年06期
5 战学刚,林鸿飞,姚天顺;中文文献的层次分类方法[J];中文信息学报;1999年06期
6 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
7 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
8 林鸿飞;战学刚;姚天顺;;基于潜在语义索引的文本分析方法[J];模式识别与人工智能;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 张小艳;宋丽平;;论文本分类中特征选择方法[J];现代情报;2009年03期
2 蒲筱哥;;Web自动文本分类技术研究综述[J];情报学报;2009年02期
3 刘海峰;王元元;姚泽清;王倩;;一种基于特征聚类的文本分类模型研究[J];情报学报;2008年02期
4 张浩;汪楠;;文本分类技术研究进展[J];科技信息(科学教研);2007年23期
5 刘海峰;刘守生;姚泽清;;一种基于类别的混合型文本特征降维[J];微电子学与计算机;2010年10期
6 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[J];中文信息学报;2011年02期
7 王煜;;机器学习技术在文本分析中的应用[J];华南金融电脑;2007年05期
8 高秀梅;陈芳;宋枫溪;金忠;;特征权对贝叶斯分类器文本分类性能的影响[J];计算机应用;2008年12期
9 王卫玲;孔波;初建崇;杨玫;;一种新的用于文本分类的特征选择算法[J];信息技术与信息化;2009年06期
10 龚静;曾莉;;用于文本分类的特征选择方法[J];湖南环境生物职业技术学院学报;2008年03期
中国重要会议论文全文数据库 前10条
1 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
8 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
9 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 上渊;新一代网络技术IPv9走向商用[N];中国高新技术产业导报;2004年
3 王萍;Web文本的知识化管理[N];计算机世界;2006年
4 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
5 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
6 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
7 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
8 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
9 记者 朱蓓宁实习生 施蜜;带合同示范文本放心出境游[N];南通日报;2007年
10 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
中国博士学位论文全文数据库 前10条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
5 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
6 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
7 单建芳;面向事件的文本表示研究[D];上海大学;2012年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
10 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
中国硕士学位论文全文数据库 前10条
1 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
2 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
3 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
4 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
5 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
6 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
7 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
8 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
9 闫晨;KNN文本分类研究[D];燕山大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026