基于市长公开电话文本为背景的两种自动分类算法的比较
【摘要】:随着计算机技术的发展,大量的文档信息每天都在急剧增加。由于信息的快速膨胀,如何能够快速有效地利用这些信息已经成为一个面临的新问题。面对巨大的文本信息,采用传统的人工手段对这些信息进行分类由于效率太低而面临越来越多的困难,信息处理已经成为人们获取有用信息不可缺少的工具,所以基于机器学习人工智能技术的自动文本分类(Automated Text Categorization)已经成为一个重要的研究领域,其优势大大超过了传统的人工方法,不仅可以应用广泛,而且节省了人力还简化了工作程序。
本文基于解决长春市市长公开电话文本分类的实际问题介绍了自动文本分类的定义,文本分类系统组成,基于机器学习中的文本分类方法,主要介绍了朴素贝叶斯分类器(Naive Bayes classifier)和k-最近邻法(k-Nearest Neighbor method),并实现了两种算法的文本分类,解决了实际问题,对两种分类法方法进行评估,计算得到评估的各项指标,进行了比较讨论。
|
|
|
|
1 |
刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期 |
2 |
杨昂;;K特征线法在文本分类上的应用[J];计算机科学;2002年01期 |
3 |
厉宇航,罗振声,程慕胜;基于概念层次的英文文本自动分类研究[J];计算机工程与应用;2004年11期 |
4 |
赵晖,荣莉莉;基于支持向量的文本特征评估和系统优化[J];计算机工程与应用;2005年10期 |
5 |
赵晖;荣莉莉;;支持向量机组合分类及其在文本分类中的应用[J];小型微型计算机系统;2005年10期 |
6 |
任美睿;郭龙江;李金宝;;基于改进的向量空间模型的自动文本分类[J];哈尔滨商业大学学报(自然科学版);2006年01期 |
7 |
赵敏涯;沈洁;陈志敏;林颖;;一种新的自动文本分类的算法[J];扬州大学学报(自然科学版);2006年01期 |
8 |
陶伟;;自动文本分类中朴素贝叶斯算法的改进[J];硅谷;2010年01期 |
9 |
倪洁琼;吴耿锋;郑宇;;基于关系权重的文本表示法[J];计算机应用与软件;2009年05期 |
10 |
王笑旻;基于Bigram的特征词抽取及自动分类方法研究[J];计算机工程与应用;2005年22期 |
11 |
杨为民;李龙澍;;基于Agent的文本分类系统[J];计算机技术与发展;2007年02期 |
12 |
白若鹞;董渊;张素琴;徐大伟;;研究中文文本分类技术的辅助平台[J];清华大学学报(自然科学版);2008年07期 |
13 |
白若鹞;董渊;张素琴;徐大伟;;研究中文文本分类技术的辅助平台[J];清华大学学报(自然科学版)网络.预览;2008年07期 |
14 |
苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期 |
15 |
王树梅;戴保存;黄河燕;陈肇雄;;一种模仿人类的自动文本分类算法[J];计算机科学;2003年03期 |
16 |
孙晋文;肖建国;;自动文本分类中的智能处理技术[J];计算机科学;2003年08期 |
17 |
宋枫溪,郑如冰,王积忠;自动文本分类中两种文本表示方式的比较[J];计算机工程;2004年18期 |
18 |
丁磊,钱云涛;不同程度的监督机制在自动文本分类中的应用[J];计算机应用与软件;2004年06期 |
19 |
包学超
,孙强
,李生红;隐性语义的SVM文本分类模型[J];信息安全与通信保密;2005年05期 |
20 |
钱铁云;王元珍;冯小年;;利用prefix-hash-tree实现从中文文本到事务数据的转换[J];计算机科学;2005年05期 |
|