IRT和规则空间在文本分类中的应用研究
【摘要】:互联网和科学研究的高速发展,导致可利用的信息资源数量急剧增加,为了有效的组织利用这些资源,迫切需要对它们进行分类。这些信息中的大多数是以文本的形式表示,因而对文本自动分类的研究具有很强的实用性。
本文在项目反应理论(IRT)和规则空间理论的框架下,提出了一种新的文本分类方法——基于规则空间文本分类法。其基本思想是:基于训练集,选出类特征关键词集作为测试项目,将文本投射于关键词集,所得向量视为被试反应向量,全部文本向量为对应类的得分阵,根据此得分阵估计类关键词集的项目参数,定义该类的Tatsuoka规则空间模型;对于待分类的文档则可以根据训练所得的项目反应模型评价文本的作答情况,基于作答情况及训练所得Tatsuoka规则空间模型,判断文本分类结果。
为了提高分类的效果和速度,本文中提出了一种新的比较快速和高效的参数估计方法——最小化X~2/EM参数估计方法。蒙特卡洛模拟实验结果显示,此方法提高了估计对真值的恢复能力。
本文的创新点如下:
突破项目反应理论(IRT)的常规研究内容,将其应用到文本分类,探索IRT应用的新道路。实验表明,此方法具有比较好的召回率,分类训练时间短,但准确率有待提高。
提出了一种新的项目参数估计方法。实验表明,新方法不受项目数和被试人数的限制,即使在项目数很少时,参数估计的结果也比较稳定;能处理测验中含有少量特殊反应模式的参数估计;以估计值和真值之差的绝对值的平均值为指标,衡量估计值对真值的修复程度,其修复能力略高于国际同类流行软件。
|
|
|
|
1 |
郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期 |
2 |
王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期 |
3 |
杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期 |
4 |
崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期 |
5 |
马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期 |
6 |
张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期 |
7 |
祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期 |
8 |
张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期 |
9 |
陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期 |
10 |
王倩倩;段震;张燕平;;基于交叉覆盖算法的文本分类[J];计算机技术与发展;2007年06期 |
11 |
董梅;胡学钢;;基于多特征选择的中文文本分类[J];计算机技术与发展;2007年07期 |
12 |
巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期 |
13 |
张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期 |
14 |
陶兰,申军霞;文本信息自动分类系统ITC98(Ⅰ)──ITC98总体结构与编码子系统[J];中国农业大学学报;1999年04期 |
15 |
李钝,梁吉业;利用聚类和粗糙集进行文本分类研究[J];计算机工程与应用;2003年07期 |
16 |
韩家新,何华灿;SVMDT分类器及其在文本分类中的应用研究[J];计算机应用研究;2004年01期 |
17 |
王天江,叶卫国,卢正鼎,李永平;LSI和kNN相结合的文本分类模型研究[J];华中科技大学学报(自然科学版);2004年04期 |
18 |
卢娇丽,郑家恒;基于粗糙集的文本分类方法研究[J];中文信息学报;2005年02期 |
19 |
陈文亮,朱慕华,朱靖波,姚天顺;基于Bootstrapping的文本分类模型[J];中文信息学报;2005年02期 |
20 |
包学超
,孙强
,李生红;隐性语义的SVM文本分类模型[J];信息安全与通信保密;2005年05期 |
|