收藏本站
《东北师范大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于KNN算法的文本类中小学教学资源分类方法研究

王世奇  
【摘要】:随着“互联网+”概念的提出,我国信息化教育建设得到了大力发展。网络教学资源作为新的载体,让知识传播的媒介不再局限于书本,教师和学生也有了更加丰富的课外知识选择。但与此同时,网络教学资源近年来呈几何倍数增长且种类繁杂,为了能够对其进行有效利用,我们急需对资源进行有效分类整理。目前,教学资源主要包括:视频、音频、文字等多种类型,而其中大部分属于文本类资源。因此,教学资源中对于文本分类的研究具有重要意义。本文以文本类中小学教学资源作为研究对象,结合领域特征对TF-IDF权重计算方法和KNN算法进行改进,从而提高分类的效率、效果。首先,文章阐述了研究的相关背景、意义、研究现状等内容,并对理论基础进行了介绍,如:文本预处理、特征选择、权重计算方法、分类算法、分类性能评估等。然后对文本类中小学教学资源特点进行了总结归纳,制定分类标准并构建语料库,结合资源特点对文本预处理过程进行了调整和改进。最后,我们结合文本类中小学教学资源特点,对TF-IDF权重计算方法和KNN算法进行了深入分析,并提出有效的改进方案。(1)对权重计算方法TF-IDF的改进。传统的TF-IDF算法,只考虑了特征项出现的词频(TF)和逆文档频率(IDF),即如果一个特征项出现的频次越高,且训练集中出现该特征项的文本越少,该特征项越重要。我们在此基础上,提出了TF-IDF_ATC权值计算方法,通过增加参数ATC帮助判断特征项出现频次的类内分布和类间分布状况,更好的赋予特征项精确的权值。(2)应用密度裁剪的KNN分类算法改进方案。文本类中小学教学资源中,文科资源数远远大于理科,存在样本密度分布不均问题,严重影响分类效果。我们通过度量样本空间密度,找出处于高密度区域的文本。针对类内区域、类间区域两种情况,分别提出不同的裁剪方法,并且重点考虑了多个类交界区域空间中的裁剪问题,保证了样本均匀分布的同时,减少分类的所需时间。最后在Weka平台下,通过对比实验证明了改进算法的有效性。
【学位授予单位】:东北师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G434;TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 曹淑敏;;《关于积极推进“互联网+”行动的指导意见》解读[J];软件产业与工程;2015年05期
2 申剑博;;改进的TF-IDF中文本特征词加权算法研究[J];软件导刊;2015年04期
3 朱莎;张屹;杨浩;吴砥;;中、美、新基础教育信息化发展战略比较研究[J];开放教育研究;2014年02期
4 张虹;;我国基础教育教育信息化政策二十年(1993—2013年)——以政策文本阐释为视角[J];电化教育研究;2013年08期
5 景永霞;苟和平;冯百明;李勇;;不均衡数据集中KNN分类器样本裁剪算法[J];科学技术与工程;2013年16期
6 王超学;潘正茂;马春森;董丽丽;张涛;;改进型加权KNN算法的不平衡数据集分类[J];计算机工程;2012年20期
7 李学明;李海瑞;薛亮;何光军;;基于信息增益与信息熵的TFIDF算法[J];计算机工程;2012年08期
8 郑世明;苗壮;宋自林;高志年;;WEKA环境下基于模糊理论的聚类算法[J];解放军理工大学学报(自然科学版);2012年01期
9 陈琳;王箭;;三种中文文本自动分类算法的比较和研究[J];计算机与现代化;2012年02期
10 钟将;刘荣辉;;一种改进的KNN文本分类[J];计算机工程与应用;2012年02期
中国重要报纸全文数据库 前1条
1 杜占元;;改革创新加快推动教育信息化发展[N];中国教育报;2013年
中国博士学位论文全文数据库 前2条
1 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
2 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
中国硕士学位论文全文数据库 前10条
1 何晓静;对TF-IDF算法的改进及实验研究[D];吉林大学;2017年
2 樊存佳;基于CHI和KNN的文本特征选择与分类算法的研究[D];北京工业大学;2016年
3 杜朋朋;基于改进TF-IDF特征提取的文本分类模型的设计与实现[D];华中科技大学;2016年
4 黄娟娟;基于KNN的文本分类特征选择与分类算法的研究与改进[D];厦门大学;2014年
5 王淑珍;机器学习算法的Weka嵌入[D];华南理工大学;2013年
6 李敏;基于规则和SVM的教育资源分类技术研究[D];新疆大学;2013年
7 戚孝铭;基于蜂群算法和改进KNN的文本分类研究[D];上海交通大学;2013年
8 王卢阳;基于SVM-KNN的文本分类系统的设计与实现[D];东北大学;2011年
9 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年
10 刘慧;基于KNN的中文文本分类算法研究[D];西南交通大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 方昕;;大数据下的智能交通数据共享与处理模型[J];信息技术;2015年12期
2 赵啸海;冯训婉;时锦雯;;推进广西教育信息化发展的政策环境研究[J];高教论坛;2015年12期
3 苏毅娟;孙可;邓振云;尹科军;;基于LPP和l_(2,1)的KNN填充算法[J];广西师范大学学报(自然科学版);2015年04期
4 李帅;陈笑蓉;;改进卡方统计量的BPNN短文本分类方法[J];贵州大学学报(自然科学版);2015年06期
5 陆云起;;发展教育信息化以推动应用型本科院校建设的研究[J];高教学刊;2015年23期
6 王晶;于威威;;改进的FCM聚类算法在Weka平台的应用[J];计算机系统应用;2015年11期
7 李湘东;潘练;;LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比[J];信息资源管理学报;2015年04期
8 林仕彬;梁春晓;;职业教育信息化:回顾、反思和前瞻——基于政策的分析[J];教育信息技术;2015年09期
9 李克文;杨磊;刘文英;刘璐;刘洪太;;基于RSBoost算法的不平衡数据分类方法[J];计算机科学;2015年09期
10 熊才平;汪学均;;教育技术:研究热点及其思考[J];教育研究;2015年08期
中国博士学位论文全文数据库 前10条
1 姜水;基于电子鼻技术的山核桃内部品质快速无损检测方法的研究[D];浙江大学;2018年
2 晋艳云;玉米种子净度超声波检测方法及装置研究[D];中国农业大学;2016年
3 晋艳云;玉米种子净度超声波检测方法及装置研究[D];中国农业大学;2016年
4 贾隆嘉;文本分类中特征加权算法和文本表示策略研究[D];东北师范大学;2016年
5 凤丽洲;文本分类关键技术及应用研究[D];吉林大学;2015年
6 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
7 段艳;结合决策树分类器和支持向量机分类器进行极化SAR数据分类[D];武汉大学;2014年
8 刘亚楠;基于图和低秩表示的张量分解方法及应用研究[D];安徽大学;2014年
9 耿艳利;下肢运动模式识别及动力型假肢膝关节控制方法研究[D];河北工业大学;2012年
10 谢宏威;印刷电路板焊点智能检测算法的研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵政;文本向量化方法对文本分类效果影响的改进研究[D];首都经济贸易大学;2018年
2 彭一鸣;基于概率推理的老人日常行为监测系统的研究[D];南昌航空大学;2018年
3 王世奇;基于KNN算法的文本类中小学教学资源分类方法研究[D];东北师范大学;2018年
4 贺姣姣;基于深度学习的教育技术学术论文文本自动分类研究[D];天津师范大学;2018年
5 余林峰;高校教学问答服务机器人的应用研究[D];重庆理工大学;2018年
6 唐倩;人才需求信息的文本分类系统设计与研究[D];重庆理工大学;2018年
7 张航;基于朴素贝叶斯的中文文本分类及Python实现[D];山东师范大学;2018年
8 郑文振;社交网络中危害国家安全的突发事件搜索研究[D];北京邮电大学;2018年
9 苑鹏;基于路测数据机器学习的定位方法研究[D];杭州电子科技大学;2018年
10 朴乘锴;基于广义线性模型的话题跟踪算法研究[D];河北大学;2017年
【二级参考文献】
中国期刊全文数据库 前10条
1 张倩苇;;基础教育信息化政策分析:以贵州省为例[J];中国电化教育;2012年12期
2 孙晓燕;张化祥;计华;;用于不均衡数据集分类的KNN算法[J];计算机工程与应用;2011年28期
3 崔英玉;孙启林;陶莹;;韩国基础教育信息化政策研究[J];中国电化教育;2011年06期
4 刘应东;牛惠民;;基于K-均值聚类的小样本集KNN分类算法[J];计算机应用与软件;2011年05期
5 胡小勇;;教育信息化政策执行偏差分析与对策研究[J];中国电化教育;2011年05期
6 张瑜;张德贤;;一种改进的特征权重算法[J];计算机工程;2011年05期
7 张保富;施化吉;马素琴;;基于TFIDF文本特征加权方法的改进研究[J];计算机应用与软件;2011年02期
8 台德艺;王俊;;文本分类特征权重改进算法[J];计算机工程;2010年09期
9 梁志华;王昭君;赵娜;;上海市中小学教育信息化政策“过程”分析[J];中国电化教育;2010年03期
10 张孝飞;黄河燕;;一种采用聚类技术改进的KNN文本分类方法[J];模式识别与人工智能;2009年06期
中国硕士学位论文全文数据库 前10条
1 杜同森;文本分类中特征选择和特征加权算法的研究[D];北京邮电大学;2014年
2 彭凯;基于距离度量学习的文本分类研究[D];上海交通大学;2013年
3 刘海燕;基于信息论的特征选择算法研究[D];复旦大学;2012年
4 王勇;中文文本分类特征选择和特征加权方法研究[D];重庆大学;2012年
5 潘振宇;数据挖掘技术与Weka工具在河道洪水预报中的应用[D];电子科技大学;2012年
6 乌文波;应用Apriori关联规则算法的数据挖掘技术挖掘电子商务潜在客户[D];浙江工业大学;2012年
7 王瑾;基于数据挖掘的电信客户流失预测研究[D];西安电子科技大学;2012年
8 陈晓琴;基于概率神经网络的潜在客户数据挖掘应用研究[D];重庆交通大学;2011年
9 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
10 刘玲玲;文本分类中的特征选择研究[D];中国石油大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 李昂;;基于高斯函数加权的自适应KNN算法[J];现代计算机(专业版);2018年14期
2 刘学博;;基于KNN算法的大型汽车模拟隧道行驶项目压线评判[J];山西电子技术;2018年04期
3 赵卫东;刘永红;鄢涛;于曦;;基于KNN算法的手写数字识别研究[J];成都大学学报(自然科学版);2017年04期
4 肖绍武;王子牛;高建瓴;;基于中心抽样的KNN算法在文本分类中的应用[J];贵州大学学报(自然科学版);2018年01期
5 李昂;肖甫;李雷;;基于改进型KNN算法和Android平台的室内定位技术研究[J];物联网技术;2018年03期
6 王坤;;基于GPU的分类并行算法的研究与实现[J];电子设计工程;2014年18期
7 李明洋;唐国宝;李乾;刘尔彬;高永卓;;基于KNN算法的铝合金阳极化层打磨质量检测系统研究[J];机械与电子;2018年06期
8 刘翔鹏;;基于KNN算法建模的法人银行机构不良资产分类研究[J];品牌研究;2018年03期
9 樊东辉;王治和;陈建华;许虎寅;;基于聚类的KNN算法改进[J];电脑知识与技术;2011年35期
10 唐倩;李梁;殷志恒;;基于模糊启发式的KNN算法在人才需求信息分类中的应用[J];重庆理工大学学报(自然科学);2018年03期
中国博士学位论文全文数据库 前1条
1 王新颖;基于网格的短时交通状态预测研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 王世奇;基于KNN算法的文本类中小学教学资源分类方法研究[D];东北师范大学;2018年
2 郇益斌;基于训练集聚类的KNN算法及其应用研究[D];山东科技大学;2017年
3 张洪雨;基于KNN与ISOMAP的地球化学数据处理与应用研究[D];成都理工大学;2015年
4 李苗;船舶监控系统中实时数据清洗技术研究[D];南京航空航天大学;2016年
5 程德波;稀疏学习及其在数据挖掘的应用[D];广西师范大学;2016年
6 胡蓉;基于机器视觉的水面漂浮物自动监测的研究[D];广西科技大学;2015年
7 钱震;面向人寿保险销售的商务智能软件研究与应用[D];上海交通大学;2014年
8 秦亚辉;大数据环境下企业销售数据处理方法与市场感知研究[D];浙江理工大学;2017年
9 杨桐;基于机器学习的股票排名方法[D];天津工业大学;2017年
10 王家栋;中小投资者意见分歧与盈余公告效应[D];浙江大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026