收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于并行化技术的web文本分类算法研究

高鹏  
【摘要】:随着信息技术的迅猛发展,网络上每时每刻都会产生大量的文本数据,传统的人工管理方法已无法满足社会的需求,所以快速高效的自动文本分类技术成为人们研究的热点。虽然文本分类技术被广泛应用在垃圾邮件过滤、搜索引擎和信息管理等方面并获得快速发展,但是实际的分类性能还比较低,在分类准确率和效率上仍然有很大的改进空间。本文主要针对特征选择和文本分类模型的构建两方面展开深入的分析研究,并取得如下成果:1.提出一种优化的加权朴素贝叶斯并行化分类模型。在利用信息增益构建特征集的过程中加入词频调节因子,剔除特征集中高频的冗余特征,选择具有强区分度的特征构建特征集;使用蚁群算法对权值进行迭代优化,找到全局最优解,构建IA-WNB分类模型;分别在特征选择、模型训练、模型验证三方面结合MapReduce框架,设计并行化作业完成对web文本数据的分类任务。通过设计实验验证,IA-WNB分类模型能够有效提高对web文本的分类效率,并且在并行化设计中既能保证准确率又能够缩短运行时间。2.提出一种基于语义扩展的卷积神经网络并行化分类模型。由于web短文本数据集具有语义模糊和特征稀疏的特点,因此通过构建{主题-特征}二元组的方法对文本特征达到语义扩展的目的,将二元组作为CNN分类模型的输入数据,利用卷积神经网络分类模型进一步优化数据特征,使用Softmax函数进行分类;然后将构建特征二元组和参数训练的过程中分别结合MapReduce框架,在数据预处理和分类模型的参数调优两部分完成并行化设计。通过设计实验验证,基于语义扩展的卷积神经网络分类模型在处理web短文本数据时,分类模型的准确率和分类效率均有所提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蒋少丙;刘书刚;;面向过程的任务并行化设计方法[J];计算机系统应用;2015年09期
2 本刊编辑部;;“地理计算并行化”专辑征稿[J];地球信息科学学报;2014年06期
3 齐书阳;;迎接并行化的明天[J];软件世界;2009年06期
4 金国华,陈福接;并行化技术与工具[J];计算机研究与发展;1996年07期
5 杨桃栏;程序并行化的有力工具——介绍Kuck公司的KAP[J];计算机工程与科学;1989年04期
6 本刊编辑部;;“地理计算并行化”专辑导言[J];地球信息科学学报;2015年05期
7 张妮娜;窦衡;;并行化改进遗传算法的FPGA高速实现方法[J];信息与电子工程;2012年01期
8 蔡砥,滕丽,王铮;一种禁忌搜索算法在计算网格中的并行化策略[J];微电子学与计算机;2004年06期
9 陈水福,孙炳楠,唐锦春;建筑风压数值模拟的几种并行化策略[J];计算力学学报;1998年02期
10 曹琳,杨学军,金国华;两种并行化机制的分析[J];计算机研究与发展;1993年09期
11 倪安宁;高林杰;肖光年;;交通网络微观仿真并行化实现方法[J];系统管理学报;2014年04期
12 王伟;潘建伟;;有限差分法的并行化计算实现[J];电脑知识与技术;2008年07期
13 王伟;潘建伟;;有限差分法的并行化计算实现[J];微型电脑应用;2008年05期
14 杨兆程;;图染色算法的并行化[J];电脑编程技巧与维护;2018年03期
15 高嵩,崔西宁;并行化高级语言的实现[J];西安工业学院学报;1997年02期
16 姚益平,靳远宠,杨桃栏;多机环境下系统程序并行化的实现方法[J];国防科技大学学报;1992年04期
17 张蕾;;装箱问题近似算法的并行化研究[J];中国科技信息;2009年17期
18 郭克榕,唐新春;基于多层循环并行化的负载平衡优化[J];国防科技大学学报;1997年05期
19 康继昌,于跃,洪远麟;流场计算程序并行化方法的研究[J];航空学报;1993年08期
20 刘晓平;张高峰;曹力;;面向场景的人群疏散并行化仿真[J];系统仿真学报;2008年18期
中国重要会议论文全文数据库 前10条
1 范存群;林曼筠;赵现纲;谢利子;卫兰;国鹏;;风云卫星降水估计日收工产品算法并行化研究[A];第35届中国气象学会年会 S21 卫星气象与生态遥感[C];2018年
2 王卉;屈强;;挖掘最大频繁项集的并行化策略[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
3 兰彤;冯玉才;肖伟器;;空间连接处理的并行化研究[A];数据库研究进展97——第十四届全国数据库学术会议论文集(上)[C];1997年
4 王本龙;龚凯;刘桦;;自由表面流动问题的并行化SPH方法求解[A];中国力学学会学术大会'2009论文摘要集[C];2009年
5 王峰;杨建俊;张天爵;许淑艳;;不同操作平台上的MCNP并行化计算[A];中国原子能科学研究院年报 2009[C];2010年
6 郑巢生;;基于OpenFOAM大规模并行化计算方法研究[A];第二十七届全国水动力学研讨会文集(上册)[C];2015年
7 王韶娟;曾国荪;;分形维数的一个并行算法[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 杨林;杨天枭;徐慧;;基于流水线并行化的纠删码恢复研究[A];中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集[C];2017年
9 徐金秀;张天刚;;NCC区域气候模式算法分析及并行化实现[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
10 蔡毅;骆志刚;;DNA序列拼接算法分析及并行化探讨[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 张平;并行化编译器中并行程序自动生成和性能优化技术研究[D];解放军信息工程大学;2006年
2 董春丽;并行化编译中数据和计算的自动划分及优化技术研究[D];解放军信息工程大学;2007年
3 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
4 赵岩;复杂机电系统仿真的并行化方法研究[D];华中科技大学;2017年
5 傅游;稀薄气体Monte Carlo数值仿真并行化技术研究与实现[D];西北工业大学;2002年
6 耿光超;电力系统稳定约束最优潮流:模型、算法与并行化[D];浙江大学;2014年
7 丁晓宁;面向CFD的交互式并行化技术研究[D];西北工业大学;2002年
8 高放;面向片上异构多核系统的机器学习算法并行化技术研究[D];北京工业大学;2017年
9 周纯葆;基因岛预测与隔离迁移模型并行化[D];吉林大学;2012年
10 郭琦;异构多核可重构平台指令并行化关键问题研究[D];中国科学技术大学;2015年
中国硕士学位论文全文数据库 前10条
1 常存宝;基于CUDA的L系统并行化关键技术研究[D];西北农林科技大学;2018年
2 廖陈志;HPCG在多核/众核平台上的实现与优化[D];中国科学技术大学;2018年
3 梁瑷云;基于卷积神经网络的文本分类并行化研究[D];四川师范大学;2018年
4 岳明亮;基于标签传播的社区发现算法研究及其并行化[D];南京信息工程大学;2018年
5 丁芙蓉;基于众核的聚类算法并行化研究[D];南京理工大学;2018年
6 闫梦洁;关联规则算法Apriori的优化及基于Spark的并行化研究[D];国防科学技术大学;2016年
7 高鹏;基于并行化技术的web文本分类算法研究[D];长春理工大学;2018年
8 孙雪凯;基于改进与并行化人工蜂群算法的分类研究[D];中原工学院;2018年
9 卜尧;统计分析算法的并行化及其在电网数据分析中的应用[D];北京邮电大学;2018年
10 李尧;面向警务数据的流聚类算法并行化研究[D];电子科技大学;2018年
中国重要报纸全文数据库 前10条
1 ;服务器软件的并行化革命[N];网络世界;2006年
2 谢涛;英特尔:忽视并行化软件后果很危险[N];电脑商报;2008年
3 宁雷;联想携手Intel启动服务器大型巡展[N];中国电脑教育报;2007年
4 刘洪宇;释放多核潜能 挑战仍在并行软件[N];中国计算机报;2008年
5 孙永杰;应用为先:高性能计算较量“软”实力[N];中国电子报;2008年
6 记者 鲁媛媛;英特尔软件进入并行时代[N];网络世界;2009年
7 宋家雨;集群撑不起全部天空[N];网络世界;2006年
8 吴亚飙;“并行”焕发IPS力量[N];网络世界;2008年
9 英特尔公司首席工程师 吴甘沙;大数据引发“撞墙”效应 编程效率还待提高[N];中国电子报;2012年
10 木斯;高性能计算 提起应用有点难[N];中国计算机报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978