基于Catboost算法的员工离职预测的研究
【摘要】:人才是企业的核心竞争力,人才也是各行各业发展的重要软资源是推进经济发展的重要动力,随着科技的飞速进步人才带给企业的效益是无法估量的。因此可见人才流失对企业的危害不言而喻,它会给公司运营成本甚至组织架构带来严重的威胁。因此对人力资源进行合理化管理,减少不必要的人才流失就显得尤为重要。据美国管理学会报告提出,员工离职后招聘成本至少相当于该岗位全年工资收入的30%。对于技能紧缺岗位,招聘成本相当于其全年工资的1.5倍,其中不包括空岗带来的企业损失(客户和关键技术流失、运营效率受到影响)、新员工培训成本等。现如今大数据已风靡全球,和互联网技术结合应用在各行各业的方方面面,它的出现让人们通过对数据进行分析获得知识成为可能,大数据让人们在很大程度上实现了从追求因果关系到相关关系探究的思维转变。本文正是借助数据思维和适合的机器学习算法,针对企业员工离职问题进行分析与预测。关注到员工数据可能存在类别型数据较多的情况,本文开创性的将机器学习的Cat Boost算法应用到员工离职方面,从而对员工离职进行预测模型的构建。本文数据来自开源的IBM HR数据。建立预测模型前,对数据进行了处理,清洗脏数据、数据标准化和描述性统计,对数据存在不平衡的情况采用了SMOTE算法进行过采样处理,以保证数据的有效性。还在建模前用SCAD算法对变量进行筛选,事实证明,经过SCAD算法筛选的变量建立的模型,在经过ROC(AUC)曲线和混淆矩阵的评估后显示其预测效果要优于未经过筛选的效果。最后,根据分析结果为公司提出了一些针对性的建议。