如何提高类不平衡数据的分类准确率

发布时间:2016-10-19 14:59:19来源:本站原创

问题描述

       传统的分类算法是基于精度驱动的,即算法的目标是最小化分类误差,它假定:假正例(FP)和假负例(FN)错误的代价是相等的。这个假定是基于类平衡分布和相等的错误代价,但是实际生活中的数据往往是类不平衡的,例如:在疾病预测的问题中,患病的人数一般远远小于非患病的人数。在一般的分类算法下,往往会忽略小类样本(患病者)所带来的误差,它可能会把所有的样本都预测成非患病者。但是人们关注的重点是患病者的分类结果,所以在进行分类前要处理好类不平衡问题。

     目前一般处理类不平衡的方法是过采样、欠采样以及代价敏感学习,但是这两种方法对于结果的提升有限,同时还会带来过拟合或者信息损失的问题。现在请提供一种思路以及代码,能够较好的处理这个问题。      
 

  如有意向参与或者承接该项目,请联系:杨征   yangzheng@tipdm.com 

公众号
返回
顶部
请关注“官方公众号”
Copyright © 2013-2017   广州泰迪智能科技有限公司   技术支持   粤ICP备14098620号