Reading Notes-Class Imbalance, Redux

Sep 10 2017 reading notes 7 minutes read (About 1029 words)

再次感谢优男，向我提出了又一个尖锐的问题，使得我有机会思考和研究，并且最终可以看到这篇paper，并且最后可以分享给大家。

我个人在工作之中遇到过imbalanced data的问题，我只是直观的感受到，imbalanced data的最后效果往往不是很棒，网上也只是给出了oversampling和undersampling的建议，并没有提及这其中的一些缘故，今天我们一起通过这篇paper来学习学习。

Notes

我们假设有positive和negative两类sample，其中positive samples符合$P(x)$的Guassian分布，negative samples符合$G(x)$的Guassian分布，分类平面将空间划分成positive region$\cal R^{+} _{w}$和negative region$\cal R^{-} _{w}$，如下图所示：

图中$w^{ *}$是理想的分割平面，$w^{ *}$ 应该是使loss最小的取值，即
$$w^{}= \arg\underset{w}{\min} \cal L^{}(w)$$
对于loss值，其实就是分类中被错分的fn(false negative)和fp(false positive)的期望值，显然，通过minimun该loss得到的会是图中的$w^{}$，因为这个分类平面所带来的error明显是最少的。
$$\cal L^{}(w) = \cal C_{fn} \int _{\cal R^{w} {-}} \it P(x)dx + \cal C{fp} \int _{\cal R^{w} {+}} \it G(x)dx$$
对于整个数据集$\cal D $来说，我们假设数据量较少的一类(paper中设定positive类较少)所占比例为$\pi$(小于0.5)，那么对于带有比例$\pi$的数据集$\cal D{\pi}$，全局期望是
$$\bf E_{\cal D_{ \pi}} [\cal L(w)]=\pi \cal C_{fn} \int _{\cal R^{w} {-}} \it P(x)dx + (1- \pi) \cal C{fp} \int _{\cal R^{w} _{+}} \it G(x)dx$$
此处，我个人的理解是，在两类数据均衡的情况下，全局情况下的期望其实是和上面的loss等价的，但是imbalanced data带来了不均衡的因子$\pi$，因此，两个公式不再等价。

OK，既然不等价，那么问题就来了，paper上说，通过最小化全局期望获得的$\hat w$，是向着较少数量类别的样本倾斜，也就是第一幅图中，向较少的postive那边skewed，原因是因为$ \cal R _{+} ^{ \hat w} < \cal R _{+} ^{w^{*}}$, 也就是说，$\hat w$分割的positive region面积小于$w^{*}$分割出的面积，面积的减小势必导致分割平面向positive类别方向偏移。

遗憾的是，关于面积的证明我实在看不明白，也email了一些人，也没有得到一个满意的答案，如果有朋友看明白了的话，记得留言或者email我！

到了这里，paper大概介绍了undersampling的裨益，undersampling的核心其实就是消除前面提到的比例$\pi$，让它趋近于0.5后，分类平面$\hat w$就会趋近于理想分类平面$w^{*}$。

这里，作者提出了一个bagging方法，就是多次做undersampling，最后最结果做bagging可以获得更好的效果，如下图

paper还对比了其他的方法，比如Weighted Empirical Cost Minimization(如weighted SVM)和SMOTE方法效果不如bagging undersampling，我上一幅图说明下SMOTE的缺点，更多细节，大家可以详细看看paper，如图：

SMOTE方法是随机选择方向生成新的sample，但是如果新的sample产生了图中位置，则效果不会很好。

OK，今天就这么多，记得看明白了中间的推导一起分享啊！

Reference

#imbalanced data #undersampling #bagging

Reading Notes-Class Imbalance, Redux

Notes

Reference

Comments

Your browser is out-of-date!