unsupervised representation learning by predicting image rotations
摘要
1、ConvNets
优点:由于强大的能力在CV领域大量的使用
缺点:需要大量的人工标注的数据,昂贵且不易大量获得
2、unsupervised
优点:不需要人工注释
3、 our work
提出自己的想法:学习图像特征通过训练ConvNets识别输入图片的2d旋转。
定性定量的证明了:这提供了一个强有力的监督信号来学习图片的语言。
在各种各样的无监督特征学习benchemarks上进行了实验,特别的是,实验效果很好,相比之前最先进的无监督方法有了明显的进步,缩小了与supervised 特征学习之间的差距。
作者在 ImageNet classification 、 PASCAL classification、PASCAL segmentaion 和CIFAR-10 classification上进行了实验。
code
介绍
简单介绍了前人的一些自监督方法,并着重说了自己与他人的不同。
介绍了下自己的贡献:简单并且又有效,提供了一个强有力的辅助监督信号;并做了大量的实验;最后强调了下自己的方法能够缩小无监督和有监督学习之间的差距。
方法
概述
研究目标:训练出一个CNN网络结构\(F\left(X^{y *} \mid \theta\right)\)预测图片的旋转角度。
主要解决的问题是:$ {} {i=1}^{N} (X_{i}, )\(,其中\)(.)\(是\)(X_{i}, )=- {y=1}^{K} (F^{y}(g(X{i} y) ))$
主要方法
将图片分别旋转0、90、180、270度,然后对于旋转后的照片进行预测。
旋转的算法
以下算法都是对图片的矩阵进行操作
90:先转置再讲矩阵上下颠倒
180:先上下颠倒再左右颠倒
270:先上限颠倒再进行转置
改进的算法
旋转算子: \[ S=\left[\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right] \] 则一个图片的位置坐标为 \[ X'=\left[\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right]*{X} \] 当\(\theta =0\)时: \[ S=\left[\begin{array}{cc} 1 & 0\\ 0 & 1 \end{array}\right] \]
优点
1、和自监督相比需要同等的算力,相同的收敛速度
2、能处理大规模数据集
3、相比其他无监督和自监督方法,rotation不需要太多的预处理过程
实验结果
数据集:CIFA-10、ImgaeNet、PASCAL、Placses205
实验任务:目标检测、目标分割、图像分类
现象:随着RotNet深度的增加,网络能够在更早的层中生成特征提高物体识别的准确度。
猜想:随着模型深度的加深,网络的头部结构变得更加的复杂,使得早期特征对于旋转预测任务的特异性降低。
实验细节设置
一般是是前两层网络结构采用了RotNet,学习到一定的特征。最后在第三层采用了目标检测的分类器,实现目标前侧的下游任务。
在样本数数量较少时,半监督模型的准确率比有监督时要好。