0%

Rotation

unsupervised representation learning by predicting image rotations

paper 地址

摘要

1、ConvNets

优点:由于强大的能力在CV领域大量的使用

缺点:需要大量的人工标注的数据,昂贵且不易大量获得

2、unsupervised

优点:不需要人工注释

3、 our work

提出自己的想法:学习图像特征通过训练ConvNets识别输入图片的2d旋转。

定性定量的证明了:这提供了一个强有力的监督信号来学习图片的语言。

在各种各样的无监督特征学习benchemarks上进行了实验,特别的是,实验效果很好,相比之前最先进的无监督方法有了明显的进步,缩小了与supervised 特征学习之间的差距。

作者在 ImageNet classification 、 PASCAL classification、PASCAL segmentaion 和CIFAR-10 classification上进行了实验。

code

code 地址

介绍

简单介绍了前人的一些自监督方法,并着重说了自己与他人的不同。

介绍了下自己的贡献:简单并且又有效,提供了一个强有力的辅助监督信号;并做了大量的实验;最后强调了下自己的方法能够缩小无监督和有监督学习之间的差距。

方法

概述

研究目标:训练出一个CNN网络结构\(F\left(X^{y *} \mid \theta\right)\)预测图片的旋转角度。

主要解决的问题是:$ {} {i=1}^{N} (X_{i}, )\(,其中\)(.)\(是\)(X_{i}, )=- {y=1}^{K} (F^{y}(g(X{i} y) ))$

主要方法

将图片分别旋转0、90、180、270度,然后对于旋转后的照片进行预测。

旋转的算法

以下算法都是对图片的矩阵进行操作

90:先转置再讲矩阵上下颠倒

180:先上下颠倒再左右颠倒

270:先上限颠倒再进行转置

改进的算法

旋转算子: \[ S=\left[\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right] \] 则一个图片的位置坐标为 \[ X'=\left[\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right]*{X} \]\(\theta =0\)时: \[ S=\left[\begin{array}{cc} 1 & 0\\ 0 & 1 \end{array}\right] \]

优点

1、和自监督相比需要同等的算力,相同的收敛速度

2、能处理大规模数据集

3、相比其他无监督和自监督方法,rotation不需要太多的预处理过程

实验结果

数据集:CIFA-10、ImgaeNet、PASCAL、Placses205

实验任务:目标检测、目标分割、图像分类

现象:随着RotNet深度的增加,网络能够在更早的层中生成特征提高物体识别的准确度。

猜想:随着模型深度的加深,网络的头部结构变得更加的复杂,使得早期特征对于旋转预测任务的特异性降低。

实验细节设置

一般是是前两层网络结构采用了RotNet,学习到一定的特征。最后在第三层采用了目标检测的分类器,实现目标前侧的下游任务。

在样本数数量较少时,半监督模型的准确率比有监督时要好。