0%

Resnet是2015年ImageNet比赛的冠军,不仅在分类上标线优秀,在目标检测中同样取得好成绩,Resnet将网络层数进一步加深,甚至达到1000+层。ResNet的表现以至于后面的网络都是在其基础上进行修改得到的,可以说ResNet是一个划时代的网络,被广泛应用于工业界。

阅读全文 »

很多时候,外界同学管深度学习算法工程师叫做调参工程师,简单直接的概括了深度学习工程师的工作,搞深度学习的同学自己也经常自嘲,称自己的工作是炼丹,的确,深度学习模型有时候确实很奇妙,而调参在一个模型的优化中起着至关重要的作用,正因为如此,也有越来越多的研究放在了调参这件事上,比如:学习率的优化算法,模型初始化算法等等。
其实,拿一个别人已经训练好的模型(比如ImageNet上预训练的ResNet),直接在自己的数据集上进行finetune,不需要怎么调参,一般都会得到不错的效果,这就是站在巨人的肩膀上,但是如果想继续提高模型的精度,该怎么做?继续调参?还是有一些其他的方法可以采用?本篇文章就介绍了Amazon工程师总结的分类模型的调参技巧。

阅读全文 »

swin transformer是对vision transformer的改进版,主要思想在于在vision transformer的基础上,引入了卷积的归纳偏置,设计了分层的结构,针对特征图,只在windows窗口内进行self-attention的计算,取得了速度与效果的平衡,vision transformer需要比较大的数据来进行模型的训练才能取得比较好的效果,swin transformer在imagenet-1k上面,也能取得很好的效果。

阅读全文 »

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

这是一个比较有代表性的,将transformer引入cv的一个例子,其也没有特别的想法,主要创新点就是通过对图像进行patch的提取,进而构建了类似NLP的任务,然后将bert代码搬过来,进行图像的分类。

阅读全文 »

这篇文章更偏向于网络设计,主要在于将conv与atten相结合,各取其有点,conv更擅长进行归纳总结,atten具有更大的容量,所以将二者进行结合,可以去得进一步提点的效果,然后为了减少计算量,采用了前面是conv,后面是atten的结构,同时,实验了结构里面每个stage有多少的block效果最好等等,代码没有开源,具体的实现细节还需要等开源再看。

阅读全文 »

Cait: Going deeper with Image Transformers

本文是对vision transformer的改进,主要贡献在于layerScale以及class-attention这两点,最近facebook研究transformer的那伙人发了好几篇针对transformer的修改篇,我觉的这篇有点不太实用,没有进行具体的尝试。

阅读全文 »