Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
ResNet(Deep Residual Learning for Image Recognition)
Resnet是2015年ImageNet比赛的冠军,不仅在分类上标线优秀,在目标检测中同样取得好成绩,Resnet将网络层数进一步加深,甚至达到1000+层。ResNet的表现以至于后面的网络都是在其基础上进行修改得到的,可以说ResNet是一个划时代的网络,被广泛应用于工业界。
Bag of Tricks for Image Classification with Convolutional Neural Networks
很多时候,外界同学管深度学习算法工程师叫做调参工程师,简单直接的概括了深度学习工程师的工作,搞深度学习的同学自己也经常自嘲,称自己的工作是炼丹,的确,深度学习模型有时候确实很奇妙,而调参在一个模型的优化中起着至关重要的作用,正因为如此,也有越来越多的研究放在了调参这件事上,比如:学习率的优化算法,模型初始化算法等等。
其实,拿一个别人已经训练好的模型(比如ImageNet上预训练的ResNet),直接在自己的数据集上进行finetune,不需要怎么调参,一般都会得到不错的效果,这就是站在巨人的肩膀上,但是如果想继续提高模型的精度,该怎么做?继续调参?还是有一些其他的方法可以采用?本篇文章就介绍了Amazon工程师总结的分类模型的调参技巧。
Swin
swin transformer是对vision transformer的改进版,主要思想在于在vision transformer的基础上,引入了卷积的归纳偏置,设计了分层的结构,针对特征图,只在windows窗口内进行self-attention的计算,取得了速度与效果的平衡,vision transformer需要比较大的数据来进行模型的训练才能取得比较好的效果,swin transformer在imagenet-1k上面,也能取得很好的效果。
ViT
CoAtNet
这篇文章更偏向于网络设计,主要在于将conv与atten相结合,各取其有点,conv更擅长进行归纳总结,atten具有更大的容量,所以将二者进行结合,可以去得进一步提点的效果,然后为了减少计算量,采用了前面是conv,后面是atten的结构,同时,实验了结构里面每个stage有多少的block效果最好等等,代码没有开源,具体的实现细节还需要等开源再看。
Cait
YOLOX
- Auther: Zheng Ge
- Github: https://github.com/Megvii-BaseDetection/YOLOX.
- 作者解读: https://mp.weixin.qq.com/s/p4Porn9KayizQiQIzTTFKA
Albert,A Lite Bert
Albert: A Lite BERT
Abstract
- use a self-supervise loss to focus on modeling inter-sentence coherence
- https://github.com/google-research/ALBERT.