0%

Resnet是2015年ImageNet比赛的冠军,不仅在分类上标线优秀,在目标检测中同样取得好成绩,Resnet将网络层数进一步加深,甚至达到1000+层。ResNet的表现以至于后面的网络都是在其基础上进行修改得到的,可以说ResNet是一个划时代的网络,被广泛应用于工业界。

下面简单介绍一下这个网络。

阅读全文 »

本篇文章是CVPR2019的一篇Anchor-Free的文章,是一篇很好的Anchor Free的目标检测的文章,目前基于anchor的目标检测方法,大多采用不同的level预测不同尺度的instance,而分配规则往往是人为设计的,这导致anchor的匹配策略可能不是最优的。那有没有更优的匹配方法?文章从level选取的点进行切入,利用FASF实现不同的instance在不同level的动态分配,实现了level的动态选择,并且anchor free方法取得了较好的mAP,另外作者设计了anchor free跟anchor-based相结合的方法,进一步提升模型效果,取得了可观的结果。

阅读全文 »

很多时候,外界同学管深度学习算法工程师叫做调参工程师,简单直接的概括了深度学习工程师的工作,搞深度学习的同学自己也经常自嘲,称自己的工作是炼丹,的确,深度学习模型有时候确实很奇妙,而调参在一个模型的优化中起着至关重要的作用,正因为如此,也有越来越多的研究放在了调参这件事上,比如:学习率的优化算法,模型初始化算法等等。
其实,拿一个别人已经训练好的模型(比如ImageNet上预训练的ResNet),直接在自己的数据集上进行finetune,不需要怎么调参,一般都会得到不错的效果,这就是站在巨人的肩膀上,但是如果想继续提高模型的精度,该怎么做?继续调参?还是有一些其他的方法可以采用?本篇文章就介绍了Amazon工程师总结的分类模型的调参技巧。

阅读全文 »

YOLO9000是继YOLO之后的又一力作,本篇论文,其实作者在YOLO v2上并没有特别多的创新的方法,更多的是将现有的多种方法使用在自己的YOLO中以提高识别效果,不过YOLO9000倒是很有创新点,利用ImageNet与COCO数据,使得网络可以检测9000类数据,下面简要介绍一下这两个网络:

首先介绍YOLO v2都使用了哪些方法:

阅读全文 »

本篇文章是一篇anchor free的目标检测方法,主要是在CornerNet(该篇文章很经典,还没总结,后面补上)的基础上发展而来。文章的主要思想在于:CornerNet中只检测目标的左上角点和右下角点,bounding box错检率会比较高(即检测出目标框但是与目标重合比较少,这也是keypoint检测的常见问题),作者分析错检的主要原因在于——-在进行Corner检测的时候,没有关注bounding box内部的内容信息,所以作者提出了CenterNet,在利用CornerNet检测出bounding box,同时,在bounding box内部检测center keypoint来帮助过滤掉错检框,也就是文章标题所示的Keypoint Triplts,检测三个点,同时,作者提出了center pooling以及cascade corner pooling方法,center pooling用于检测center keypoint,cascade corner pooling用于加强原本corner point的检测,使得corner的检测的时候可以get更多的bounding box内部的内容信息。结果是该网络也取得了精度和召回的双重提升,在COCO上测试,mAP可以达到47%,52-layer hourglass 耗时大约在270ms.

阅读全文 »

FCOS算法也是一篇anchor free的目标检测算法,但是其思想跟CornerNet系列有点不太一样,CornerNet系列的核心思想是通过Corner pooling来检测角点,然后对角点进行配对,最终得到检测结果,而FCOS方法借鉴了FCN的思想,对每个像素进行直接预测,预测的目标是到bounding box的上、下、左、右边的距离,非常的直观,另外为了处理gt重合的的时候,无法准确判断像素所属类别,作者引入了FPN结构,利用不同的层来处理不同的目标框,另外为了减少误检框,作者又引入了Center-ness layer,过滤掉大部分的误检框。FCOS的主干结构采用的是RetinaNet结构。

阅读全文 »

YOLO(You Only Look Once)是CVPR2016的一篇文章,是目标检测领域比较有名的的一篇文章,yolo出名不在于它的精度高,而在于他的速度很快,下面介绍的是yolo的第一版,在yolo之后,又改进出了yolo-v2,yolo-v3,v2,v3的精度相比较于v1就有大大提升了,这个后面再详细介绍。

阅读全文 »

ACNet,借鉴了模型加速的一些方法,在原始的dxd的卷积上,通过增加并行的1xd以及dx1卷积(即AC Block),实现模型精度的增强,同时在部署阶段,又将dxd、1xd、dx1卷积通过公式进行合并计算得到新的dxd卷积,并没有增加原有dxd卷积的计算量以及inference的时间,精度速度双收,作者将ACBlock应用于多个网络,效果还是比较显著的,值得借鉴。

阅读全文 »

FoveaBox是CVPR2019的一篇anchor free的目标检测文章,其思想跟FCOS很相似,都是在RetinaNet的基础上,在不同stage输出的特征图上,直接得到目标类别并回归出目标的位置,相比FCOS,FoveaBox要更简单一些,FoveaBox在COCO的精度可以达到42.1。

阅读全文 »

RFBNet是ECCV2018的一篇文章,文章的主要创新点在于通过Inception结构以及dilated conv模拟了人类的视觉结构—越往外视觉感受野也越大,提出了RFB结构,并将RFB结构应用于SSD结构上,实现了在不增加过多计算量的情况下模型效果的提升。


作者: Songtao Liu, Di Huang, Yunhong Wang

阅读全文 »