0%

YOLO9000是继YOLO之后的又一力作,本篇论文,其实作者在YOLO v2上并没有特别多的创新的方法,更多的是将现有的多种方法使用在自己的YOLO中以提高识别效果,不过YOLO9000倒是很有创新点,利用ImageNet与COCO数据,使得网络可以检测9000类数据,下面简要介绍一下这两个网络:

首先介绍YOLO v2都使用了哪些方法:

阅读全文 »

本篇文章是一篇anchor free的目标检测方法,主要是在CornerNet(该篇文章很经典,还没总结,后面补上)的基础上发展而来。文章的主要思想在于:CornerNet中只检测目标的左上角点和右下角点,bounding box错检率会比较高(即检测出目标框但是与目标重合比较少,这也是keypoint检测的常见问题),作者分析错检的主要原因在于——-在进行Corner检测的时候,没有关注bounding box内部的内容信息,所以作者提出了CenterNet,在利用CornerNet检测出bounding box,同时,在bounding box内部检测center keypoint来帮助过滤掉错检框,也就是文章标题所示的Keypoint Triplts,检测三个点,同时,作者提出了center pooling以及cascade corner pooling方法,center pooling用于检测center keypoint,cascade corner pooling用于加强原本corner point的检测,使得corner的检测的时候可以get更多的bounding box内部的内容信息。结果是该网络也取得了精度和召回的双重提升,在COCO上测试,mAP可以达到47%,52-layer hourglass 耗时大约在270ms.

阅读全文 »

FCOS算法也是一篇anchor free的目标检测算法,但是其思想跟CornerNet系列有点不太一样,CornerNet系列的核心思想是通过Corner pooling来检测角点,然后对角点进行配对,最终得到检测结果,而FCOS方法借鉴了FCN的思想,对每个像素进行直接预测,预测的目标是到bounding box的上、下、左、右边的距离,非常的直观,另外为了处理gt重合的的时候,无法准确判断像素所属类别,作者引入了FPN结构,利用不同的层来处理不同的目标框,另外为了减少误检框,作者又引入了Center-ness layer,过滤掉大部分的误检框。FCOS的主干结构采用的是RetinaNet结构。

阅读全文 »

YOLO(You Only Look Once)是CVPR2016的一篇文章,是目标检测领域比较有名的的一篇文章,yolo出名不在于它的精度高,而在于他的速度很快,下面介绍的是yolo的第一版,在yolo之后,又改进出了yolo-v2,yolo-v3,v2,v3的精度相比较于v1就有大大提升了,这个后面再详细介绍。

阅读全文 »

ACNet,借鉴了模型加速的一些方法,在原始的dxd的卷积上,通过增加并行的1xd以及dx1卷积(即AC Block),实现模型精度的增强,同时在部署阶段,又将dxd、1xd、dx1卷积通过公式进行合并计算得到新的dxd卷积,并没有增加原有dxd卷积的计算量以及inference的时间,精度速度双收,作者将ACBlock应用于多个网络,效果还是比较显著的,值得借鉴。

阅读全文 »

FoveaBox是CVPR2019的一篇anchor free的目标检测文章,其思想跟FCOS很相似,都是在RetinaNet的基础上,在不同stage输出的特征图上,直接得到目标类别并回归出目标的位置,相比FCOS,FoveaBox要更简单一些,FoveaBox在COCO的精度可以达到42.1。

阅读全文 »

RFBNet是ECCV2018的一篇文章,文章的主要创新点在于通过Inception结构以及dilated conv模拟了人类的视觉结构—越往外视觉感受野也越大,提出了RFB结构,并将RFB结构应用于SSD结构上,实现了在不增加过多计算量的情况下模型效果的提升。


作者: Songtao Liu, Di Huang, Yunhong Wang

阅读全文 »

本篇论文中,作者提出在one stage目标检测中影响网络精度的一个原因在于优化的目标与inference设置的不一致性(misalignment between the optimization target and inference configurations),解释来说就是,现在流行的目标检测方法,一般会有两个分支,一个分类,一个坐标框回归,而这两个分支往往是独立的,都是对原始anchor进行处理,这就会带来一个问题,我们在进行分类的时候,使用的是原始的anchor,而在坐标框回归后,很可能回归后的anchor与原始anchor已经产生了不同,这样使用原始anchor的分类结果作为回归后的anchor的分类得分就不准确了,本篇论文就是围绕着解决这个问题来进行的。乍一看本篇文章,感觉与Cascade RCNN有点像,采用的方法同样是对网络输出的结果进行refine,来达到提升网络精度的效果,但是其出发点是不同的,Cascade R-CNN的出发点是解决IOU阈值的设置带来的噪声问题,而consistent optimization的出发点是解决分类anchor与回归后的anchor不一致的问题。并且consistent optimization方法只是修改了RetinaNet网络的loss,改动不大,整体上时间消耗也没有增加,原则上说,其也不算是cascade方法,只是思想相近而已,但是本方法的实用性还是很强的。

阅读全文 »

自己使用时候总结的MXNet一些基本操作及介绍,深度学习训练框架MXNet的基本操作都在这里了

一、基础篇

NDArray介绍篇

在mxnet中,NDArray是所有运算的核心数据结构,mxnet中的所有数据均使用NDArray进行表示,NDarray有点类似于numpy中的ndarray,操作上面也与numpy很相似,但是NDArray提供了numpy.ndarray所不具备的操作,比如:GPU,CPU的切换,自动求梯度的运算等等,这也是为什么mxnet要重新封装一个NDArray的原因。

阅读全文 »

mobilenet-v3是Google继mobilenet-v2之后的又一力作,作为mobilenet系列的新成员,自然效果会提升,mobilenet-v3提供了两个版本,分别为mobilenet-v3 large 以及mobilenet-v3 small,分别适用于对资源不同要求的情况,论文中提到,mobilenet-v3 small在imagenet分类任务上,较mobilenet-v2,精度提高了大约3.2%,时间却减少了15%,mobilenet-v3 large在imagenet分类任务上,较mobilenet-v2,精度提高了大约4.6%,时间减少了5%,mobilenet-v3 large 与v2相比,在COCO上达到相同的精度,速度快了25%,同时在分割算法上也有一定的提高。本文还有一个亮点在于,网络的设计利用了NAS(network architecture search)算法以及NetAdapt algorithm算法。并且,本文还介绍了一些提升网络效果的trick,这些trick也提升了不少的精度以及速度。

阅读全文 »