欢迎光临
我们一直在努力

[mcj]对于上次YOLO的一些遗留问题做一下解释

华为学生服务器每月仅需9元!

 1 关于anchor box具体实现的

anchors和anchor boxes是不同的。

 

Faster-R-CNN算法由两大模块组成:1.PRN候选框提取模块 2.Fast R-CNN检测模块。其中,RPN是全卷积神经网络,用于提取候选框;Fast R-CNN基于RPN提取的proposal检测并识别proposal中的目标。

理解proposal:在Faster Rcnn中,使用一个n*n的滑动窗,对于这一个滑动窗,可以同时预测k个proposal,这里的proposal就是相当于reference boxes,即参考区域或者说候选区域。

anchor位于n*n的滑动窗的中心位置,上面的一个reference boxes可以用一个scale(缩放),一个aspect_ratio(纵横比,如4:3,16:9之类的)和sliding window中的锚点唯一确定。

总结:anchor boxes就是reference boxes,即候选区域。参考下图:

[1] http://www.cnblogs.com/venus024/p/5590044.html

关于损失函数的新理解:

根据下面这段话:

计算regression loss需要三组信息:1.预测框,即RPN网络预测出的proposal的中心位置坐标x,y和宽高w,h;2.锚点reference box:之前的9个锚点对应9个不同scale和aspect_ratio的reference boxes,每一个reference boxes都有一个中心点位置坐标x_a,y_a和宽高w_a,h_a。3.ground truth:标定的框也对应一个中心点位置坐标x*,y*和宽高w*,h*。因此计算regression loss和总Loss方式如下:

突然想到,loss函数是不是就是用于计算预测的bbox与groundtruth之间的差别的。就像IOU一样。IOU计算的是两者之间的重叠程度,而loss函数则是为了计算两者之间的具体差别。

 

2 map的含义: 目标检测中的mAP是什么含义?

mAP值可以分为三个部分来理解,P/AP/mAP

首先是P(Precision):精度、正确率。跟P一块出现的是R(Recall):召回率。定义是:

precision=返回结果中相关文档的数目/返回结果的数目;

Recall=返回结果中相关文档的数目/所有相关文档的数目。

单纯的用Precision或者Recall来评价最后的结果都不太合适,因为两者之间是相互影响的,所以出现了AP,它同时考虑的P和R

首先,P和R之间是可以相互表示的,如下:

具体推导见:http://blog.csdn.net/pkueecser/article/details/8229166

注意:在这里,我们将Precision和Recall都看作是关于自变量 t 的函数,因为一般来说,随着 t 的变化,算法的一些表现也会跟着变化。  h(t) , r(t) , p(t) 都看作是连续光滑的曲线,因为集合C足够大。

mAP的定义如下:

mAP就是对多个检测类别的AP进行计算平均,比如说要检测4个物体:人、狗、车、桌子。那么这四个物体都会有各自的AP值,那么最后得到的mAP则是这四个物体的AP的平均值。

[1] https://sanwen8.cn/p/291742Q.html

[2] http://blog.csdn.net/mazhu1079/article/details/63684910?locationNum=15&fps=1

 

4 在最后输出的tensor中,有没有包含该图片中建立的bbox信息?就是那五个参数是在哪里体现的。

 

在进行检测的时候,对于VOC数据集,会预测5种bbox,每个box包含了5个坐标值以及20个类别,所以最终是(5+20)*5=125个输出维度:

 

5 梳理整个流程

首先,将输入图像分成S*S个grid,如果一个物体的中心掉落在一个 grid cell 内,那么这个 grid cell 就负责检测这个物体。 

每一个 grid cell 预测B 个 bounding boxes,以及这些 bounding boxes 的得分:score。这个 score 反应了模型对于这个 grid cell 中预测是否含有物体,以及是这个物体的可能性是多少。

如果这个 cell 中不存在一个 object,则 score 应该为0;否则的话,score 则为 predicted box 与 ground truth 之间的 IoU(intersection over union)。

每一个bbox包含了5个predictions,x,y,w,h,confidence,坐标(x,y) 代表了 bounding box 的中心与 grid cell 边界的相对值。width、height 则是相对于整幅图像的预测值。confidence 就是 IoU 值。

如果你对这篇文章有什么疑问或建议,欢迎下面留言提出,我看到会立刻回复!

打赏
未经允许不得转载:马春杰杰 » [mcj]对于上次YOLO的一些遗留问题做一下解释
华为学生服务器每月仅需9元!

留个评论吧~ 抢沙发 评论前登陆可免验证码!

私密评论

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址(选填,便于回访^_^)
切换注册

登录

忘记密码 ?

切换登录

注册