[mcj]对于上次YOLO的一些遗留问题做一下解释-马春杰杰

1 关于anchor box具体实现的

anchors和anchor boxes是不同的。

Faster-R-CNN算法由两大模块组成：1.PRN候选框提取模块 2.Fast R-CNN检测模块。其中，RPN是全卷积神经网络，用于提取候选框；Fast R-CNN基于RPN提取的proposal检测并识别proposal中的目标。

理解proposal：在Faster Rcnn中，使用一个n*n的滑动窗，对于这一个滑动窗，可以同时预测k个proposal，这里的proposal就是相当于reference boxes，即参考区域或者说候选区域。

anchor位于n*n的滑动窗的中心位置，上面的一个reference boxes可以用一个scale（缩放），一个aspect_ratio（纵横比，如4:3,16:9之类的）和sliding window中的锚点唯一确定。

总结：anchor boxes就是reference boxes，即候选区域。参考下图：

[1] http://www.cnblogs.com/venus024/p/5590044.html

关于损失函数的新理解：

根据下面这段话：

计算regression loss需要三组信息：1.预测框，即RPN网络预测出的proposal的中心位置坐标x,y和宽高w,h；2.锚点reference box:之前的9个锚点对应9个不同scale和aspect_ratio的reference boxes，每一个reference boxes都有一个中心点位置坐标x_a,y_a和宽高w_a,h_a。3.ground truth:标定的框也对应一个中心点位置坐标x*,y*和宽高w*,h*。因此计算regression loss和总Loss方式如下：

突然想到，loss函数是不是就是用于计算预测的bbox与groundtruth之间的差别的。就像IOU一样。IOU计算的是两者之间的重叠程度，而loss函数则是为了计算两者之间的具体差别。

2 map的含义: 目标检测中的mAP是什么含义？

mAP值可以分为三个部分来理解，P/AP/mAP

首先是P（Precision）：精度、正确率。跟P一块出现的是R（Recall）：召回率。定义是：

precision=返回结果中相关文档的数目/返回结果的数目；

Recall=返回结果中相关文档的数目/所有相关文档的数目。

单纯的用Precision或者Recall来评价最后的结果都不太合适，因为两者之间是相互影响的，所以出现了AP，它同时考虑的P和R

首先，P和R之间是可以相互表示的，如下：

具体推导见：http://blog.csdn.net/pkueecser/article/details/8229166

注意：在这里，我们将Precision和Recall都看作是关于自变量 t 的函数，因为一般来说，随着 t 的变化，算法的一些表现也会跟着变化。 h(t) , r(t) , p(t) 都看作是连续光滑的曲线，因为集合C足够大。

mAP的定义如下：

mAP就是对多个检测类别的AP进行计算平均，比如说要检测4个物体：人、狗、车、桌子。那么这四个物体都会有各自的AP值，那么最后得到的mAP则是这四个物体的AP的平均值。

[1] https://sanwen8.cn/p/291742Q.html

[2] http://blog.csdn.net/mazhu1079/article/details/63684910?locationNum=15&fps=1

4 在最后输出的tensor中，有没有包含该图片中建立的bbox信息？就是那五个参数是在哪里体现的。

在进行检测的时候，对于VOC数据集，会预测5种bbox，每个box包含了5个坐标值以及20个类别，所以最终是（5+20）*5=125个输出维度：

5 梳理整个流程

首先，将输入图像分成S*S个grid，如果一个物体的中心掉落在一个 grid cell 内，那么这个 grid cell 就负责检测这个物体。

每一个 grid cell 预测B 个 bounding boxes，以及这些 bounding boxes 的得分：score。这个 score 反应了模型对于这个 grid cell 中预测是否含有物体，以及是这个物体的可能性是多少。

如果这个 cell 中不存在一个 object，则 score 应该为0；否则的话，score 则为 predicted box 与 ground truth 之间的 IoU（intersection over union）。

每一个bbox包含了5个predictions，x,y,w,h,confidence，坐标(x,y) 代表了 bounding box 的中心与 grid cell 边界的相对值。width、height 则是相对于整幅图像的预测值。confidence 就是 IoU 值。

本文最后更新于2019年5月21日，已超过 1 年没有更新，如果文章内容或图片资源失效，请留言反馈，我们会及时处理，谢谢！

[mcj]对于上次YOLO的一些遗留问题做一下解释

马春杰杰

相关推荐

留个评论吧~ 抢沙发评论前登陆可免验证码！

文章推荐

最新修改文章

最新评论文章

最新评论

精彩直达

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

TG群

微信群