重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
本文小编为大家详细介绍“Sparse R-CNN实例分析”,内容详细,步骤清晰,细节处理妥当,希望这篇“Sparse R-CNN实例分析”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。
白城ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为创新互联公司的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:18982081108(备注:SSL证书合作)期待与您的合作!
看看第三种思路的物体检测是什么样的。
今天我们将讨论一个新的方法称为Sparse R-CNN(不要和处理3D计算机视觉任务的Sparse R-CNN混淆),使用了完全稀疏和可学习的包围框生成来实现最先进的物体检测。
我们先简要介绍一下现有的方法。
单阶段检测器是目前应用最广泛的方法之一,直接预测anchor box的标签和位置,anchor密集覆盖空间位置、比例和宽高比。例如SSD或YOLO。
我们来看YOLO算法。最终,它的目标是预测图像上一个目标的类和指定目标位置的包围框。每个包围框可以用四个描述子来描述:
此外,我们还必须预测一个pc值,即框中存在目标的概率。它是一个dense的方法,因为它不是在给定的图像中搜索可能包含一个目标的感兴趣的区域。相反,YOLO将图像分割成单元格,使用19×19的网格。但一般来说,单阶段检测器可以产生W x H个cell,每个像素一个。每个单元格负责预测k个边界框(本例中k选为5),因此,对于一张图像,我们会得到大量的W x H x k个边界框。
两阶段探测器,利用RPN产生dense的建议框,如Faster R-CNN论文提出的。这些探测器多年来一直主导着物体探测。
利用RPN算法从dense区域候选框中得到稀疏的前景框,然后对每个框的位置进行细化,并预测其具体类别。
与单阶段探测器的方法相似,它不是直接预测目标的类别,而是预测目标的概率。第二阶段通过objectness和包围框的overlap分数来进行预测类别的过滤。
本文将其新的Sparse R-CNN范式归类为现有目标检测范式的扩展,该范式包括从完全dense到dense-to-sparse,再加入新的步骤到完全sparse。
在论文中,避免了使用RPN,取而代之的是一组小的建议框(例如每幅图像100个)。这些框是通过网络的可学习的proposal boxes部分和proposal features部分来获得的。这种形式为每个proposal预测4个值*(x,y,h,w)*,后者为每个bbox预测一个长度为256的潜在表示向量。学习到的建议框作为一个合理的统计量来执行后续的细化步骤,学习到的建议特征用于引入注意力机制。这种机制与DETR论文中使用的机制非常相似。这些操作是在动态实例交互式head中执行的,我们将在下一节中介绍。
正如论文的名称所暗示的那样,该模型是端到端的。结构很优雅。它由上述可学习的proposal boxes和proposal features以及动态实例交互头组成,这是本文神经网络架构的主要贡献。
给定N个建议框,Sparse R-CNN首先利用RoIAlign操作针对每个由建议框定义的区域,从主干中提取特征。每个感兴趣区域的特征被输入到单独的头中用于目标的定位和分类,其中每个头以特定的可学习的建议特征为条件。
建议特征被用作卷积的权重,在上面的图像中它们被称为“参数”。RoI特征由这个产生的卷积来得到最终的特征。这样,那些最具前景信息的框对最终目标的位置和分类产生影响。在动态头部中嵌入自注意模块来推理物体之间的关系,并通过卷积影响预测。
作者提供了几个对比表,显示这种新方法的性能。Sparse R-CNN与RetinaNet,Faster R-CNN和DETR在ResNet50和ResNet100的两个变体上的比较。
在这里我们可以看到稀疏的R-CNN在R50和R100上都比RetinaNet和Faster R-CNN更好,但是它的性能与基于DETR非常相似。
根据作者的观点,DETR模型实际上是密集到稀疏的模型,因为它利用稀疏的目标查询集,与全局(密集)图像特征交互。因此,与DETR相比,这篇文章的新颖之处就出现了。
在这张图片上,你可以看到COCO Dataset上模型推断的结果。在第一列中显示了学习的建议框,它们是对任何新图像的预测。在下一列中,你可以看到从建议中提炼出来的最终bbox。在迭代学习过程中,它们因阶段的不同而不同。
读到这里,这篇“Sparse R-CNN实例分析”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注创新互联行业资讯频道。