基于深度学习的主流单目3D目标检测算法可以分为两个
基于深度学习的主流单目3D目标检测算法可以分为两个过程:2D目标检测 + 基于投影几何原理的回归网络设计。本文首
视频编解码算法分为传统算法和基于深度学习的方法,本文主要介绍基于传统算法的视频编解码技术的原理,部分内容和图片参考网上技术博客(链接已放在文章末尾)。
本文首先介绍了单目 3D 目标检测的理论基础-投影几何原理,然后概述了单目 3D 目标检测的内容,包括3D目标检测算法根据输入信号不同的分类、 单目 3D 视觉目标检测定义和难点,以及描述了无人驾驶中的3D目标检测任务,最后介绍了几个主流的单目 3D 目标检测算法,并描述了这些算法的原理和相关检测流程。总结可以发现主流的单目3D 目标检测算法都有以下共同点: 都复用了 2D 目标检测的结果; 都有结合投影几何知识和利用2D图像特征来得到目标的3D空间位置; 都有 3D 属性参数回归网络。
为了了解模型的泛化能力,即判断模型的好坏,我们需要用某个指标来衡量,有了评价指标,就可以对比不同模型的优劣,并通过这个指标来进一步调参优化模型。对于分类和回归两类监督模型,分别有各自的评判标准。 不同的问题和不同的数据集都会有不同的模型评价指标,比如分类问题,数据集类别平衡的情况下可以使用准确率作为评价指标,但是现实中的数据集几乎都是类别不平衡的,所以一般都是采用 AP 作为分类的评价指标,分别计算每个类别的 AP,再计算mAP。
边界框:在⽬标检测领域⾥,我们通常使⽤边界框(bounding box,缩写是 bbox)来描述⽬标位置。边界框是⼀个矩形框,可以由矩形左上⻆的 x 和 y 轴坐标与右下⻆的 x 和 y 轴坐标确定。
Scaled YOLOv4 模型最主要的贡献在于通过理论系统分析和实验证了模型缩放的原则,进一步拓展了 CSPNet 方法,并基于此设计了一个全新的 Scaled-YOLOv4,Scaled-YOLOv4 网络的卷积模块都有使用 CSP。总的感觉就是针对不同的 GPU 平台,根据作者分析出来的模型缩放理论,且符合一些原则的情况下,选择不同的模型宽度和深度参数,并让模型更深更宽。
汽车车牌检测和识别实践指南,提供了算法方案和测试效果。
yolov1 作者提出了一种新的目标检测方法 YOLO,之前的目标检测工作都是重新利用分类器来执行检测。作者的神经网络模型是端到端的检测,一次运行即可同时得到所有目标的边界框和类别概率。YOLO 架构的速度是非常快的,base 版本实时帧率为 45 帧,smaller 版本能达到每秒 155 帧,性能由于 DPM 和 R-CNN 等检测方法。
作者深入分析了极度不平衡的正负(前景背景)样本比例导致 one-stage 检测器精度低于 two-stage 检测器,基于上述分析,提出了一种简单但是非常实用的 Focal Loss 焦点损失函数,并且 Loss 设计思想可以推广到其他领域,同时针对目标检测领域特定问题,设计了 RetinaNet 网络,结合 Focal Loss 使得 one-stage 检测器在精度上能够达到乃至超过 two-stage 检测器。
目标检测是一个复杂的问题,需要解决两个主要任务。首先,检测器必须解决识别问题,区分前景目标和背景目标,并为其分配匹配的类别标签。其次,探测器必须解决定位问题,为不同的目标分配精确的 bounding box。许多目标探测器都是基于两阶段网络框架 Faster R-CNN 的。双阶段检测网络是一个多任务学习问题,包括目标的分类和边界回归。与物体识别不同的是,定义正/负样本需要一个 IoU 阈值。通常使用的 IOU 阈值 u=0.5,0.5 对 IOU 的设置是相当低的。检测的目标经常包含很多噪声,如图 (a)所示。IOU 阈值取0.5,会有很多假的预测信息也都包含在内,从而会产生很多错误的预测信息。
Mask RCNN 继承自 Faster RCNN 主要有三个改进: feature map 的提取采用了 FPN 的多尺度特征网络 ROI Pooling 改进为 ROI Align 在 RPN 后面,增加了采用 FCN 结构的 mask 分割分支
FPN(feature pyramid networks) 是何凯明等作者提出的适用于多尺度目标检测算法。原来多数的 object detection 算法(比如 faster rcnn)都是只采用顶层特征做预测,但我们知道低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,而本文不一样的地方在于预测是在不同特征层独立进行的。
backbone 为 vgg16 的 faster rcnn 网络结构如下图所示,可以清晰的看到该网络对于一副任意大小 PxQ 的图像,首先缩放至固定大小 MxN,然后将 MxN 图像送入网络;而 Conv layers 中包含了 13 个 conv 层 + 13 个 relu 层 + 4 个 pooling 层;RPN 网络首先经过 3x3 卷积,再分别生成 positive anchors 和对应 bounding box regression 偏移量,然后计算出 proposals;而 Roi Pooling 层则利用 proposals 从 feature maps 中提取 proposal feature 送入后续全连接和 softmax 网络作 classification(即分类: proposal 是哪种 object)。
HALCON 是德国 MVtec 公司开发的一款综合性的机器视觉标准软件,拥有全球通用的集成开发环境(HDevelop)。它节约了产品成本,缩短了软件开发周期——HALCON 灵活的架构便于机器视觉,医学图像和图像分析应用的快速开发。在欧洲以及日本的工业界已经是公认具有最佳效能的机器视觉(Machine Vision)软件。
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号