Unsupervised Monocular Depth Estimation with Left-Right Consistency #摘要不像之前的有监督的方法一样,利用深度图作为标签(GT),本文的方法用容易得到的双目图来训练。利用epipolar geometry constraints。我们通过训练我们的网络来产生视差图像,使其具有图像重建的损失。结果表明,仅对图像重建进行求解就会导致
Learning and Transferring Multi-task Deep Representation for Face Alignment摘要通过多任务学习提升检测鲁棒性。特别的,使用与人脸相关的属性共同学习人脸的特征点位置。 tasks-constrained deep model:解决不同的任务有不同特点这个问题 task-wise early stopping cr...
二次代价函数: 如上图所示的A点假设我们的目标是0,那么B点离目标比较远,但是由于梯度比较小所以更新速度很慢,这种情况不和逻辑很不好,这就是二次代价函数的缺点。交叉熵代价函数: 对数似然函数:...
本文提出的方法可以在没有在超像素以及低维度的分割的情况下提取图像细节,直接产生一个像素map。模型框架框架主要继承于论文基于多尺度深度网络的单幅图像深度估计。首先我们的模型变得更深了(有了更多的卷积层)。其次,网络添加了第三个等级,将最终的输出分辨率提高到原图的一半(原来是1/4)。最后我们对于前两个等级的输出不固定,从一开始就统一训练三个层级,一起调整参数。一:层1 . 全局图像这一层提取全局特征
数据集包含以下几个部分:有标签的:视频数据的一个子集,伴随着密集多标签。此数据也已经被预处理,以填补缺少的深度标签。原始数据集:利用Kinect测得的原始的RGB、Depth、加速度数据。工具箱:用于操作数据和标签的有用的工具。用于评估的训练和测试部分。有标签的数据集有标签的数据集是原始数据集的子集。它是由成对的RGB和深度帧同步组成的,并且每个图像都有多个标签。除了加上标签的深度地图之外
模型框架图(其中一级)若S是我们的放大因子,那么我们在log2S层,渐进的预测残差图。模型主要有两部分:特征提取,图像重构特征提取图像重构对于每一级而言(s层),对输入图像用一个scale等于2的一个上采样层进行操作。然后这个上采样层将和当前层的特征提取分支预测得到的residual图进行相加(利用element-wise summation)。并将相加得到的HR图像输入到下一...
基于多尺度深度网络的单幅图像深度估计 作者:hjimce 一、相关理论 本篇博文主要讲解来自2014年NIPS上的一篇paper:《Depth Map Prediction from a Single Image using a Multi-Scale Deep Network》,属于CNN应用类别的文章,主要是利用卷积神经网络进行单幅图像的深度估计。我们拍照的时候,把三维的图形,投影到二维的平面
论文概述: 作者提出的多尺度的object detection算法:FPN(feature pyramid networks)。原来多数的object detection算法都是只采用顶层特征做预测,但我们知道低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,而本
要解决的问题: 这篇论文提出一种基于region的object detection算法:R-FCN(Region-based Fully Convolutional Network),R-FCN可以看做是Faster RCNN的改进版,速度上提高了差不多3倍左右,mAP也有一点提升。另外一类object detection算法像YOLO,SSD等object detection算法是
Shortcut解析 整体解析
Mobilenets是Google针对手机的智能型嵌入式设备提出的一种轻量级深度卷积神经网络,该网络的核心为深度可分离卷积,该卷积可以分解为深层卷积(depthwise conv)和点对点卷积(Point conv)。Mobilenets一共有两个版本:MobilenetsV1,MobilenetV2。论文地址和论文代码如下:MobileNetsV1论文地址: https://arxiv.org...
SqueezeNet的作者来自Berkeley和Stanford,论文的题目毫无学术气息,且有一股浓烈的网络爆文感。SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size. 论文的题目直接的表达了论文的结果,实现了与AlexNet相同精度,但只用了1/50的参数量。且模型的参数量最少...
SqueezeNext网络于2018粘月公开于arxiv,它号称是基于SqueezeNet进行改进的又一轻量级网络,但它之所以不叫SqueezeNet V2,个人认为究其原因还是因为SqueezeNext其实本质上和SqueezeNet关系不是很大。。。SqueezeNext文章中比较有特色的是论文从硬件角度来分析提升速度,当然本文中对这一部分不做分析。本文主要介绍SqueezeNext的网络设计...
1.简介ShuffleNet V1是Face++于2017年提出的轻量级深层神经网络。作者在2018年又提出了基于V1版本改进的ShuffleNet V2版本。ShuffleNet V1中的核心思想为group结合shuffle操作来改进传统的ResNet的block。而ShuffleNet V2则根据相同的FLOPs(float-point operations,乘积数量)情况下模型速度差别仍...
1.网络整体介绍 本文提出了一种全卷积one-stage目标检测算法(FCOS),以逐像素预测的方式解决目标检测问题,类似于语义分割。目前最流行的不论是one-stage目标检测算法,如RetinaNet,SSD,YOLOv3,还是two-stage目标检测算法,如Faster R-CNN。这两类算法大都依赖于预定义的锚框(anchor boxes)。相比之下,本文提出的目标检测算法FCOS
本文主要介绍下特征交织技术的核心思想,反正我看完论文感觉真的很有创造力! 作者认为我们在进行目标检测任务时,整体的特征空间可以被分组为两组。 一组更可靠,而另一组则不太可靠。 众所周知,在目标检测任务中,由于在网络前向传递(例如,RoI操作)期间会丢失部分信息,低分辨率的目标将更难检测。因此,在目标检测任务中,作者认为将高分辨率的目标得到的特征视为可靠的特征集合,将低分辨率的目标得到的特征视
一:网络整体介绍 ThunderNet的整体架构如下图所示。 ThunderNet使用320×320像素作为网络的输入分辨率。整体的网络结构分为两部分:Backbone部分和Detection部分。网络的骨干部分为SNet,SNet是基于ShuffleNetV2进行修改得到的。 网络的检测部分,利用了压缩的RPN网络,修改自Light-Head R-CNN网络用以提高效率。 并提出Conte
1.简介通过文章目标检测 | 让YOLOv1算法告诉你回归网络的能力和目标检测 | 让YOLOv2告诉你Trick的力量讲述了YOLO算法的原理和部分改进策略。YOLO系列算法在刚被提出时其目的在于提升检测网络的速度,因此其算法的召回率和检测率相对于Faster RCNN系列算法会要低一些。作者为了提升YOLO算法的实用性,提出了YOLOv2,在不损失速度的情况下提升了网络精度。但从下图的左图中...
目标检测领域最近有个较新的方向:基于关键点进行目标物体检测。该策略的代表算法为:CornerNet和CenterNet。由于本人工作特性,对网络的实时性要求比较高,因此多用YoLov3及其变体。而就在今天下午得知,基于CornerNet改进的CornerNet-Squeeze网络居然在实时性和精度上都超越了YoLov3,我还是蛮激动的,故趁此机会学习下该类检测算法的原理。cornerNer论...
1.概述现有的基于姿态估计的方式,是通过逐像素分类实现的,这种方式是考虑不到大范围的空间信息的。举例来说:在左图中,由于肘关节的外观与膝关节非常相似,对于一个感受野仅能覆盖肘关节本身的小特征提取器,很难将两者区分开来。但如果感受野能同时看到附近的手腕或肩膀,那么将其归类为肘部就容易得多。同样,在中间的图像中,要确定身体的某个部位是左还是右,人的头部和手的方向是重要的信息。在涉及单人姿态估计的方法...
为了能够在小计算量的情况下更好的使用多尺度特征,本文提出了multi-scale aggregation R-CNN (MSA R-CNN)。MSA R-CNN网络由两个模块组成:RoIAlign block (MS-RoIAlign) 和 multi-scale keypoint head network (MS-KpsNet)。本文将人体检测和关键点检测整合到一个网络中,从而减低整体的计算复杂...
多人姿态估计是一个具有挑战的问题,现有的方法大多是基于two-stage的,而two-stage主要有两种:自上而下的策略,第一阶段先检测人体框,第二阶段对每个人体框进行单人姿态估计,从而实现多人姿态估计。自底而上的策略,第一阶段先对全图作所有人体的关键点检测,第二阶段将所有的关键点分配到对应的人体上,实现多人姿态估计。正如目标检测领域由two-stage,发展到后来的one-stage。...
https://mp.csdn.net/mdeditor/100601750本文重新思考了这种多阶段策略,首先文章分析了一下,single-stage策略,典型的mutil-stage网络,hourglass,为什么叫他
现有的人体姿态估计网络,想要到达较好的效果,需要对网络进行堆叠,不论是Hourglass,CPN,HRnet等优秀的网络都有这个特性。但在实际应用时,效率是一个不可避免的问题。因此,本文提出了一种新的快速姿态蒸馏(FPD)模型学习策略。具体来说,FPD训练了一个轻量级的姿态识别神经网络架构,能够以较低的计算成本快速执行。这是通过有效地转移一个强大的教师网络的模型知识来实现的。实验证明了本文的FPD...
注意力机制在卷积网络的优化中,以及被广泛的使用。下面介绍几种非常著名的,应用于特征提取网络的注意力机制。SEnet(https://arxiv.org/abs/1709.01507 )SEnet(Squeeze-and-Excitation Network)考虑了特征通道之间的关系,在特征通道上加入了注意力机制。SEnet通过学习的方式自动获取每个特征通道的重要程度,并且利用得到的重要程...
https://arxiv.org/pdf/1910.06278.pdf关键点标签编码(encoding)训练人体姿态估计网络时,考虑到训练代价,通常会将将输入图片做降采样,在降采样后的分辨率上进行训练。为了网络能够以热度图为标签进行训练,需要将基于原图分辨率的关键点坐标,转换为降采样后分辨率下的关键点坐标。并利用高斯模糊进行转换成热度图。我们称这个过程称为坐标编码,从坐标点到热图。关...
在目标检测的落地项目中,实时性和精确性的trade-off至关重要,而YOLOv3是目前为止在这方面做得最好的算法。本文通过高斯分布的特性,改进YOLOv3使得网络能够输出每个检测框的不确定性,从而提升了网络的精度。1.YOLOv3简介如下图a所示,为YOLOv3的网络架构。YOLOv3使用了skip shotcut的操作方式网络过深而引起的梯度消散。YOLOv3使用了up-sample操...
本文提出了一种基于样本预测困难度动态调整交叉熵的损失函数,它根据预测的相对困难程度来自动调节损失的大小。在本文中,我们将介绍anchor loss,并解释图像分类中anchor loss。首先,我们定义了预测的困难,并给出了相关的例子。然后给出了锚失量函数的广义形式。并通过数值的形式介绍了anchor loss。最后,通过与其他损失函数在公式上的比较,加深anchor loss 提出的改变。论...
1.出发点 最近,anchor-free的思想在CV的各个方向都大放异彩,尤其是目标检测领域。多数anchor-free的目标检测算法利用对图像中特征点的定位,实现目标检测。很容易看出,一个人体实例的关键点可以看作是一个具有两个以上(多个)角点的特殊的边界框,因此可以通过将更多的输出头附加到基于anchor-free的目标检测网络来解决人体关键点定位任务。基于此,产生了文章提出的端到端的人体
1.出发点 由于人体的遮挡和拥挤等现象,现有的人体姿态估计网络很难解决此类情况下的准确估计,且此类现象会导致网络估计的关键点不符合正常的人体姿态,失去了人体固有的形态。比如下图中第二行图片所示,相较于第一行,很显然有部分关节是违背事实的。作者希望即使在拥挤状态下,网络预测得到关键点也能够符合关节所固有结构。基于此作者提出使用生成对抗的方式来解决这个问题。 2.自对抗网络结构 与传统的GAN模
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号