目录
1.计算机视觉
1.1目标检测
1.2图像分割
1.3图像分类
2.openmmlab的体系(主要摘取了感兴趣的几个库)
3.机器学习、卷积神经网络
4.大神推荐的如今建议入门的领域:
1.计算机视觉
是对图像,视频此类图像类信息进行特征提取等以获取信息的技术;
1.1目标检测
拥有多位置信息,由物体的左上角和右下角来获取位置;其锚定框将由五个参数决定(四个位置参数与一个标签)。目标检测按照检测对象目标可以分为专用目标检测和通用目标检测。
1.2图像分割
进行像素级别的框选是任务是图像分割,它分为两种:
(1)语义分割:不管目标,只管像素,只管类别;
(2)实例分割:要管目标,区分出每一个物体;
(3)全景分割:在实例分割之外还进行整个环境的感知与分割。
1.3图像分类
计算机视觉的基础任务,在此基础上加上检测头/分割头/关键点检测头等可以得到其他任务的目标,换句话来说,目标检测,图像分割,关键点检测等任务他们可以说是CV的下游任务。
2.openmmlab的体系(主要摘取了感兴趣的几个库)
mmdeploy:是用于部署在服务器,开发板等有着企业不同平台需求和环境特色的设备中
mmdetection3d:通过激光雷达的点云数据进行3D的锚定框绘制与3D环境下的感知
mmtrack:进行视频进行连续逐帧的目标检测与追踪
mmaction2:进行视频行为理解,动作检测;以此引申的有意义的下游任务:检测吵架和打架...
mmediting:图像修复,超分辨率,目标/背景的抠图,图像生成。
mmrazor:蒸馏,轻量
一些建议:
- 可以使用mmdetection去使用复现好的官方算法来完成论文中需要的结果表现的对比。
- 很推荐在学习过程中参考openmmlab module zoo与dataset zoo中完成复现的文章甚至是benchmark设置,让自己对于实验有着更加清晰的全面的了解。
3.机器学习、卷积神经网络
机器学习:程序通过数据中总结学习经验,并以此为基础解决同类的新的问题。
又可以称为“统计机器学习”,因为得到的结果是概率。
训练的目标:图片
梯度下降的方法:优化器之间的区别,adam,带动量的优化器SGD... (这是optimization部分,之前自己_base_ config的时候出过相关问题,也对于优化器有点兴趣)
- CS231N 训练神经网络第二部分有关于优化器的描述。
torch带的optimization
卷积神经网络:
局部连接:像素局部相关 (依卷积核大小)
共享权重:平移不变性 (卷积核的参数共享)
上述两个特性以此节约大量参数
卷积核的权重和感受野的像素进行点乘反映了卷积核提取的特征
池化 -> 下采样;可以降低resolution,减少计算量;
一个重要的代码块举例:
通用封装 torch.nn.Module
继承了torch.nn.Module的一个块的举例
在代码中可以经常见到如上图般堆砌的功能层;在init下定义需要用到的细节功能,再于forward下完成一个个细节的具有顺序的堆叠,以最后完成整个接口功能。
4.大神推荐的如今建议入门的领域: