参考 https://baijiahao.baidu.com/s?id=1616657317266058736&wfr=spider&for=pc
研究人员利用GPU在4K/8K视频中进行物体检测
卡内基梅隆大学的研究人员开发出一种新系统,该系统使用GPU快速准确地检测4K和8K视频中的物体。研究人员表示,虽然大量数据源以高分辨率记录,但目前最先进的物体检测模型,如YOLO,Faster RCNN,SSD等,只能处理具有相对较低分辨率的视频,约为608 x 608像素。
目前大多数模型使用这些图像有三个原因:它们足以完成任务;处理低分辨率图像更具时间效率;许多用于训练模型的公开数据集由低分辨率图像组成。当然,低分辨率的问题在于视频没有获得很多细节。随着4K甚至8K相机的数量不断增加,需要一种新的模型来分析它们。
卡内基梅隆大学的研究人员开发出的这种新系统,将物体检测的任务分为两个阶段,两个阶段都涉及通过将原始图像与规则网格重叠来细分原始图像,然后将模型YOLO v2应用于快速对象检测。开发者创造了许多小型矩形作物,可以通过YOLO v2在几个服务器工作者上以并行方式处理。第一阶段将图像缩小为较低分辨率并执行快速物体检测以获得粗糙的边界框。第二阶段使用这些边界框作为注意图来决定在高分辨率下检查图像的位置。因此当图像的某些区域不包含任何感兴趣的对象时,开发者可以节省处理它们的资源。
研究人员在代码中实现了他们的模型,该代码将工作分布在GPU上,在设法保持高精度的同时,在4K视频和8K视频上分别达到3-6fps和2fps的性能,与将图像缩小到低分辨率的YOLO v2方法相比,该方法将平均精度得分从33.6 AP50提高到74.3 AP50。与在高分辨率下处理原始图像的每个部分相比,这种方法将处理高分辨率图像所需的时间缩短了大约20%。 这实际意味着近乎实时的4K视频处理是可行的。