PS:其实一直没有认真理解计算机视觉可以解决的问题,得把这些任务区分一些
图像分类(Image Classification)
给定一张输入图像,判断该图像所属类别
目标定位(Object Localization)
在图像分类的基础上,确定目标具体在图像的什么位置,通常是以包围盒的(bounding box)形式
目标识别(Object recognition)
只有目标和非目标两个类别,找到目标所在的矩形框
例如,人脸检测(人脸为目标、背景为非目标)、汽车检测(汽车为目标、背景为非目标)
目标检测(Object Detection)
检测图像中所有的目标,得到检测到的目标的矩形框,并对所有检测到的矩形框进行分类
多任务学习中,网络有两个输出分支:
一个分支用于做图像分类,即全连接+softmax判断目标类别,和单纯图像分类区别在于这里还另外需要一个『“背景”』类
另一个分支用于判断目标位置,即完成回归任务输出四个数字标记包围盒位置,该分支输出结果只有在分类分支判断不为“背景”时才使用
语义分割(Semantic Segmentation)
分割是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,分割需要进一步判断图像中哪些像素属于哪个目标
对图片中的每一个像素点进行分类,相同的类别进行标注,但是同一物体的不同实例不需要单独分割
实例分割(Instance Segmentation)
对图像中的每一个像素点进行分类,同种物体的不同实例也用不同的类标进行标注
目标跟踪(Object Tracking)
跟踪是基于检测的,必须先定位目标,才能后续跟踪