德国哲学家莱布尼茨曾表示世上没有两片完全相同的树叶,这样的差异性也意味着世界上每一个物体都有自己独有的ID。如今,AI已经逐渐掌握辨别物体细微差异的技能,从海量图像中找到目标物体。
8月6日,据记者了解,达摩院首次将Pure Transformer模型(下文简称为Transformer模型/结构)引入目标重识别任务中,该方法可以高效完成细粒度的图像检索任务,并超越其它AI算法,在准确率和检索时间上均取得了迄今为止最好的成绩。该研究已被AI顶会ICCV 2021收录,并斩获CVPR 2021 AICity挑战赛目标重识别赛道冠军,目前,该技术已正式向全球开发者开源。
达摩院算法斩获CVPR 2021 AICity挑战赛目标重识别赛道冠军
目标重识别是计算机领域研究的新趋势,据统计,目前每1000篇计算机视觉论文就有30篇和目标重识别研究相关。不同于目标检测、目标分割等任务,目标重识别的难度更高。例如同一个物体会因为视角、光线、遮挡等因素而产生外观差异,不同的物体在同样的角度和光线下在视觉上的相似度极高,即便通过肉眼也很难克服这些干扰信息,如何区分这其中的差异并精准找到目标物体一直都是业界的难题。
过去几年,AI研究人员逐步尝试用深度学习CNN模型来解决该问题,但CNN模型在处理目标重识别任务时容易丢失图像部分细节信息,同时又无法有效挖掘图像各特征的全局关联性,从而导致其在复杂场景下的表现较差。此次,达摩院创新性将Pure Transformer模型应用于目标重识别任务中,并提出首个基于Pure Transformer结构的ReID框架TransReID,该框架借助水平切块思想提取更加丰富的细节特征,同时可通过不同模态信息的融合来解决视角差异问题。经过测试显示,该方法已在6个数据集上的成绩超越了SOTA最好的算法成绩。
图:达摩院TransReID首先将图片物理切割成若干个图片小块,每个图片小块经过特征提取模块提取各自的视觉特征,之后计算得到最终图像的全局特征。此外该框架还能够帮助模型克服相机带来的外观偏差以及提取更加鲁棒的全局特征。
该项目研究负责人、达摩院算法专家罗浩表示:“过去Pure Transformer在NLP以及基础视觉领域取得了较大成功,但在更加细粒度的图像检索任务上还未有过尝试,达摩院此次研究引领了新的研究趋势,这是行业的又一个里程碑。”
据悉,该技术的应用前景广阔,达摩院研究团队表示未来会将该技术应用于安全防护以及自然资源、动物保护等领域,例如通过算法来找回走失的珍稀动物。