人类可以通过观察他人来学习技能。这种从观察中学习的能力—被称为视觉模仿[1]或第三人称模仿[2]。视觉模仿一直是人工智能中一个重要的研究课题。视觉模仿首先需要对演示者的视觉场景和随时间产生的场景变化有细致的理解,然后模仿者在自己的环境中产生类似的变化。因此视觉模仿可以归结为学习演示和模仿所处环境的视觉相似函数,通过模仿者的动作行为将视觉相似函数取最优值,得到正确的模仿行为。视觉相似性函数需要决定视觉观察中的哪些方面能够再现演示的技能,即函数需要定义模仿什么和忽略什么。 PMLR2020收录的《Graph-Structured Visual Imitation》中将视觉模仿作为视觉对应的问题,这篇论文基于计算机视觉方面的最新进展,如人类手指关键点检测器、合成增强实时训练的目标检测器、由视角变化[3]监督的点检测器和对每个演示所学习的多重视觉实体检测器。机器人 agent得到奖励的前提是其动作能够很好匹配演示与模仿场景中视觉实体的空间对应关系。文中提出的对实体及其空间配置的因式视觉表征可以在几分钟内成功地模仿各种操作技巧,并且只使用一次演示。该方法对复杂背景具有较强的鲁棒性,即使演示与模仿之间存在环境差异,也能有效泛化。
|
版权所有 © 上海昀景智能科技有限公司 地址:上海市闵行区颛兴东路1331号706室 沪ICP备20012629号-1 |