想要在视频中寻找特定动作？这种基于 AI 的方法可以帮你找到_人工智能

互联网上充斥着各种教学视频，这些视频可以教会好奇的观众各种知识，从如何烹制完美的煎饼到如何进行救生的海姆立克急救法。

但要精确定位长视频中某个特定动作发生的时间和地点可能非常繁琐。为了简化这一过程，科学家们正在尝试教计算机执行这项任务。理想情况下，用户只需描述他们想要的动作，AI 模型就会跳转到视频中该动作的位置。

然而，教导机器学习模型做到这一点通常需要大量经过精心手工标记的昂贵视频数据。

麻省理工学院和麻省理工学院 - IBM 沃森人工智能实验室的研究人员采用了一种新的、更有效的方法，即仅使用视频及其自动生成的记录来训练模型来执行这项任务，即时空基础。

研究人员通过两种不同的方式教会模型理解未标记的视频：通过查看小细节来确定物体的位置（空间信息），并查看更大的图景来了解动作发生的时间（时间信息）。

与其他 AI 方法相比，他们的方法可以更准确地识别包含多项活动的较长视频中的动作。有趣的是，他们发现同时训练空间和时间信息可以使模型更好地识别每项活动。

除了简化在线学习和虚拟培训流程之外，该技术还可以用于医疗保健领域，例如，可以快速找到诊断过程视频中的关键时刻。

“我们解决了试图同时编码空间和时间信息的难题，而是把它想象成两个专家单独工作，事实证明这是一种更明确的信息编码方式。

“我们的模型将这两个独立的分支结合在一起，从而获得了最佳性能，”该技术论文的主要作者 Brian Chen 说道，该论文现已发布到arXiv预印本服务器。

陈是哥伦比亚大学 2023 届毕业生，他在 MIT-IBM 沃森人工智能实验室担任访问学生期间进行了这项研究，与他一起撰写这篇论文的还有 MIT-IBM 沃森人工智能实验室高级研究员、计算机科学与人工智能实验室 (CSAIL) 口语系统组负责人 James Glass；MIT-IBM 沃森人工智能实验室成员 Hilde Kuehne，她也是法兰克福歌德大学的一名成员；以及麻省理工学院、歌德大学、MIT-IBM 沃森人工智能实验室和 Quality Match GmbH 的其他研究人员。

该研究将于6 月 17 日至 21 日在西雅图举行的计算机视觉和模式识别会议（CVPR 2024 ）上发表。

全球和本地学习

研究人员通常使用人类注释了特定任务的开始和结束时间的视频来教模型执行时空基础。

生成这些数据不仅成本高昂，而且人类很难确定到底要标记什么。如果动作是“煎饼”，那么这个动作是从厨师开始搅拌面糊时开始的，还是从她把面糊倒进锅里时开始的？

“这次的任务可能是烹饪，但下一次，可能是修车。人们需要注释的领域太多了。但如果我们能在没有标签的情况下学习一切，那么这就是一个更通用的解决方案，”陈说。

研究人员采用的方法是从 YouTube 等网站获取未标记的教学视频和随附的文本记录作为训练数据。这些不需要任何特殊准备。

他们将训练过程分为两部分。首先，他们教机器学习模型查看整个视频，以了解特定时间发生的动作。这种高级信息称为全局表示。

其次，他们教模型将注意力集中在视频中发生动作的特定区域。例如，在一个大厨房里，模型可能只需要关注厨师用来搅拌煎饼面糊的木勺，而不是整个柜台。这种细粒度的信息被称为局部表征。

研究人员将一个附加组件添加到他们的框架中，以减轻叙述和视频之间出现的不一致。也许厨师先谈论煎饼，然后再执行操作。

为了开发出更切合实际的解决方案，研究人员将重点放在了几分钟长的未剪辑视频上。相比之下，大多数人工智能技术都是使用几秒钟的剪辑来训练的，这些剪辑被剪辑成只显示一个动作。

新的基准

但是，当他们评估他们的方法时，研究人员无法找到在这些较长的未剪辑视频上测试模型的有效基准 - 因此他们创建了一个基准。

为了建立基准数据集，研究人员设计了一种新的注释技术，该技术可以很好地识别多步骤操作。他们让用户标记物体的交点，例如刀刃切开西红柿的点，而不是在重要物体周围画一个框。

陈说：“这定义得更明确，加快了注释过程，减少了人力和成本。”

此外，让多个人对同一视频进行点注释可以更好地捕捉随时间发生的动作，例如倒牛奶的流动。所有注释者都不会在液体流动的同一点上进行标记。

当他们使用这个基准来测试他们的方法时，研究人员发现它比其他人工智能技术更能准确地定位动作。

他们的方法也更注重人与物体的互动。例如，如果动作是“上煎饼”，许多其他方法可能只关注关键物体，比如柜台上的一叠煎饼。相反，他们的方法关注的是厨师将煎饼翻转到盘子上的实际时刻。

接下来，研究人员计划改进他们的方法，以便模型能够自动检测文本和叙述不一致的情况，并将焦点从一种模式切换到另一种模式。他们还希望将他们的框架扩展到音频数据，因为动作和物体发出的声音之间通常存在很强的相关性。

本站全部资讯来源于实验室原创、合作机构投稿及网友汇集投稿，仅代表个人观点，不作为任何依据，转载联系作者并注明出处：https://www.lvsky.net/289.html

想要在视频中寻找特定动作？这种基于 AI 的方法可以帮你找到

全球和本地学习

新的基准

版权声明

相关推荐

评论