当前位置：首页 > 专栏

当前聚焦：使用 MediaPipe BlazePose 在设备上实时跟踪身体姿势

发布时间：2023-02-01 09:50:11 来源：雨夜的博客

视频姿势估计起着至关重要的作用，可以在增强现实、手语识别、全身手势控制，甚至量化体育锻炼中将数字内容和信息叠加到物理世界之上，它可以构成瑜伽的基础。、舞蹈和健身应用。由于可能的姿势多种多样（例如，数百个瑜伽体式）、众多的自由度、遮挡（例如，从相机看到的身体或其他物体遮挡了四肢）以及各种外观或服装。

今天，我们宣布发布一种新的人体姿势感知方法BlazePose，我们在CVPR2020的CV4ARVR研讨会上介绍了该方法。我们的方法通过使用机器学习(ML)从单个帧中推断出身体的33个二维地标，从而提供人体姿势跟踪。与基于标准COCO拓扑的当前姿势模型相比，BlazePose可以准确定位更多关键点，使其特别适合健身应用。此外，当前最先进的方法主要依赖强大的桌面环境进行推理，而我们的方法通过CPU推理在手机上实现实时性能。如果利用GPU推理，BlazePose可实现超实时性能，使其能够运行后续ML模型，如面部或手部跟踪。

拓扑

(相关资料图)

目前人体姿势的标准是COCO拓扑，它由横跨躯干、手臂、腿部和面部的17个地标组成。然而，COCO关键点仅定位到脚踝和手腕点，缺乏手脚的尺度和方向信息，这对于健身和舞蹈等实际应用至关重要。包含更多关键点对于特定领域姿势估计模型的后续应用至关重要，例如手、脸或脚的姿势估计模型。

通过BlazePose，我们提出了33个人体关键点的新拓扑，它是COCO、BlazeFace和BlazePalm拓扑的超集。这使我们能够仅从与面部和手部模型一致的姿势预测中确定身体语义。

概述：用于姿势跟踪的ML管道

对于姿势估计，我们利用我们经过验证的两步检测器-跟踪器ML管道。使用检测器，该管道首先在帧内定位感兴趣的姿势区域(ROI)。跟踪器随后根据该ROI预测所有33个姿势关键点。请注意，对于视频用例，检测器仅在第一帧上运行。对于后续帧，我们从前一帧的姿势关键点得出ROI，如下所述。

通过扩展BlazeFace

进行姿势检测对于由姿势检测和跟踪模型组成的完整ML管道的实时性能，每个组件必须非常快，每帧仅使用几毫秒。为了实现这一点，我们观察到神经网络关于躯干位置的最强信号是人脸（由于其高对比度特征和相对较小的外观变化）。因此，我们通过做出强（但对于许多移动和网络应用程序有效）的假设来实现快速和轻量级的姿势检测器，即我们的单人用例应该可以看到头部。

因此，我们受亚毫秒级BlazeFace模型的启发，训练了一个面部检测器，作为姿势检测器的代理。注意，该模型仅检测人在框架内的位置，不能用于识别个人。与FaceMesh和MediaPipeHand跟踪管道相反，我们从预测的关键点得出ROI，对于人体姿势跟踪，我们明确地预测了两个额外的虚拟关键点，它们牢牢地将人体中心、旋转和缩放描述为一个圆圈。灵感来自莱昂纳多的维特鲁威人，我们预测了一个人臀部的中点，外接整个人的圆的半径，以及连接肩部和臀部中点的线的倾斜角度。即使对于非常复杂的情况，如特定的瑜伽体式，这也会导致一致的跟踪。下图说明了该方法。

跟踪模型

管道的姿态估计组件预测所有33个人物关键点的位置，每个关键点具有三个自由度（x、y位置和可见性）加上上述两个虚拟对齐关键点。与采用计算密集型热图预测的当前方法不同，我们的模型使用回归方法，该方法由所有关键点的组合热图/偏移量预测监督，如下所示。

具体来说，在训练期间，我们首先使用热图和偏移损失来训练网络的中心和左塔。然后我们移除热图输出并训练回归编码器（右塔），从而有效地使用热图来监督轻量级嵌入。

下表显示了对不同训练策略产生的模型质量的消融研究。作为评估指标，我们使用具有20%容差的正确点百分比(PCK@0.2)（如果2D欧几里得误差小于相应人躯干尺寸的20%，我们假设该点将被正确检测到）。为了获得人类基线，我们要求注释者对多个样本进行冗余注释，并获得97.2的平均PCK@0.2。训练和验证是在各种姿势的地理多样化数据集上完成的，均匀采样。

为了涵盖广泛的客户硬件，我们提供了两种姿势跟踪模型：lite和full，它们在速度与质量的平衡上有所不同。对于CPU的性能评估，我们使用XNNPACK；对于移动GPU，我们使用TFLiteGPU后端。

应用程序

基于人体姿势，我们可以构建各种应用程序，例如健身或瑜伽追踪器。例如，我们展示了深蹲和俯卧撑计数器，它们可以自动计算用户统计数据，或验证所执行练习的质量。此类用例可以使用额外的分类器网络或什至使用简单的联合成对距离查找算法来实现，该算法匹配归一化姿势空间中的最近姿势。

结论

我们已经发布了一个版本的BlazePose针对上半身用例MediaPipe在Android，iOS和Python的运行。BlazePose还将通过即将发布的MLKit版本中的姿势检测API提供给更广泛的移动开发人员社区。除了移动域，我们还预览了基于Web的浏览器内版本。我们希望为更广泛的研究和开发社区提供这种人体姿势感知功能将导致创造性用例的出现，刺激新的应用程序和新的研究途径。

我们计划通过更强大和更稳定的跟踪将这项技术扩展到更多种类的人体姿势和活动。在随附的模型卡中，我们详细说明了预期用途、限制和模型公平性，以确保这些模型的使用符合Google的AI原则。我们相信，发布这项技术可以为整个研究和开发人员社区的成员提供新的创意和应用的动力。我们很高兴看到您可以用它构建什么！

关键词：

上一篇:致远互联（688369）1月31日主力资金净卖出31.73万元

下一篇:最后一页

置富产业信托(0778.HK)涨4.7% 总市值135亿港元

置富产业信托(0778 HK)涨4 7%，报6 91港元，总市值135亿港元。置富产业信托宣布，已订立买卖协议，以8800万新加坡元(约5 01亿港元)收购新加