英伟达发布通用机器人模型RVT-2,训练效率提升6倍

4个月前 科技 26观看
摘要 随着AI技术的飞速发展,在工业和家庭领域中构建能够精确操作且仅需少量任务演示的通用实体机器人成为可能。例如,在工业制造中,人们希望实体机器人能够通过几次演示就学会高精度任务,如拧螺丝、搬

随着AI技术的飞速发展,在工业和家庭领域中构建能够精确操作且仅需少量任务演示的通用实体机器人成为可能。例如,在工业制造中,人们希望实体机器人能够通过几次演示就学会高精度任务,如拧螺丝、搬货物等。1yf喜好网-记录每日喜好的科技时尚娱乐生活

之前的PerAct、RVT等通用模型,在训练方面有一定的优势但还是有不少局限性。PerAct采用多任务模型,通过预测下一关键帧姿态来进行3D操作,但它使用的基于体素的场景表示限制了其扩展性。1yf喜好网-记录每日喜好的科技时尚娱乐生活

RVT虽然解决了PerAct的一些功能缺陷,但在处理需要高精度的任务时仍存在困难。所以,英伟达的研究人员在RVT基础之上研发出了第二代,训练效率比第一代快6倍,推理效率快2倍,仅10次示范学习就能执行各种高精度任务1yf喜好网-记录每日喜好的科技时尚娱乐生活

英伟达发布通用机器人模型RVT-2,训练效率提升6倍1yf喜好网-记录每日喜好的科技时尚娱乐生活

1yf喜好网-记录每日喜好的科技时尚娱乐生活

在架构方面与RVT相比,RVT – 2进行了大幅度改进并引入了多阶段推理管道。在处理对象非常小且需要非常精确的抓手姿态的任务时,例如,在孔中插入销钉,之前RVT使用的固定视图可能无法完成。1yf喜好网-记录每日喜好的科技时尚娱乐生活

RVT - 2采用了多阶段设计,在第一阶段使用固定视图预测感兴趣区域,然后在该区域进行放大并重新渲染图像,使用放大后的特写图像进行精确的抓手姿态预测。1yf喜好网-记录每日喜好的科技时尚娱乐生活

RVT – 2还采用了凸上采样技术。RVT基于ViT,在预测热图时,会将图像tokens特征上采样到图像分辨率,这一过程内存消耗大。1yf喜好网-记录每日喜好的科技时尚娱乐生活

英伟达发布通用机器人模型RVT-2,训练效率提升6倍1yf喜好网-记录每日喜好的科技时尚娱乐生活

RVT - 2去除了特征上采样,直接从tokens分辨率的特征预测热图形状,使用凸上采样层,通过学习到的凸组合来进行预测,不仅节省了内存,还不会牺牲性能。1yf喜好网-记录每日喜好的科技时尚娱乐生活

此外,RVT - 2对网络参数进行了合理化调整。RVT中一些网络参数,如虚拟图像大小和补丁大小,可能不是GPU友好的。R1yf喜好网-记录每日喜好的科技时尚娱乐生活

VT - 2采用了类似于ViT的参数,如224的图像大小和14的补丁大小,这不仅使神经网络更适合GPU,还减少了多视图变压器内部tokens的总数,进一步提高了效率。1yf喜好网-记录每日喜好的科技时尚娱乐生活

在旋转预测方面,RVT和PerAct使用全局视觉特征来预测末端执行器旋转,但当存在多个有效末端执行器位置且旋转依赖于位置时会出现问题。RVT - 2使用从末端执行器位置的特征图中汇集的局部特征进行旋转预测,实现了位置相关的旋转预测。1yf喜好网-记录每日喜好的科技时尚娱乐生活

RVT渲染场景点云时使用了五个虚拟相机,分别放置在正交位置。但在RVT - 2的多阶段模型中,研究发现仅使用三个视图就足够了,且不会牺牲性能。1yf喜好网-记录每日喜好的科技时尚娱乐生活

这是因为RVT - 2在最终预测中使用了放大后的视图,减少虚拟视图数量可以减少渲染器需要渲染的图像数量和多视图变压器需要处理的令牌数量,从而提高了训练和推理效率。1yf喜好网-记录每日喜好的科技时尚娱乐生活

英伟达发布通用机器人模型RVT-2,训练效率提升6倍1yf喜好网-记录每日喜好的科技时尚娱乐生活

为了评估RVT - 2的性能,研究人员在模拟和现实世界中进行了综合实验。在模拟实验中,使用了RLBench中的18个任务进行测试,包括推按钮、放置物品和需要高精度的插销等任务。每个任务有2到60个变化,如处理不同颜色或位置的对象1yf喜好网-记录每日喜好的科技时尚娱乐生活

实验结果表明,RVT - 2在训练时间和性能上显著优于之前的模型。在训练时间方面,RVT - 2在相同计算资源下比RVT训练效率快6倍,推理效率快2倍。1yf喜好网-记录每日喜好的科技时尚娱乐生活

在现实世界实验中,除了RVT中使用的堆叠方块、按压消毒器、将标记物放入杯子/碗中、将物体放入抽屉、将物体放入架子5个任务外,还增加了三个来自IndustRealKit的高精度任务,拾取并插入16mm销钉、拾取并插入8mm销钉、拾取并插入插头。1yf喜好网-记录每日喜好的科技时尚娱乐生活

英伟达发布通用机器人模型RVT-2,训练效率提升6倍1yf喜好网-记录每日喜好的科技时尚娱乐生活

实验结果显示,RVT - 2在5个来自RVT的任务中,比RVT的性能相对提高了12.5%。在所有3个新的高精度任务上,RVT - 2的平均成功率为53.3%,而RVT为33.3%。1yf喜好网-记录每日喜好的科技时尚娱乐生活

论文地址:https://arxiv.org/abs/2406.085451yf喜好网-记录每日喜好的科技时尚娱乐生活

 1yf喜好网-记录每日喜好的科技时尚娱乐生活

 1yf喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
男子为骗保开车撞树不慎当场身亡 系团伙自导自演:已骗90多万

男子为骗保开车撞树不慎当场身亡

11月19日

11-19 70阅读
华为强机皇!Mate 70系列关键信息汇总:外观/性能/影像揭秘

华为强机皇!Mate 70系列关键信息

华为Mate

11-19 64阅读
一家城配自动驾驶服务商,融了7个亿丨投融周报

一家城配自动驾驶服务商,融了7个

大家

11-19 66阅读
又一百亿独角兽申请破产了

又一百亿独角兽申请破产了

近日,

11-19 73阅读
OpenAI“杀死”在线教育巨头

OpenAI“杀死”在线教育巨头

文章来源:智东西图片来源:由无界AI

11-19 66阅读
毛不易李雪琴:《毛雪汪》录了三年一百期,不白干不白干!|Talk独家探班

毛不易李雪琴:《毛雪汪》录

作者 / 朱   婷运营 / 狮子座“今

11-19 67阅读
曾经家喻户晓的19位童星,现状却已今非昔比,可谓有人欢乐有人愁

曾经家喻户晓的19位童星,现

11-19 67阅读
泫雅&龙俊亨婚后首次公开近况:日本甜蜜旅行中!捧爱心蛋糕紧贴合影

泫雅&龙俊亨婚后首次

歌手泫雅和龙俊亨结婚一个月

11-19 63阅读
张云龙秀恩爱庞博秀学历,《我的主场》主打一个凡尔赛

张云龙秀恩爱庞博秀学历,《

  年末最热血的一档综艺终于在爱奇

11-19 66阅读
「抖音城市生活节」长沙站完美收官!湘江河畔,邂逅长沙“秋·chill范儿”!

「抖音城市生活节」长沙站

摘要:「湘」聚江畔,在「湘当秋·

11-19 68阅读
《GTA三部曲》开发者不满名字被删 实际只修改了开场

《GTA三部曲》开发者不满

《GTA三部曲》开发商 Grove Street Ga

11-19 69阅读
Skinseed怎样上传到我的世界?Skinseed皮肤导入方法

Skinseed怎样上传到我的世

《Skinseed》是一款专为游戏《我的世界

11-19 71阅读
空洞骑士苍白矿石位置_空洞骑士苍白矿石所有位置(图片)

空洞骑士苍白矿石位置_空

《空洞骑士》是一款以探索和解谜为核心

11-19 70阅读
饥荒联机版怎么调中文?饥荒联机版中文设置方法

饥荒联机版怎么调中文?饥荒

饥荒联机版是目前很多玩家在玩的一个版

11-19 72阅读
原子之心能量不回复怎么办?原子之心恢复能量的方法分享

原子之心能量不回复怎么办

原子之心能量不回复怎么办?原子之心游戏

11-19 70阅读