在当地时间周一揭幕的行业顶级会议SIGGRAPH(国际计算机协会计算机图形学和交互技术特别兴趣小组年度会议)上,英伟达推出一系列面向机器人开发者的世界模型、应用库和基础设施。其中,最引人关注的是参数量只有70亿的开源物理AI应用和机器人视觉推理模型Cosmos Reason。

英伟达介绍称,自从OpenAI多年前发布CLIP模型以来,视觉语言模型已经改变了计算机视觉任务,例如物体与模式的识别等。然而,此前的模型无法解决多步骤任务,也难以应对模糊或新颖的现实体验。

凭借记忆和理解能力,Cosmos Reason能够使机器人和AI具身代理“像人类一样推理”,并在真实世界中采取行动。

除此之外,这个模型还能用于一系列AI应用。例如自动化对大规模、多样化训练数据集进行整理、标注,也能从海量视频数据中提取有价值的信息并进行归因分析。

目前这个模型已经投入商业化运营。英伟达披露,公司内部的机器人和自动驾驶团队正使用这个模型进行数据整理与过滤、标注以及VLA(视觉语言动作)后训练。

来源:财联社