近日,来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型 PaLM-E(全称 Pathways Language Model with Embodied)。

作为一种多模态具身视觉语言模型 (VLM),PaLM-E 能将视觉和语言集成到机器人控制中。谷歌和柏林工业大学称,PaLM-E 是迄今为止人类开发的最大规模 VLM,其可以在不需要再训练的情况下执行各种任务。此外,通过 PaLM-540B 语言模型与 ViT-22B 视觉 Transformer 模型相结合,PaLM-E 最终的参数量高达 5620 亿(GPT-3 的参数量为 1750 亿),这是全球已知的最大视觉语言模型。

过去几个月时间里,由 ChatGPT 在全球科技巨头之间引发的人工智能热潮推动了大量语言模型的生产力前置。据《华尔街日报》,虽然谷歌早在两年前就做出了类似 ChatGPT 的人工智能聊天工具,但谷歌对 AI 的小心谨慎态度让其失去了对生成式 AI 的先机。

来源:每日经济新闻