当通用人工智能(AGI)的浪潮逼近现实,我们究竟站在技术进化的哪个临界点?6月19日,在上海世界移动通信大会(MWC2025上海)的主旨演讲中,荣耀与阿里巴巴的两位大佬揭开了关键谜底——AGI的突破不再囿于实验室模型的精进,而在于跨越从“思考”到“行动”的鸿沟,在于仍应继续探索多模态大模型的发展。
让AI走入生活
如何让AI真正走入生活?荣耀CEO李健通过“三个转变、三个打通、三个开放”来分享思考。
OpenAI的CEO奥特曼提出了一个关于AGI的五层框架理论,将AGI的发展分为五个阶段,李健认为目前AI的发展正处于第二层到第三层的过渡阶段。在AGI的第2层,AI具备基本的逻辑推理能力,能够分析复杂信息并进行推断。这一层次的AI能够处理更具挑战性的任务,例如理解复杂语义结构、识别逻辑关系并作出合乎逻辑的回应。它不仅依赖于预设知识,还可以结合输入信息进行初步推理分析。许多现有的AI模型,如编程助手和数学推理工具,均属于这一阶段。
在AGI的第3层,AI具备理解复杂指令的能力,并能够在多任务环境中自主决策和灵活应对。它能够在动态环境中整合不同信息源,自主判断并选择合适的行动方案。这一层次的AI具备高度的情境感知能力和自主执行力,不再依赖于逐步指令或外部控制。
为了尽快过渡到第三层,李健指出当前我们应该从思考向行动跨越,让AI解决问题,让用户用起来,才能释放AI的潜力。
首先,他谈了三个转变。第一,AI的竞争焦点在转变,从模型能力到落地能力转变;其次是AI 的价值定位在转变,从工具效率到结果闭环的转变,“真正的AI应用,它不是你点击它,然后它做了什么,而是它主动替你完成的,能不能够跑出一个完整的流程,能不能够结果能不能够自主的学习和进化,能不能够越用越好越好用”。第三,从过去的云端计算到现在的贴身存在的转变,真正的AI产品,不应该是你去找它,而是它就在你身边。
另外,AI落地需要两个大支柱,第一个是硬件,硬件是核心载体,它不再只是承载模型的外壳而是内在人格的延伸,与用户共处共感共生。第二个是AI Agent,他是核心入口,它不是执行任务的应用,而是理解用户意图,自主执行任务与结果交互闭环的生态入口,是用户的知己、智囊、伙伴,是用户的第二个自我。
李健认为,当前仍然存在的商业矛盾在于场景、性能和信任这三方面没有形成有效的闭环。首先场景方面,仍然存在着断层、碎片和割裂的问题,比如用户场景实际上是割裂的,当前的设备之间仍然存在无法高效的评估,AI无法高效地在不同设备之间流转,人没有办法灵活调用的问题。
第二性能方面,仍然存在算力、时延和功耗的问题。比如说当前的端侧算力普遍较小,内存普遍偏低,难以承载7b以上模型,难以支撑复杂任务的推理需求。
第三就是信任问题。当前仍然存在幻觉、隐私和伦理问题。
针对如何才能有效的打通的问题,李健强调需“打破”数据孤岛、服务孤岛、设备孤岛,来打通场景闭环;再用端云协同、软硬协同、算网协同打通性能闭环;最后以技术共创、标准共建、行业共治打通信任闭环。
李健指出,为加速AI落地,实现需求闭环,未来应该秉持开放的规范、开放的思想和开放的理念,基于GSMA平台,共建开放的AI终端生态联盟,旨在集结AI模型企业、运营商、AI终端企业、互联网企业四方力量,通过紧密协作与优势互补,引领全行业变革。
多模态大模型的技术演进与挑战
阿里巴巴集团副总裁、智能信息事业群首席科学家许主洪在演讲中指出,多模态大模型是实现通用人工智能(AGI)的必经之路,通过整合文本、图像、音频、视频等多种信息,可以提供更加丰富的上下文理解能力,也能提升整体模型性能与准确率、降低幻觉。此外,多模态也会带来更加自然的人机交互体验,提供更多样的生成能力,也因此会有更加丰富的应用场景。
在演讲中,许主洪将多模态大模型技术分为理解与生成两大类,多模态理解任务要解决的技术难点包括多模态模态编码、对齐、融合、语义理解和推理等。多模态生成任务需要解决如何有效遵循输入指令、如何生成和输出高质量的多模态内容,比如图片、视频、语音等。
他指出,在过去几年,多模态理解模型技术发展经历了多个不同的发展阶段。目前主流的技术是基于预训练大语言模型(LLM)作为主干网络来连接和融合多种模态。不同的多模态大模型主要的差异是在连接器的设计和模态的对齐与融合方法上。
主流多模态理解模型是基于自回归AR模型框架,而目前主流多模态生成模型主要是基于扩散模型Diffusion Models。而扩散模型有两个核心模块:一个是主干网络的设计,一般是基于卷积神经网络比如U-Net的结构,或者基于Transformer的网络、也就是目前主流的DiT框架。另一个是Conditions模块,把输入的文本指令或图片信息通过Conditions模块注入到去噪过程,从而达到可控输出目标图片的目的。
许主洪认为,未来的多模态大模型将逐步向理解与生成统一的方向演进,但还有很多开放性的问题,比如主干网络到底是基于自回归AR模型,还是扩散模型,或者是混合模型框架。另外,各种模态的编码、解码、模态对齐和融合等都需要更多深入研究。
除了统一多模态大模型,另外一个热门研究课题就是多模态推理模型。大家耳熟能详的OpenAI O系列和Deekseek R1的推理模型,不仅带来性能的提升,而是带来一种新Scaling Law的范式。因此业界希望把这种范式应用到多模态场景,也就是构建多模态的思维链来提升多模态推理能力。
除了多模态基座模型,许主洪还提到了多模态Agent智能体。通常一个智能体的典型架构包括感知、推理、执行与记忆等模块,GUI Agent的核心还是基于多模态基座模型VLM的感知和推理能力。尽管已经有不少探索,整个领域还处于比较早期的阶段,这类产品目前整体技术成熟度不是很高,还需要更多的研发探索,但是有非常广泛的应用前景。
GUI Agent主要是用在数字世界或者虚拟世界执行任务,类似技术也可以用到物理世界,这就是机器人领域非常热的具身智能体。基本原理就是应用多模态模型VLM来训练机器人的行动,通过视觉和语言来控制机器人的动作,这样的模型也叫Vision-Language-Action(VLA)模型。
最后,许主洪表示多模态Agent AI时代才刚刚开始,未来要真正达到AGI,还需要解决很多技术难题,包括多模态大模型的基础能力、Agent智能体的核心功能模块、数据世界的连接与操作、物理世界的交互与控制等等。尽管有很多的挑战,但是他认为这也是未来多模态大模型行业的机会。