Llama 3怎么用,亚马逊云科技教你快速上手

不久前,Meta发布了其最新的开源大模型Llama 3,引发全网关注。

与 Llama 2 相比,Llama 3最大的变化是采用了新的 Tokenizer,将词汇表大小扩展至128,256(前版本为 32,000 Token)。这一更大的词汇库能够更高效地编码文本(无论输入还是输出),并有可能提升模型的多语种处理能力。不过,这也导致嵌入层的输入和输出矩阵尺寸增大,这是小型模型参数增加(从 Llama 2 的 7B 增至 Llama 3 的 8B)的主要原因之一。此外,8B版本的模型现在采用了分组查询注意力(GQA),这是一种效率更高的表达方式,有助于处理更长的上下文。

Llama 3 模型在两个拥有 24,000 GPU的集群上进行了训练,使用的是超过 15 万亿 Token的新公共在线数据。Meta没有公布训练数据具体细节,但可以推测,更大规模且更细致的数据策划是性能提升的重要因素。Llama 3 Instruct 针对对话应用进行了优化,结合了超过1000万的人工标注数据,通过监督式微调(SFT)、拒绝采样、邻近策略优化(PPO)和直接策略优化(DPO)进行训练。

Meta表示:Llama 3模型利用数据并将性能提升到新的高度。它在我们最近公布的两个定制24K GPU集群上接受了训练,使用的数据量超过15万亿个token,这个训练数据集是Llama 2使用的数据量的7倍,其中包括了4倍数量的代码。这使得Llama 3成为迄今为止最强大的Llama模型,支持8000个上下文长度,是Llama 2容量的两倍。

Meta此次发布的是Llama 3 8B与Llama 3 70B两款模型。很快,亚马逊云科技就宣布,Meta这两款Llama 3基础模型现已在Amazon SageMaker JumpStart中提供。这两款模型是一系列经过预训练和微调的生成文本模型,上下文长度为8k,能够支持广泛的用例,并在推理、代码生成和指令跟随等方面有所改进。客户可以在Amazon SageMaker JumpStart中轻松发现、部署Llama 3基础模型,并运行推理。

Llama 3提供两种参数大小的模型——8B和70B,上下文长度为8k,能够支持广泛的用例。Llama 3使用了仅含解码器的Transformer架构,以及高达128k规模的新型分词器,极大提升了模型的性能。此外,Meta改进的训练后处理程序大幅降低了误拒率,提高了模型响应的一致性和多样性。

Amazon SageMaker JumpStart提供预训练的模型、内置算法和预构建的解决方案,帮助客户快速开始机器学习项目。Amazon SageMaker JumpStart能够帮助客户从广泛的公开可用基础模型中进行选择,并将基础模型部署到专用的SageMaker实例中,这些实例置于网络隔离的环境,并可以使用SageMaker进行模型训练和部署。

客户现在可以在Amazon SageMaker Studio中通过几次点击或通过SageMaker Python SDK编程方式发现并部署Llama 3模型,还可以利用SageMaker Pipelines、SageMaker Debugger或容器日志等功能,提升模型性能并实施MLOps控制。此外,该方式部署的模型始终处在亚马逊云科技的安全环境下,由客户的VPC控制,以确保数据安全。

正如在re:Invent2023的主题演讲中,亚马逊云科技首席执行官Adam Selipsky所言:“在您选择最优技术的同时,您还应该有多个模型提供者的选项,以考察谁不仅技术过硬,还能作为您商业上可依赖的伙伴。我们在亚马逊云科技的整个历史中一直在强调这种选择的需要,这也是我们在将近一年前开始谈论我们的生成式AI战略时明确阐述的方法。这就是为什么我们继续创新,使构建和在一系列基础模型之间移动变得像API调用一样简单。”