变形金刚革命:关注就是一切 "如何重塑现代人工智能
每当有人提到 "大型语言模型 "时,你是否感觉几乎能听到 GPU 的嗡嗡声?这种宇宙级的嗡嗡声是有原因的:变压器架构。如果我们要追溯这一现象的大爆炸时刻,我们就会发现一组谷歌大脑和谷歌研究院的工程师在 2017 年发表了一篇现已成为传奇的论文:Attention Is All You Need.
乍听之下,这句话似乎是对 "心智 "的温柔提示,但它却预示着自然语言处理(NLP)及其他领域的一场革命。Transformer 模型一举颠覆了人工智能的现状:RNN、LSTM 和基于卷积的序列模型不再一寸一寸地发展。取而代之的是一个可并行化、注意力驱动的系统,它训练速度更快、规模更大,而且--这里是重点--能取得更好的结果。
1.重要理念:自我关注万岁
在《变形金刚》横空出世之前,序列转换(如语言翻译、摘要等)的黄金标准是具有精心设计的门控机制的递归神经网络,或具有复杂堆叠以处理长距离依赖关系的卷积神经网络。有效吗?有效。慢吗?慢?也是的,尤其是当你需要分析真正的海量数据集时。
最简单地说,自注意是一种机制,通过这种机制,序列中的每个标记(如单词或子单词)都能同时 "观察 "其他标记,从而发现上下文关系,而不必被迫一步步地爬行数据。这种方法与 RNN 和 LSTM 等老式模型形成鲜明对比,后者必须按顺序处理序列。
变形器摒弃了递归(以及随之而来的开销),从而实现了更高的并行化。您可以将大量 GPU 投入到问题中,在海量数据集上进行训练,并在数天而非数周内看到结果。
图 1:完整的 Transformer 架构显示了多头注意力层的编码器(左)和解码器(右)。资料来源:Vaswani et al:Vaswani 等人,"Attention Is All You Need"(2017 年)。图片根据合理使用转载,用于教育目的。
性能速记:最初的 Transformer 在 WMT 2014 英译德任务中获得了 28.4 BLEU 分数,与之前基于 CNN 和 RNN 模型的神经机器翻译架构(最多徘徊在 25-26 BLEU 左右)相比,有了质的飞跃。如今,改进后的 Transformers(GPT-4 及其同类产品)更进一步,可以处理翻译以外的任务。
2.引擎盖下:多头注意力和位置编码
多头关注
在变形金刚的自我注意力中,有一些被称为多头注意力模块的神奇怪兽。它们可以让网络并行学习不同类型的关系。把它想象成部署多个聚光灯,同时照亮数据的各个部分。一个注意力头可能会追踪远距离依赖关系(如代词-名词引用),而另一个注意力头则专注于本地上下文(如 "猫 "周围的短语 "on the mat")。结合这些专门的子注意力,Transformer 可以更好地编码细微的含义。
图 2:按比例点积关注机制图解,显示查询 (Q)、键 (K) 和值 (V) 向量如何相互作用。资料来源:Vaswani et al:Vaswani 等人,"注意力是你所需要的一切"(2017 年)。图片根据合理使用转载,用于教育目的。
这些磁头使用缩放点积注意力作为标准构件,我们可以用代码将其概括为:"......":
进口火炬
导入数学
def scaled_dot_product_attention(Q, K, V):
# Q、K、V 分别为 [批量大小、头数、序列长度、d_k]
d_k = Q.size(-1)
scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
权重 = torch.softmax(scores, dim=-1)
return torch.matmul(weights, V)
每个头对不同预测版本的查询 (Q)、键 (K) 和值 (V) 进行操作,然后合并结果。这种可并行设计是 Transformer 高效的关键。
位置编码
没有复发?这就引出了一个问题:该模型如何跟踪词序?输入位置编码--正弦或学习模式添加到每个标记的嵌入中,帮助变换器保持顺序感。这就好比给每个单词一个唯一的时间戳。
3.快速性能对决
RNNs/LSTMs非常适合序列任务,但由于需要分步处理,对于长序列来说速度较慢。
CNN(如 ConvS2S):比 RNNs 更快,但仍不能完全并行处理长程依赖关系。
变形金刚
更高的吞吐量:可并行处理整个序列,大大加快了训练速度。
更好的结果:Transformers 在机器翻译(WMT14 EN-DE 28.4 BLEU)等任务中取得了最先进的成绩,而且训练时间更短。
可扩展:将更多 GPU 投入到数据中,几乎可以线性扩展(在硬件和内存限制范围内)。
4.复杂性考虑:O(n²) 及其重要性
换句话说,每个标记都会关注到其他标记,这对于超长序列来说是非常昂贵的。研究人员正在积极探索更高效的关注机制(如稀疏关注或块化关注),以降低这一成本。
即便如此,对于标记数以千计而非数百万计的典型 NLP 任务而言,并行计算的优势往往会超过 O(n²) 的开销,尤其是在拥有合适硬件的情况下。
5.为什么对大型语言模型(LLM)很重要
现代的 LLM(如 GPT、BERT 和 T5)都可以直接追溯到 Transformer。这是因为最初的论文侧重于并行性、自我关注和灵活的上下文窗口,这使它非常适合翻译以外的任务,包括
文本生成与摘要
问题解答
完成代码
多语言聊天机器人
是的,你的新人工智能写作助手似乎总是有双关语。
简而言之,"注意力就是你所需要的一切 "为这些大型模型铺平了道路,这些模型可以摄取数十亿个标记,并处理几乎所有 NLP 任务。
6.我们需要更多的计算能力:Introl 部署的用武之地
问题来了:变形金刚很饿,非常饿。训练一个大型语言模型意味着需要大量的计算资源。要利用所有这些并行性,你需要强大的 GPU 部署--有时甚至多达数千(或数万)。这就是高性能计算(HPC)基础设施的作用所在。
在 Introl,我们亲眼目睹了这些系统有多么庞大。我们曾在紧迫的时间内完成超过 100,000 个 GPU 的构建工作--这就是我们的后勤能力。我们的主要工作是部署 GPU 服务器、机架和先进的电源/冷却装置,使一切都能高效运转。当您同时在数千个节点上训练基于 Transformer 的模型时,任何硬件瓶颈都会成为耗费时间和金钱的能源漩涡。
大型 GPU 集群:我们执行过超过 100K GPU 的部署,这意味着我们了解机架和堆栈配置、布线和电源/冷却策略的复杂性,以保持一切稳定。
快速调动:需要在几天内再增加 2,000 个 GPU 节点?我们的专业团队可在 72 小时内到达现场并投入运行。
端到端支持:从固件更新和 iDRAC 配置到持续维护和性能检查,我们负责管理后勤工作,以便您的数据科学家能够继续专注于创新。
7.展望未来:更大的模型,更大的梦想
"注意力决定一切 "不仅仅是一个里程碑,它还是未来发展的蓝图。研究人员已经在探索更长上下文的 Transformers、高效的注意力机制和先进的稀疏性,以处理庞大的语料库(想想:整个图书馆,而不仅仅是本地书店)。请放心,GPU 加速计算的需求只会越来越大。
这就是变形金刚时代的魅力所在。只要配合适当的硬件策略,我们的模型就能优雅地扩展。因此,无论您是在构建下一个生成式人工智能现象,还是在推动通用翻译的发展,拥有一个擅长大规模 GPU 部署的基础设施合作伙伴,都不仅仅是一个不错的选择,它实际上就是您的竞争优势。
最后的思考改变你的人工智能游戏
关注就是一切》这篇论文不仅仅是一个巧妙的标题,更是一次震撼性的转变。从机器翻译到代码生成,变形金刚改变了一切。如果想大规模利用这种力量,关键在于将出色的架构与同样出色的基础设施相匹配。
准备扩大规模?了解 Introl 的专业化 GPU 基础设施部署如何加速您的下一个大型 Transformer 项目--因为适当的硬件可以让人工智能变得与众不同。
本文中的可视化内容来自 "Attention Is All You Need "的原始论文(Vaswani et al.对完整研究感兴趣的读者可登录 https://arxiv.org/abs/1706.03762 查阅该论文。