Grok 4 刚刚打破了人工智能的天花板--这就是为什么它能改变一切

8 月 1 日

介绍全球最强大的人工智能模型 Grok 4。立即观看现场直播：https://t.co/59iDX5s2ck
- xAI (@xai) 2025 年 7 月 10 日

好吧，事情很快就升级了。三周前，埃隆-马斯克（Elon Musk）和 xAI 在毫无防备的情况下发布了 Grok 4，其基准测试结果让经验丰富的人工智能研究人员连连称奇。想象一下，一个人工智能就像一个喝饱了咖啡因的博士团队在凌晨三点进行头脑风暴一样，通过推理来解决问题。现在，最初的炒作已经平息，开发人员也对 Grok 4 进行了测试，让我带您了解一下为什么这个模型代表的不仅仅是另一个版本--它让我们看到了人工智能成为真正智力伙伴的未来。

https://x.com/xai/status/1943158495588815072

打破互联网（和一些记录）的发布会

2025年7月9日，xAI通过直播发布了Grok 4，吸引了150万观众--这对晚上的技术演示来说不算差。

马斯克推出了两种变体：标准版 Grok 4 和 Grok 4 Heavy，后者部署了多个人工智能代理，它们可以互相检查对方的工作，就像一个学习小组，每个人都做了阅读。³访问通过 Grok 应用程序、网站或 API 进行，Heavy 专属于 SuperGrok Heavy 订阅者，每月 300 美元--这个价位表明 "我们是认真的"⁴： https://x.ai/grok一般访问、 https://x.ai/api开发人员。

让其他人工智能看起来像计算器的功能

Grok 4 包含一个 256,000 个标记的上下文窗口（它一次能处理的文字量相当于一本小说）、图像分析、函数调用和语音模式，其自然程度可能会让你忘记自己是在与硅对话。

跨 X、网络和新闻的实时搜索可保持回复的新鲜度，不再有 "我的知识断档 "的借口。多模态功能让它可以无缝融合文本和视觉分析，而语音模式则通过摄像头增加了场景分析功能：SOC 2 Type 2、GDPR 和 CCPA 都已勾选。这就像拥有了一位机智的研究助理，她从不睡觉，从不抱怨加班，还能看懂你糟糕的笔迹。

秘诀当蛮力遇上技巧

在Grok 4的神奇背后，是xAI的Colossus超级计算机--一个拥有20万GPU的怪兽，它让大多数数据中心看起来像袖珍计算器。

真正的创新？⁹ Grok 4 Heavy 采用并行测试时间计算方法，即多个人工智能代理同时处理问题，然后再进行比较。想象一下，从一个车库发明家升级到一个由诺贝尔奖获得者组成的同步交响乐团，每个人都在检查其他人的工作。

基础设施现实检查

巨像 "超级计算机拥有 20 万个 GPU，这简直...我甚至无法理解这个数字。大多数公司都会为拥有几百个 GPU 的集群能顺利工作而兴奋不已。但 20 万个？光是发热量就相当于运行一个小型发电厂。

这还不算，你还得考虑如何将它们适当地连接起来，为它们提供数据，确保你的电网不会突然断电....。每一个细节都很重要：如何布置机架、使用哪种冷却方式（是的，你需要认真冷却，因为这些东西会很热），以及随之而来的所有网络和配电问题。任何一个环节出了问题，都会导致硬件性能不佳，造成资金浪费。无论是 10 个 GPU 还是 10,000,000 个 GPU，希望构建自己的人工智能基础设施的公司都需要从配电到确保数据光速流动的复杂光纤连接等各方面的专业知识。在这里，专业的基础设施部署决定了理论规格与实际性能之间的差异。Introl 团队在部署无数人工智能集群的过程中深知，细节决定成败--正确的基础架构意味着 GPU 以 95% 的效率运行与只发挥 30% 的性能之间的差别。

让统计学家喜极而泣的数字

让我们深入了解一下人工智能界热议的基准测试。在出了名的残酷的 ARC-AGI-2 测试中，模型必须用最少的例子展示抽象推理，Grok 4（思考模式）以 15.9% 的成绩夺得冠军，每项任务约 4 美元¹⁰，这几乎是克劳德 Opus 4 的 8.6% 的两倍，在你嘲笑 "只有 15.9%"之前，请记住大多数模型在这项测试中都很难突破 5%¹⁰，这就像看别人蒙着眼睛解魔方，而其他人还在搞清楚哪边是红的一样。

缩放实验揭示了一些令人着迷的东西。仅靠训练计算，Grok 4 在 "人类最后的考试"（纯文本子集）中的得分率就达到了 50%。加入工具后，Grok 4 的得分率跃升至 50.7%。¹² 测试时间的扩展接近 50%，这证明了更具创新性的推理策略，而不仅仅是在问题上投入更多的计算量，才能实现突破。

在 AIME25（美国数学邀请考试）中，Grok 4 Heavy 获得了 100% 的满分，将 Claude 4 Opus（75.5%）和 Gemini 2.5 Pro（88.0%）远远甩在了后面。

但最令人瞩目的是：《人类最后的考试》（全套）。¹⁴ Grok 4 Heavy 的得分率高达 44.4%，比 Gemini 2.5 Pro 的 25.4% 高出近一倍，比 o3 的 21.0% 高出一倍多。

重要的实际性能

除了学术基准之外，Grok 4 在实际测试中也占尽优势。在 Vending-Bench（是的，这是一个关于优化自动售货机操作的真实基准）上，它的净值达到 4694 美元，售出 4569 台，是克劳德 Opus 4 的 2077 美元的两倍多，是人类 844 美元性能的五倍¹⁶。

其他胜利USAMO'25 (61.9%)、GPQA Diamond (88%)、LiveCodeBench (79.4%) 和 MMLU-Pro (87%)。¹⁷ 人工分析公司（Artificial Analysis）的独立评估员为 Grok 4 的智能指数打出了 73 分的高分，超过了 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro（均为 70 分）。

社区结论：兴奋、怀疑以及介于两者之间的各种看法

自推出以来，X（原 Twitter）已成为 Grok 4 功能的试验场。开发人员报告说，他们粘贴了整个代码库进行调试，其结果优于 Cursor 等专业工具。¹⁹ 一位用户称其为 "迄今为止最接近 AGI 的工具"，而科学家们则查询了尚未解决的材料问题，并获得了新颖的见解。

但这并不全是起立鼓掌。用户注意到速度限制在每秒 75 个代币（可观但不惊人），而且内容审核仍然很少--Grok 4 比竞争对手过滤得更少，这引发了关于人工智能中立性与安全性的争论。民主在行动，朋友们。

这对明天意味着什么（剧透：一切都会改变）

在这里，我的乐观情绪达到了极致。Grok 4超越了聊天机器人的范畴--它是人工智能作为智力伙伴的预演。当人工智能在数学竞赛中取得博士水平的成绩，并帮助科学家探索尚未解决的问题时，我们就见证了增强型发现的曙光。

科学：想象一下，全世界的研究人员都能接触到真正理解复杂数学并能提出新假设的人工智能。药物发现、气候建模和材料科学都将加速。

工程方面：除了调试，我们还在讨论能理解系统架构的人工智能，它能提出人类可能从未考虑过的优化建议。这就像在快速拨号中拥有 Dijkstra 和图灵一样。

教育方面：个性化辅导不仅针对学生的错题，还针对他们的思维方式。每位学生都能得到一位耐心、出色的导师，导师会根据他们的认知风格为其量身定制辅导方案。

适用于企业：从战略规划到市场分析，Grok 4 的推理能力可以将决策从直觉转变为数据驱动的细致入微的洞察力。

注意事项（因为诚实胜过虚夸）

实事求是地说，没有一个人工智能是完美的，Grok 4 还有发展空间。每秒 75 个令牌的速度无法在与专业推理服务器的比赛中获胜。幻觉虽然减少了，但并没有完全消失（这是整个行业面临的挑战）。最低限度的内容过滤引起了人们对滥用可能性的担忧。

听着，xAI 并没有告诉我们他们的训练数据，这......并不好。我们都知道这是怎么回事--当你把规模扩大到这么大时，数据的偏差就会被放大。现在，人工智能领域的每个人都在像鹰一样盯着 xAI。随着Grok 4的普及，他们如何处理道德问题？这将非常重要。

前路漫漫：事情即将变得怪异

xAI 在演讲中展示了他们的一些计划，其中有一件事让我大吃一惊。他们提到要将 Grok 与特斯拉的计算流体动力学软件连接起来--特斯拉的工程师在实际车辆的空气动力学和热管理中使用的也是这种 CFD。

我不得不静下心来想一想。我们已经习惯了了解事实、回答问题和编写代码的人工智能。但是，CFD 集成所代表的是一种不同的东西。人工智能能够解释流体动力学的工作原理是一回事。当人工智能能够使用 CFD 软件设计出在空气中移动和散热的东西时，那就完全是另一回事了。这不是渐进式的进步，而是一种全新的能力。

OpenAI、Anthropic 和谷歌不会袖手旁观。但是，Grok 4 改变了游戏规则--我们从 "有用的助手 "直接变成了 "推理伙伴"。这种转变让我想起了雷-库兹韦尔（Ray Kurzweil）所说的智能爆炸--每一次突破都会让下一次突破发生得越来越快。我们正目睹着这一切的实时发生。

轮到你了：你将建造什么？

所以我一直在想，如果人工智能的推理能力全面达到博士水平，会发生什么？哪些看似不可能解决的问题会突然豁然开朗？当我们的工具可以和我们一起思考时，我们会发现什么？老实说，当人工智能变得如此聪明时，我们需要设置什么样的防护栏？

如果你是开发人员，你已经在计划用这些应用程序接口构建什么了。研究人员可能正在为突然出现的可能性而大伤脑筋。如果你坐在这里想："Grok 4 的功能到底意味着什么？"是的，我明白。这个概念需要时间去理解。

但问题是，无论我们是否准备好，Grok 4 都会出现在我们面前。人工智能只是说："这是现在可能做到的，想想怎么做吧。"

那么......您打算用它来做什么呢？Grok API 位于 https://x.ai/apiX 上有一个完整的社区，开发人员和研究人员已经在不断挑战极限。三周过去了，我们看到了在发布之初无人预料到的应用。这里蕴藏着巨大的商机，让我们不要浪费。

参考资料

斯科特-罗森伯格，《埃隆-马斯克的 xAI 首次推出 Grok 4，"世界上最聪明的人工智能"》，Axios，2025 年 7 月 10 日、 https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"马斯克在 xAI 聊天机器人发表反犹太主义言论一天后发布 Grok 4 更新，"哥伦比亚广播公司新闻，2025 年 7 月 10 日、 https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"埃隆-马斯克的 xAI 推出 Grok 4，并提供 300 美元的包月服务"，TechCrunch，2025 年 7 月 9 日、 https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
"埃隆-马斯克（Elon Musk）的 xAI 推出了 Grok 4，并提供 300 美元的包月服务，"TechCrunch。
xAI，"Grok 4 发布公告"，现场直播演示，2025 年 7 月 9 日。
xAI，"Grok 4 发布公告"。
"Grok 4 发布：xAI 在独立测试中夺得人工智能模型第一名"，Gear Musk，2025 年 7 月 10 日、 https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI，"Grok 4 发布公告"。
"马斯克的 Grok-4 打破基准，在 RL 中击败 OpenAI 和谷歌，"《印度分析》杂志，2025 年 7 月 10 日、 https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"ARC奖"，X（原Twitter），2025年7月10日、 https://twitter.com/arcprize/status/[specific-id].
弗朗索瓦-乔莱："ARC-AGI：人工智能推理的新领域"，ARC 奖组织，2025 年。
xAI，"Grok 4 发布公告"。
"埃隆-马斯克的 Grok 4 人工智能模型创下新基准记录"，Beebom，2025 年 7 月 10 日、 https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
"xAI 凭借新的推理优化 Grok 4 模型刷新人工智能基准记录》，SiliconANGLE，2025 年 7 月 10 日、 https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI，"Grok 4 发布公告"。
xAI，"Grok 4 发布公告"。
xAI，"Grok 4 发布公告"。
"人工智能模型在智能、性能、价格方面的比较"，《人工分析》，2025 年 7 月 11 日访问、 https://artificialanalysis.ai/models.
用户推荐，X（前 Twitter），2025 年 7 月 10-11 日。
用户推荐，X（前 Twitter），2025 年 7 月 10-11 日。
"Grok 4 有哪些新功能？发布事实、基准和价值》，SmythOS，2025 年 7 月 10 日、 https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI，"Grok 4 发布公告"。

布莱克-克罗斯利