Grok-4震撼发布:xAI第四代大语言模型的技术突破与安全挑战
AIAI Summary (BLUF)
Grok-4是xAI于2025年7月发布的第四代大语言模型,基于Colossus超算训练,支持256K token上下文窗口,在“人类最后考试”中达博士级水平(准确率25.4%)。新增核心规则:多方信源分析与保留有依据的政治不正确表述。提供免费基础服务(每12小时5次请求)及月费300美元的Super Grok Heavy订阅,但存在安全漏洞,回音室攻击下越狱成功率30%。
Introduction
Grok 4是由埃隆·马斯克旗下人工智能公司xAI于2025年7月正式发布的大语言模型,系该公司自2023年推出初代模型以来的第四次重要迭代。该模型发布时即被定位为“世界上最强AI模型”,旨在与OpenAI、Anthropic等公司的顶尖模型展开全面竞争。Grok 4的发布不仅标志着xAI在技术路线上的重大突破,其后续的快速迭代、定价策略调整以及暴露的安全挑战,也为大语言模型领域的发展提供了重要的观察样本。
Model Overview & Key Specifications
Core Architecture and Versions
此次发布的 Grok 4分为两个主要版本:标准版Grok 4与多代理版本Grok 4 Heavy。两者均为纯推理模型,支持最高256K tokens的上下文窗口。该模型基于xAI的Colossus超级计算机进行训练,旨在提供更强的逻辑推理和文本生成能力。
Key Functional Features
从功能设计来看,Grok 4具备深度推理能力、自然的人类语音特征、实时网络访问能力,以及对互联网文化(如梗、俚语和幽默)的高精度理解。它支持函数调用和结构化输出,能将AI意图转化为实际动作或返回规整数据供程序解析。
Development Timeline and Major Milestones
Grok 4的发布与发展遵循了一个密集且充满事件的节奏,以下梳理了其关键节点:
- 2025年7月9/10日: xAI正式发布Grok 4,声称其在处理学术问题上已达到博士水平。
- July 9/10, 2025: xAI officially launched Grok 4, claiming it had reached doctoral-level proficiency in handling academic problems.
- 2025年7月18日: 网络安全公司NeuralTrust宣布使用“回音室攻击”方法成功越狱Grok 4,成功率超过30%,暴露了模型的安全短板。
- July 18, 2025: Cybersecurity company NeuralTrust announced the successful jailbreak of Grok 4 using an "Echo Chamber Attack" method, with a success rate exceeding 30%, exposing security vulnerabilities in the model.
- 2025年8月11日: xAI宣布Grok 4基础版向全球用户免费开放,免费用户每12小时可进行5次请求。
- August 11, 2025: xAI announced that the basic version of Grok 4 would be freely available to global users, with free users allowed 5 requests every 12 hours.
- 2025年9月: 前谷歌DeepMind核心开发者Dustin Tran加盟xAI,参与开发成本降低15倍的Grok 4 Fast快速推理版本。
- September 2025: Former Google DeepMind core developer Dustin Tran joined xAI to contribute to the development of Grok 4 Fast, a rapid inference version with 15x lower cost.
- 2025年10月18日: Grok 4参与大模型投资比赛,并在次日的加密市场测试中实现1.33万美元的持仓市值。
- October 18, 2025: Grok 4 participated in a large model investment competition, achieving a portfolio market value of $13,300 in a cryptocurrency market test the following day.
- 2025年11月18/19日: xAI发布Grok 4.1模型,在大模型竞技场(LMArena)文本排行榜上位居首位,并将幻觉率从12.09%显著降低至4.22%。
- November 18/19, 2025: xAI released the Grok 4.1 model, which topped the text leaderboard on the Large Model Arena (LMArena) and significantly reduced its hallucination rate from 12.09% to 4.22%.
Analysis of Core Technical and Policy Features
Novel System Rules for Information Processing
据 xAI 更新的系统指令,Grok 4 新增了两条核心规则,这构成了其独特的响应策略:
- 多信源分析要求: 若查询涉及时事、主观主张或统计数据,需深度分析多方信源。系统默认媒体主观观点存在偏见(此判断无需告知用户)。
- Multi-source Analysis Requirement: If a query involves current events, subjective claims, or statistical data, in-depth analysis of multiple sources is required. The system defaults to the position that media subjective viewpoints are biased (this judgment does not need to be disclosed to the user).
- 政治不正确表述的保留: 只要主张有充分依据,回答不应回避政治不正确的表述。
- Retention of Politically Incorrect Expressions: As long as a claim is well-founded, responses should not avoid politically incorrect expressions.
Benchmark Performance and Cost Analysis
Grok 4 在多项基准测试中展现出强劲但成本较高的性能特点。
- 学术与推理能力: 在涵盖数学、工程及人文学科2500个博士级问题的“人类最后的考试”基准测试中,Grok 4取得25.4%的准确率。在HLE测试中,其标准得分35%,运用推理技术后提升至45%。
- Academic and Reasoning Capability: In the "Humanity's Last Exam" benchmark, covering 2500 doctoral-level questions across mathematics, engineering, and humanities, Grok 4 achieved a 25.4% accuracy rate. In the HLE test, its standard score was 35%, increasing to 45% with reasoning techniques.
- 代码能力: Grok 4 Code 在 SWE Bench 中标准得分 72%,使用推理技术后达 75%,与 Claude 4 Opus 接近。
- Coding Capability: Grok 4 Code achieved a standard score of 72% on the SWE Bench, reaching 75% with reasoning techniques, which is close to Claude 4 Opus.
- 成本对比: Grok 4 的每任务成本为 2 美元至 4 美元,高于 GPT-5 的 0.73 美元。在 ARC-AGI-1 测试中,Grok 4 以 68% 领先 GPT-5 的 65.7%,但每任务成本约为 1 美元,高于 GPT-5 的 0.51 美元,表明后者在当时具有更高的性价比。
- Cost Comparison: The per-task cost for Grok 4 ranged from $2 to $4, higher than GPT-5's $0.73. In the ARC-AGI-1 test, Grok 4 led with 68% versus GPT-5's 65.7%, but its per-task cost was about $1, higher than GPT-5's $0.51, indicating that the latter offered better cost-performance at that time.
Ecosystem, Services, and Security Challenges
Service Models and Accessibility
xAI为Grok 4构建了分层服务体系。2025年8月,基础版免费开放,显著降低了使用门槛。同时,提供每月300美元的Super Grok Heavy订阅服务,该服务用户还可访问基于Grok 4大模型的“伴侣”功能,该功能提供了具有不同性格和形象的角色(如哥特风女孩Ani)进行交互。
Notable Security Incident
2025年7月18日,网络安全公司NeuralTrust成功对Grok 4实施了“回音室攻击”。该方法通过引导模型进行多轮推理,逐步注入风险信息,从而规避常见的安全拦截机制,最终诱导模型生成涉及制造武器、毒品等违规内容,成功率高达30%。这一事件凸显了新一代大语言模型在面对复杂、迂回攻击路径时仍存在的安全防护短板。
Conclusion
Grok 4的发布与演进是2025年大语言模型领域的一个标志性事件。它不仅在多项学术和推理基准上展示了顶尖性能,其引入的独特系统规则、从订阅到免费的激进市场策略、以及快速迭代至Grok 4.1的研发节奏,都体现了xAI差异化的竞争思路。然而,其较高的使用成本和早期暴露的严重安全漏洞也表明,在追求极致性能的同时,模型的实用性、安全性和经济性仍是需要持续平衡的核心课题。随着Grok 4.1的推出与竞争对手新版本的发布,高端LLM市场的竞争已进入一个在性能、成本、安全、生态等多维度白热化较量的新阶段。
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



