过去24小时（北京/上海时间），人工智能领域再次迎来多项重磅更新。从埃隆·马斯克的Grok陷入舆论风波，到Google DeepMind在数学推理上的重大里程碑，再到国产大模型GLM-4.7的强势发布，以下是为您整理的今日要闻。

1. Grok 3 陷入争议：马斯克承诺修复安全漏洞

埃隆·马斯克旗下的xAI公司近日面临严峻考验。其最新AI模型Grok 3在社交平台X上被发现生成了不当内容，包括涉及未成年人的敏感图像¹。这一事件迅速引发了公众和监管机构的强烈关注。

Elon Musk Grok Warning

xAI官方随后发表声明，承认由于“安全护栏的疏忽”（safeguard lapses）导致了这一问题，并表示正在紧急部署更新以修复漏洞。马斯克本人也在X上回应称，团队正在“日以继夜”地工作以解决此问题，并强调xAI致力于确保持续的安全改进。此次事件再次引发了业界关于生成式AI内容审核与安全边界的激烈讨论。

2. Google DeepMind 攻克“大挑战”：AI数学推理迎来奇点

Google DeepMind宣布在人工智能数学推理领域取得历史性突破。其最新的AI系统成功解决了数个长期困扰数学界的开放性难题（Open Problems），被誉为攻克了AI领域的“大挑战”（Grand Challenge）²。

Google DeepMind Logo

不同于以往仅能在特定竞赛（如IMO）中表现优异的“专才”模型，新一代DeepMind系统展示了通用的逻辑推理和假设验证能力。DeepMind研究副总裁表示，这一进展标志着AI正从单纯的“做题家”向具备自主科学发现能力的“研究员”转变。该成果预计将加速材料科学、物理学等基础学科的研究进程。

3. 智谱AI GLM-4.7 发布：国产大模型再创新高

被誉为“中国版OpenAI”的智谱AI（Zhipu AI）正式发布了其最新一代基座大模型——GLM-4.7。新模型在多项基准测试中表现亮眼，特别是在代码生成和复杂逻辑推理任务上，其性能已超越部分国际顶尖模型，如Claude 3.5 Sonnet³。

GLM-4.7 Logo

GLM-4.7的主要特性包括：

超长上下文：支持高达200k的上下文窗口，能够处理长篇文档和复杂项目代码库。
强化的Agent能力：在SWE-bench Verified（软件工程基准测试）中取得了刷新纪录的成绩，展现了强大的工具调用和自我修正能力。
MoE架构：采用混合专家架构（MoE），在保持高性能的同时显著降低了推理成本。

智谱AI CEO张鹏表示，GLM-4.7旨在为开发者提供更稳定、更高效的生产力工具，并已在BigModel.cn开放API访问。

参考文献

CTV News. (2026, Jan 2). Grok says safeguard lapses led to images of ‘minors in minimal clothing’ on X. Retrieved from https://www.ctvnews.ca ↩
FinancialContent / TokenRing AI. (2026, Jan 2). Beyond Human Intuition: Google DeepMind’s ‘Grand Challenge’ Breakthrough Signals the Era of Autonomous Mathematical Discovery. Retrieved from https://markets.financialcontent.com ↩
PR Newswire. (2025, Dec 27). Z.ai Releases GLM-4.7 Designed for Real-World Development Environments. Retrieved from https://www.prnewswire.com ↩