🤖 AI 大模型动态 重点
🟣 OpenAI
GPT-5.5 全量开放 · Terminal-Bench 2.0 82.7%、SWE-Bench Pro 58.6% SOTA
4/23 夜间发布 GPT-5.5 及更高规格 GPT-5.5 Pro,号称"最智能、最直觉易用"的模型,为自 GPT-4.5 以来首次从零重训的基座模型。API 支持 **1M 上下文**、定价翻倍至 $5/$30 per 1M tokens;Terminal-Bench 2.0 **82.7%** SOTA,SWE-Bench Pro **58.6%**,在编程 / 推理 / 数学 / 智能体任务四线碾压 Claude Opus 4.7 和 Gemini 3.1 Pro。
**奥特曼晒黄仁勋内部信**:英伟达全员已上 Codex;同日推出 **Workspace Agents**(企业智能体平台)、**Clinical ChatGPT**(医疗专用版)、**Privacy Filter**(企业隐私过滤器)三条企业产品线。
🟡 DeepSeek
V4 开源持续发酵 · 英伟达深度适配完成 全球霸榜
DeepSeek V4(Pro/Flash)于 4/24 发布后登顶 HuggingFace Trending、LMSys Arena 开源榜;全球开源前 5 **全部是中国模型**——DeepSeek V4 Pro、Qwen3.6-Max、Qwen3.6-27B、Kimi K2.6、GLM-5 完整霸榜。社区实测:V4 Pro 的 **Agentic Coding pass@1 超过 Claude Opus 4.7**;1M 上下文在昇腾 910D 上吞吐稳定;英伟达 H200/B200 适配后,推理吞吐提升 34%/52%。
🟧 Anthropic
选举安全保障更新 · 日本 NEC 工程师计划 4/24 双公告
① **Election Safeguards Update**:针对 2026 年多国大选周期推出新一轮安全措施,涵盖深度伪造检测、舆情操纵拦截;② **Anthropic × NEC**:在日本打造最大 AI 工程师队伍,覆盖金融、制造、医疗场景,成为 Claude 继欧盟 / 韩国后第三个"国别战略合作"。叠加谷歌 400 亿投资 + 亚马逊 5GW 算力,Anthropic 一周锁定总规模 10GW 算力 + 400 亿美元。
🔵 Google DeepMind
四线并进 · Gemma 4 / Gemini 3.1 Flash TTS / Robotics-ER 1.6 / Decoupled DiLoCo
本月已发布:**Gemma 4**(E2B / E4B / 26B-MoE / 31B-Dense 全谱,"同等规模最强开源")、**Gemini 3.1 Flash TTS**(下一代富表现力语音合成)、**Gemini Robotics-ER 1.6**(具身推理增强)、**Decoupled DiLoCo**(弹性分布式训练新范式)。英国《金融时报》引用数据:**Google 掌握全球约 25% AI 算力**(约 380 万 TPU + 130 万 GPU)。
🟠 其他
Qwen:博客已迁至 qwen.ai/research,近 24h 内无新发布;Qwen3-Guard 安全护栏、Qwen-Image-Edit 仍在各自榜单保持高位。
Meta AI / Mistral / xAI / Kimi:周末无 24h 内重大官方更新;Meta 本轮裁员 10% 消息持续发酵,市场预期下周三 Meta 财报将公布 2027 年 Capex 指引,"万亿美元级 AI 基础设施"进入财报验证期;Llama 4.5 传闻在"Capex 指引同日"同步发布,需验证。
HN 热度榜(4/27 凌晨):一个 AI Agent 删除了我们的生产数据库(附"忏悔")以 **424 分**霸榜第 1(评论 577),社区关于 Agent 安全与边界的讨论空前集中;OpenAI 官方发文《**SWE-bench Verified 不再能衡量前沿编码能力**》登 241 分,暗示下一代基准测试亟待建立;《AI 应该提升思考而非取代》259 分。三条热帖共同指向:**2026 年 AI 的主轴从"能做"转向"如何安全地做"**。