每日 AI 研究简报 · 2026-04-13

张开发
2026/4/15 7:52:58 15 分钟阅读

分享文章

每日 AI 研究简报 · 2026-04-13
本文借助 AI 大模型及工具辅助整理一句话总结MiniMax M2.7 开源打响国产大模型追赶战全球大模型调用量结束十周连涨进入调整期Claude Mythos 引发英美监管机构联合关注安全风险。 AI 动态与趋势今日最重磅的消息来自国产阵营MiniMax 于 4 月 12 日正式开源 M2.7 大模型拥有 2290 亿参数、激活约 1000 亿在 SWE-Pro 基准测试中得分 56.22%已非常接近 Claude Opus 等国际顶尖模型水准。M2.7 的亮点不仅在于性能更在于其能在平头哥、华为升腾、摩尔线程等多种国产 AI 芯片上零代码修改适配意味着开源模型正在真正渗透进国内算力生态有望打破英伟达生态的隐性绑定。与此同时全球大模型调用量数据传来调整信号根据 OpenRouter 数据上周4 月 6-12 日全球总调用量约 21 万亿 Token环比下滑 22.2%终结了此前连续十周的上涨趋势。其中中国模型周调用量下滑 55%而美国模型反而增长 34%两者之间的跷跷板效应值得玩味——可能是前期过度热情降温也可能反映应用场景正在分化。另一边Anthropic 的 Claude Mythos 正引发监管层面的连锁反应。美国财长贝森特与英国金融监管机构相继召集华尔街和伦敦主要银行针对该模型在关键软件基础设施漏洞扫描中发现的数千个重大漏洞进行风险评估。这标志着 AI 领域前沿模型的监管已从理论讨论阶段正式进入主权层面的操作实践。 AI 今日看点今天的 AI 领域呈现三条值得关注的主线。第一条是开源竞争白热化MiniMax M2.7 开源与此前 DeepSeek V3.2 的推出形成呼应说明国产大模型正在从跟随转向同台竞技而且均强调多芯片适配能力这背后是芯片国产化的战略布局。第二条是应用层开始分化荣耀发布 YOYO Claw龙虾技术出厂预装 23 个子 AgentToken 消耗降低 50%阿里通义 CoPaw 改名为 QwenPaw 深度整合千问生态Anthropic 上线 Claude for Word 测试版主打法律助理场景——这些都说明基础模型的竞争正在向在特定场景做深迁移。第三条是安全与监管成显学Claude Mythos 被曝数千漏洞多为虚标严重者仅 10 个真实漏洞Anthropic CEO 回应称模型能力被夸大但英美监管机构的紧急评估已不可避免。AI 的能力边界在哪里、谁来定义可信这些问题正在从学界走向政策桌面。 AI 大事件MiniMax M2.7 正式开源编程能力接近 Claude Opus 水平4 月 12 日稀宇科技发布并开源 MiniMax M2.7 大模型2290 亿参数、推理激活约 1000 亿SWE-Pro 基准得分 56.22%。已在平头哥、华为升腾、摩尔线程等国产芯片上实现零代码适配。来源每日经济新闻/腾讯网Claude Mythos 引发英美金融监管机构紧急评估Anthropic 上月发布 Claude Mythos Preview 后因在前沿软件漏洞扫描中声称发现数千个漏洞引发英美监管机构联合关注。美国财长贝森特召集华尔街银行、英国金融监管机构随后跟进评估该模型对金融系统网络安全的影响。来源中国经济网/路透社全球大模型调用量结束十周连涨环比下滑 22.2%根据 OpenRouter 数据上周全球 AI 大模型总调用量约 21 万亿 Token环比下滑 22.2%中国模型周调用量下滑 55%至 5.826 万亿 Token美国模型反而增长 34.29%。阿里 Qwen3.6 Plus 仍居榜首DeepSeek V3.2 排名第二。来源腾讯网/每日经济新闻荣耀发布 YOYO Claw龙虾技术Token 消耗降低 50%荣耀在 AI Agent 领域推出 YOYO Claw 新技术出厂预制 23 个子 AgentToken 消耗大幅降低标志着端侧 AI 部署能力持续提升。来源腾讯网/AIbase阿里通义 CoPaw 更名 QwenPaw深度整合千问生态阿里通义旗下 CoPaw 正式更名为 QwenPaw作为桌面 Agent 产品与千问大模型体系深度整合标志着阿里在 AI Agent 生态上的战略统一。来源腾讯网/AIbaseAnthropic Claude for Word 测试版上线主打法律助理场景Anthropic 面向 Microsoft Word 推出 Claude 插件测试版定位为律师的高效助理标志着 AI 助手从通用对话向垂直行业场景深入。来源腾讯网/AIbaseOpenAI 应对 Axios 供应链攻击更新安全证书OpenAI 发布博客说明 Axios 开发者库遭供应链攻击后已更新 ChatGPT macOS 应用的安全证书以应对潜在风险。来源The Verge宇树科技 H1 人形机器人百米速达 10m/s创全球新纪录宇树科技 4 月 11 日宣布其人形机器人 H1 在百米测试中实现每秒 10 米的峰值速度接近人类短跑运动员的百米世界纪录速度10.44m/s较去年 8 月的速度纪录3.3m/s提升超 3 倍。来源新浪人工智能热点️ AI 应用前线矿山大模型落地云鼎伏羲化工大模型实现年节能降耗 334 万元山东能源集团旗下云鼎科技基于伏羲化工大模型在甲醇精馏等场景实现吨产品蒸汽消耗降低 3.95%年回收甲醇近 230 吨创效 334 万元。这标志着 AI 大模型在能源化工领域的工业化应用已从试点走向规模复制。来源新浪财经兰州市城关区智算中心开工总投资 60 亿元兰州市城关区智算中心 人工智能大模型产业园项目正式开工总投资 60 亿元规划 10000P 算力、50P 存储容量将为甘肃乃至西部地区的 AI 算力需求提供基础设施支撑。来源新浪财经 数据速递21 万亿 Token— 上周全球 AI 大模型总调用量环比下滑 22.2%终结十周连涨来源OpenRouter/每日经济新闻55.05%— 中国 AI 大模型上周周调用量环比降幅由前一周的峰值回落来源每日经济新闻34.29%— 美国 AI 大模型上周周调用量环比增幅与中国形成此消彼长格局来源每日经济新闻1.66 万亿 Token— 阿里 Qwen3.6 Plus 周调用量排名全球第一来源每日经济新闻56.22%— MiniMax M2.7 在 SWE-Pro 基准测试中的得分接近 Claude Opus 水平来源每日经济新闻10 m/s— 宇树 H1 人形机器人百米峰值速度创全球人形机器人新纪录来源新浪新闻60 亿元— 兰州市城关区智算中心项目总投资规划 10000P 算力来源新浪财经334 万元— 云鼎伏羲化工大模型年节能降耗创效来源新浪财经23 个— 荣耀 YOYO Claw 出厂预制子 Agent 数量Token 消耗降低 50%来源AIbase 今日概览维度数据 日期2026-04-13 ArXiv 精选论文20 篇 GitHub 趋势项目15 个 新闻事件12 条 ArXiv 今日精选论文 大模型与安全Large Language Models Generate Harmful Content Using a Distinct, Unified MechanismHadas Orgad, Boyi Wei, Kaden Zheng et al.研究者通过权重剪枝发现大模型生成有害内容依赖一组紧凑的权重集合与良性能力清晰分离。对齐训练实际上压缩了有害生成权重——这解释了微调引发突现性错位现象狭窄领域的微调激活这些权重会触发广泛错位。→ 链接https://arxiv.org/abs/2604.09544v1 多模态与视觉语言VisionFoundry: Teaching VLMs Visual Perception with Synthetic ImagesGuanyu Zhou, Yida Yin, Wenhao Chai et al. (Princeton)仅输入任务名称如深度顺序即可通过 LLM 生成问答对和文生图提示再合成图像训练 VLM。在 MMVP 基准上提升 7%CV-Bench-3D 提升 10%证明合成监督信号是提升视觉感知能力的可行路径。→ 链接https://arxiv.org/abs/2604.09531v1VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning研究者针对大视觉语言模型的置信度校准问题提出解耦式校准框架在多模态推理任务中显著提升模型对自身判断的确信度评估准确性。→ 链接https://arxiv.org/abs/2604.09529v1Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label NoiseZibin Geng, Xuefeng Jiang et al.针对标签噪声场景下的视觉语言模型提示学习问题提出 VisPrompt利用跨模态注意力机制将视觉语义反向注入提示标记缓解提示令牌对标签噪声的脆弱性在 7 个基准数据集上显著优于现有方法。→ 链接https://arxiv.org/abs/2604.09532v1 Agent 与推理ANTIC: Adaptive Neural Temporal In-situ CompressorSandeep S. Cranganore, Andrei Bodnar et al.针对大规模 PDE 模拟NS 方程、等离子体物理、黑洞合并等产生的 petabyte 级数据流提出端到端在线压缩管道 ANTIC通过自适应时序选择 空间神经压缩实现多个数量级的存储压缩同时保持物理精度。→ 链接https://arxiv.org/abs/2604.09543v1 RAG 与证据推理Case-Grounded Evidence Verification: A Framework for Constructing Evidence-Sensitive SupervisionSoroosh Tayebi Arasteh et al.提出案例锚定证据验证框架模型在给定案例上下文、外部证据和结构化声明的情况下判断证据是否支持该声明。核心贡献在于无需人工标注即可生成显式支持样本和语义受控的非支持样本含反事实负例在医学影像放射学任务上验证有效。→ 链接https://arxiv.org/abs/2604.09537v1 GitHub AI 趋势日榜 Top 15今日趋势说明Agent 开发框架持续火爆hermes-agent、multica、Archon 多个框架进入日榜编程辅助工具 claud-mem、get-shit-done 等继续强势金融领域 AI 模型 Kronos 引发关注Claude Code 相关生态热度持续。#项目描述今日星标总星标1hermes-agentNousResearch 推出的与你共同成长的 Agent框架⭐ 7,45474,0282Kronos金融市场语言的基础大模型⭐ 1,98516,5783claude-memClaude Code 插件自动记录会话并注入未来上下文⭐ 75351,6364multica开源托管 Agent 平台将编程 Agent 变成真正的团队成员⭐ 1,60910,3675Archon首个开源 AI 编程 Harness 构建器让 AI 编程可复现⭐ 61217,3946get-shit-doneTÂCHES 出品的轻量级强效元提示和上下文工程系统⭐ 63051,6767voicebox开源语音合成工作室⭐ 49115,6308ralph自主 AI Agent 循环持续运行直到 PRD 全部完成⭐ 46316,3079Deep-Live-Cam一张图片实时换脸 / 视频 deepfake⭐ ——10ChinaTextbook小初高 / 大学 PDF 教材全收录⭐ ——11claude-cookbooksAnthropic 官方 Claude 使用食谱 / 笔记集合⭐ 32838,97612ai-hedge-fundAI 对冲基金团队⭐ ——13markitdown微软出品文件 / Office 文档转 Markdown 工具⭐ ——14andrej-karpathy-skillsKarpathy 关于 LLM 编程陷阱的 CLAUDE.md 指南⭐ ——15claude-code-best-practiceClaude Code 最佳实践⭐ —— 今日洞察开源生态争夺进入新阶段MiniMax M2.7 的发布和 DeepSeek V3.2 的持续影响力表明国产开源大模型正在从追赶转向并肩。但更值得关注的信号是两者都强调多芯片适配——这不仅仅是技术选择更是在全球 AI 算力格局中寻求自主可控的战略动作。应用层分化加剧GitHub 趋势中 Agent 框架的百花齐放hermes-agent、multica、Archon 等与荣耀 YOYO Claw、阿里 QwenPaw 的发布形成呼应。2026 年的 AI 竞争主战场正在从谁的基础模型最强转向谁在特定场景做得最深开发者生态和垂直整合能力将成为新的胜负手。监管与能力的赛跑Claude Mythos 引发的英美监管联动以及 Linux 内核团队明确 AI 编程工具使用规范都指向一个共同信号AI 能力的增长速度已经超过了现有治理框架的容纳能力。无论是模型输出的可靠性验证还是 AI 生成代码的责任归属都需要业界和政策制定者加速建立共识框架。✍️编辑策划 / 整理Fan Jun AI Tech Notes 组发布日期2026-04-13数据来源ArXiv API、GitHub Trending、TechCrunch、The Verge、Wired、VentureBeat、机器之心、量子位、每日经济新闻、新浪财经等

更多文章