News

在基准测试中,新模型取得了不错的成绩。这里主要是 Magistral 与其前身 Mistral-Medium 3 和 DeepSeek 系列的对比。Magistral Medium 在 AIME2024 上的得分为 73.6%,其中多数投票为 64% ...
活久见,OpenAI和谷歌「世纪握手」,达成合作了!另一边的微软,似乎转头就被抛弃了。另外,小扎也受了刺激,下决心亲自组队50人 ,破釜沉舟斥资150亿收购Scale AI,誓要做出AGI。硅谷变天了。
在官方展示的基准测试结果中,DeepSeek-R1的数据确实不是最新的(在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧版的70%提升至87.5%),并且比较行列里完全不见Qwen的身影。
根据 OpenAI 提供的数据,o3-pro 在人类测试者中的胜率为 64%,在 4 项稳定性测试中也略优于 o3。但正如 Sam Altman 所说,当你「以不同方式」使用它时,才能真正看到它的能力扩展。
那么,回到最初的问题:扩散语言模型真的会比自回归模型更好吗?这项研究给出的答案是:视情况而定,关键在于用什么样的指标去衡量。 基于这项研究的理论分析和实验结果,我们可以为实践者提供以下的指导方针 。
Mistral 成立于 2023 年,是一家前沿模型实验室,致力于开发一系列人工智能驱动的服务,包括 Le Chat 和移动应用程序。该公司获得了 General Catalyst 等风险投资机构的支持,目前已筹集超过 11 ...
在构建通用人工智能、世界模型、具身智能等关键技术的竞赛中,一个能力正变得愈发核心 —— 高质量的 3D 场景生成。过去三年,该领域的研究呈指数级增长,每年论文数量几乎翻倍,反映出其在多模态理解、机器人、自动驾驶乃至虚拟现实系统中的关键地位。
尽管如此,OpenAI CEO Sam Altman 还是表示: o3-pro「真是太聪明了!我第一次看到它相对于 o3 的胜率时,简直不敢相信。」他甚至还久违地发了一篇题为「温和的奇点(The Gentle Singularity)」的博客文章 — ...
值得一提的是,这项工作由一支星光熠熠的团队打造,汇集了北京大学与加州大学伯克利分校的顶尖学者,其中不乏机器学习泰斗Michael I. Jordan教授,仿真科学领域专家郑泽宇 (Zeyu Zheng) 副教授,以及ACM/IEEE ...
从SRDA公开的设计理念来看,其解决问题的思路已与DeepSeek等前沿研究中对某些挑战的分析方向不谋而合。这或许提示我们,以数据流为中心的专用计算架构,会在未来的AI算力发展中扮演越来越重要的角色。
对此,有评论者提出:视觉、语言、行动系统就像独立的洞穴,如果能够通过共享结构建立桥梁,可能就不需要逃离“洞穴”,跨模态连接就成了探索过程中的挑战,需要找到一个连接这些模态的统一的方法。
在ARC-AGI半封闭评估中,o3-pro完成ARC-AGI-1高难度任务通过率59%,单任务成本$4.16;在ARC-AGI-2中,其在所有推理任务仅有<5%通过率,单任务成本$4-7。