News

不过,或许从模型层面上看,谷歌的Gemini虽然可圈可点,但从日活数据上看,还远远没有达到赢得竞赛的程度。据第三方分析称, ChatGPT每周用户超过 8 亿,而 Gemini每月用户估计为 2.5 亿至 2.75 亿。
谷歌强化学习副总裁 David Silver与图灵奖获得者,强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》 犹如《TheBitterLesson(苦涩的教训)》的续章给我们当头一棒 ...
AI 发展的上半场主要聚焦于模型和方法的创新,而非评估标准的建立。这是因为开发新的算法和模型架构(如反向传播、AlexNet、Transformer 等)需要深刻的洞察力和工程能力,远比将已有人类任务转化为基准测试更具挑战性和吸引力。
研究者让当前最顶尖的AI模型(GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等)在《逆转裁判》中接受考验,看它们能否喊出「反对!」,扭转案情,揭开谎言背后的真相。
这份报告的实验发现,Claude 3.7 Sonnet仅在25%的情况下在其思维链中提及收到的提示信息,DeepSeek R1则为39%,意味着大多数情况下模型不会忠实反映其真实决策过程。
该漏洞编号为 CVE-2025-24076,通过精密的 DLL 劫持技术利用 Windows 11“移动设备”功能的缺陷。安全研究人员于 2024 年 9 月发现此漏洞,并于 2025 年 4 月 15 日公开披露,其攻击目标是 Windows 11 ...
成功的数字化转型需要勇气,并且要从将其视为一系列项目转变为重新构想企业如何创造价值、交付价值和捕获价值。在未来,企业可以在数字化转型项目开始时锁定明确的成功指标和目标。此外,企业必须抵制在转型过程中改变目标,除非影响因素的变化要求这样做。
在多项基准测试中,Gemini 2.5 Flash再次刷新SOTA。在大模型排行榜中,Flash预览版以1392 ELO高分位居第二,与GPT-4.5-preview、Grok 3并驾齐驱。 在数学(AIME 2025/2024)、多模态推理(MMMU)、知识问答(GPQA)等基准上,Gemini 2.5 Flash完全碾压Claude 3.7 Sonnet,足以与最新o4-mini相媲美。
其中包括由1000多名学者提出的“人类最后的考试”,这套测试集发布时没有任何一个模型得分超过10%,现在Gemini 2.5 Flash的成绩是12.1%。
苹果公司已发布iOS 18.4.1和iPadOS 18.4.1更新,修复两个被用于针对特定iPhone用户实施高度定向、复杂攻击的关键零日漏洞。 要安装iOS 18.4.1或iPadOS 18.4.1,请前往设备上的设置 > 通用 > 软件更新。苹果强烈建议所有符合条件的用户尽快更新,确保免受这些漏洞影响。
未来的相关销售也将需要许可证,这是特朗普政府首次对半导体海外销售实施重大限制,强化了拜登政府此前制定的规则。由于该政策的实施,英伟达股票遭遇重创下跌了5%左右,并且季度营收会因无法按原计划销售损失55亿美元。
网络安全在自主式AI面前站在了一个十字路口,我们从未拥有过如此强大的工具,它可以在眨眼之间创建大量的代码,发现并解除威胁,并且可以被如此果断且防御性地使用,这已经被证明是一个巨大的力量倍增器和生产力红利。