News
Garg指出:"EchoLeak漏洞暴露了分阶段AI部署存在的虚假安全性"。网络安全公司Aim Security将这一漏洞归类为"大语言模型越界访问"——即通过不可信提示词操纵AI访问超出其预设范围的数据。Garg解释道:"攻击者能引用大语言模型上下文中的其他内容来提取敏感信息,将AI的合成能力转化为数据泄露渠道"。
Genie 2,谷歌提出的一个基础世界模型,能够生成无限多样、可操作、可游玩的 3D 环境,用于训练和评估具身智能体。只需一张提示图像,人类或 AI 智能体即可使用键盘和鼠标输入来游玩。
这是一段实验视频,记录的是 Meta 最新发布的 V-JEPA 2 在机器人控制上的一次测试。它没有依赖大量手工标注的数据,也没有借助庞大的语言模型来“解释世界”。它靠的,是对这个世界运行规律的理解——一种被称为“世界模型”的理念。
例如,对2023和2024年北大西洋与东太平洋流域的NHC观测飓风数据进行初步评估。结果显示新模型在五天内的气旋路径预测比ECMW的ENS(全球领先的物理模型集合)平均近140公里,达到了ENS三天半预测的准确度,相当于实现了1.5天的预测进展——这 ...
就像之前讨论过的“对齐伪造”一样,这种违反直觉的行为引发了人们对自主系统信任的深刻质疑。如果我们最先进的推理模型在面对真正的复杂性时都能系统地减少工作量,那么当我们将它们部署到现实世界中,而问题并没有明确的难度标签时,会发生什么?在关键任务应用中—— ...
更令人大跌眼镜的是,面对这两个“不速之客”,软件巨头微软选择只修补其中一个,另一个则表示“暂无计划修复”。这波操作直接将无数设备置于潜在风险之下,也引发了行业内关于安全责任和信任机制的深度思考。
Codex核心理念一改以往代码补全逻辑,强调「大胆委托心态」:让Agent并行运行多个任务,用Agent自动完成所有繁琐工作——bug修复、重构、功能开发…… ...
人工智能展现出的“自信表达”,实则暗藏风险。随着生成式人工智能解决方案在医疗、金融、法律、零售、教育等诸多领域广泛应用,自动化的强大吸引力令企业纷纷加速将大型语言模型整合至客户支持、医疗保健、法律及金融等应用场景之中。然而,在此过程中,一个潜在的隐患 ...
从理论上讲,计划很简单:替换遗留系统,标准化流程,并在整个企业中整合数据,但在实践中,我们面对的是一个已有30年历史的企业,它层层累积了流程,却从未重新审视过这些流程背后的假设。正如一位同事所言,公司“自创立以来就增加了大量流程,但思考这些流程的方式却从未进化过”,导致员工不得不应对过时的方法。
数据显示,从2024年12月到2025年2月期间,Anthropic公司的模型在编程场景下的流量占比曾高达约80%,表现得相当强势。这一数据也从侧面印证了当时的普遍观察:开发者们确实非常喜欢使用Claude 3.5 ...
举个栗子,AI可能构造出一个正式陈述,但其包含了一个原本并非意图中的边界情况,如把关键参数设为零,绕过真正的问题,从而给出一个看似正确但毫无意义的答案。
普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建 ...
Some results have been hidden because they may be inaccessible to you
Show inaccessible results