DeepAgents CLI 在 Terminal Bench 2 上完成基准测试,性能媲美 Claude Code,并公开测试所用开源设置
来源:Harrison Chase | 发布时间:2025-12-05
内容摘要:
LangChain 的编码智能体 DeepAgents CLI 在 Terminal Bench 2.0 基准测试中取得 42.65% 的平均得分(44.9% 和 40.4%),性能与 Claude Code 相当。该工具基于 Deep Agents SDK 构建,支持交互式终端、shell 执行、文件系统操作和持久内存,其开源配置已公开,为开发者提供可复现的 AI 编码代理评估范例。
在 Terminal Bench 2.0 上评估 DeepAgents CLI
来源:LangChain | 发布时间:2025-12-05
内容摘要:
LangChain 官方发布 DeepAgents CLI 在 Terminal Bench 2.0 上的评估结果,其平均得分为 42.65%,表现与同类基于相同模型的实现相当。该 CLI 提供交互式终端界面,支持 shell 执行、文件系统操作与持久记忆,评估在沙盒环境中完成,完整披露了技术细节与性能指标,为 AI 代理的实际能力提供了可信验证。
仅需提示,轻松创建邮件代理
来源:LangChain | 发布时间:2025-12-05
内容摘要:
LangSmith Agent Builder 新增“邮件代理”创建功能,用户仅需一个提示即可配置代理自动执行邮件优先级排序、标签标注、草拟回复等任务,并支持按计划或即时触发。该功能已成为 Agent Builder 中最受欢迎的用例之一,标志着 AI 在日常工作流自动化中的深度落地。
Claim.watch 荣获 Bolt x Half Baked Hackathon 最佳产品奖
来源:bolt.new | 发布时间:2025-12-05
内容摘要:
由 Bartosz Idzik 开发的 Claim.watch 获选 Bolt x Half Baked Hackathon “最佳产品”奖。该工具通过自动化搜索无人认领的集体诉讼赔偿金,并提交申请文件,致力于解决每年超 300 亿美元被遗忘的赔偿款问题,展现了 AI 在公共服务领域的可操作价值。
亚马逊云科技最强 AI Agent 阵容发布,设计火箭也不在话下
来源:彭海星 | 发布时间:2025-12-05
内容摘要:
在 re:Invent 2025 上,亚马逊云科技发布强大 AI Agent 产品矩阵,包括 Kiro、Security、DevOps 三款自主规划与执行任务的 AI Agent,标志着“Agentic AI”时代的开启。同时推出 Nova 2 模型家族、Trainium3 UltraServers 芯片及 AI Factories 平台,目标是将 AI 从辅助工具升级为可自主工作的“企业同事”。
将你自己的 AI 代理引入 JetBrains IDEs
来源:Sergey Ignatov | 发布时间:2025-12-05
内容摘要:
JetBrains 正式推出代理客户端协议(ACP)Beta 支持,旨在标准化 AI 编码代理与 IDE 之间的通信。类似 LSP,ACP 允许开发者自由接入任意兼容代理,推动构建开放、可互操作的 AI 编程生态。此举有助于减少重复开发,加速创新,并已与 Zed 等伙伴共同推进统一标准。
字节跳动:Apache Doris + AI 一站式融合数据引擎的探索与实践
来源:InfoQ 中文 | 发布时间:2025-12-05
内容摘要:
字节跳动 DataMind 项目基于 Apache Doris 构建“AI + Data”融合引擎,实现混合搜索(向量索引 + BM25)、AI 函数(如 TEXT_EMBEDDING)及 GraphRAG 支持,打通数据查询与 AI 分析链路。项目已成功落地企业级 AI 问数平台,显著提升非结构化数据场景下的智能检索与生成能力。
全球引才:Faster R-CNN、ResNet作者,中国科大任少卿,招募教授、学者和学生
来源:机器之心|发布时间:2025年12月5日
任少卿教授,Faster R-CNN与ResNet核心贡献者,现任中国科学技术大学讲席教授,正面向全球招募教授、学者与学生。其团队在深度学习、计算机视觉与智能驾驶领域取得多项开创性成果,研究成果广泛应用于自动驾驶、医疗影像与工业检测等关键领域。截至2025年11月,其论文引用超46万次,位居国内学者第一。曾获未来科学大奖、NeurIPS时间检验奖等多项国际殊荣。该招聘行动彰显中国AI科研高地的全球吸引力。
登顶SuperCLUE DeepSearch,openPangu-R-72B深度搜索能力跃升
来源:机器之心|发布时间:2025年12月5日
国产大模型 openPangu-R-72B 在第三方评测机构SuperCLUE发布的11月DeepSearch榜单中登顶,展现卓越的长链推理与复杂信息检索能力。该模型基于昇腾算力部署,采用MoE(混合专家)架构,仅激活15B参数,实现高效率与高推理性能的平衡。借助24T tokens训练数据与128k上下文长度,其在深度搜索任务中表现优异。核心技术突破推动国产大模型在复杂推理场景中走向领先。
字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶
来源:机器之心|发布时间:2025年12月5日
由字节前技术负责人与清华姚班校友联合创立的 InfCode,正引领AI编程进入“工程时代”。其智能体系统突破传统Vibe Coding局限,支持跨文件逻辑分析、大型代码库定位与自动修复,显著提升企业级开发效率。通过Agent协作与深度推理机制,可精准理解复杂工程意图,实现“从灵感到可运行代码”的全链路自动化。该突破标志着AI编程从原型实验迈向规模化工程应用。
基于文本AI的终结?Agent协作可直接「复制思维」,Token效率暴涨
来源:机器之心|发布时间:2025年12月5日
普林斯顿大学等机构提出全新框架 LatentMAS,实现多智能体在“潜在空间”内的直接协作,彻底摆脱传统文本交互依赖。通过在模型隐藏层传递思想,系统可实现更高效的推理与通信,Token消耗大幅降低。该框架为Agentic AI提供全新范式,使智能体间“思想复制”成为可能。核心意义在于打破语言瓶颈,迈向更高效、更深度的AI协作时代。
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
来源:机器之心|发布时间:2025年12月5日
来自UMD、USC、MIT的研究揭示:视频生成模型中的首帧并非起点,而是“概念记忆体”。研究发现,所有后续画面中出现的视觉实体,均在首帧中被隐式编码。该成果提出“First Frame Is the Place to Go”理论,为视频内容定制提供新方法。开发者可通过精细设计首帧实现精准控制后续生成。这一发现重构了视频生成的底层逻辑,显著提升可控性与一致性。
全球引才:Faster R-CNN、ResNet作者,中国科大任少卿,招募教授、学者和学生
来源:机器之心|发布时间:2025年12月5日
任少卿教授,Faster R-CNN与ResNet核心贡献者,现任中国科学技术大学讲席教授,正面向全球招募教授、学者与学生。其团队在深度学习、计算机视觉与智能驾驶领域取得多项开创性成果,研究成果广泛应用于自动驾驶、医疗影像与工业检测等关键领域。截至2025年11月,其论文引用超46万次,位居国内学者第一。曾获未来科学大奖、NeurIPS时间检验奖等多项国际殊荣。该招聘行动彰显中国AI科研高地的全球吸引力。
登顶SuperCLUE DeepSearch,openPangu-R-72B深度搜索能力跃升
来源:机器之心|发布时间:2025年12月5日
国产大模型 openPangu-R-72B 在第三方评测机构SuperCLUE发布的11月DeepSearch榜单中登顶,展现卓越的长链推理与复杂信息检索能力。该模型基于昇腾算力部署,采用MoE(混合专家)架构,仅激活15B参数,实现高效率与高推理性能的平衡。借助24T tokens训练数据与128k上下文长度,其在深度搜索任务中表现优异。核心技术突破推动国产大模型在复杂推理场景中走向领先。
字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶
来源:机器之心|发布时间:2025年12月5日
由字节前技术负责人与清华姚班校友联合创立的 InfCode,正引领AI编程进入“工程时代”。其智能体系统突破传统Vibe Coding局限,支持跨文件逻辑分析、大型代码库定位与自动修复,显著提升企业级开发效率。通过Agent协作与深度推理机制,可精准理解复杂工程意图,实现“从灵感到可运行代码”的全链路自动化。该突破标志着AI编程从原型实验迈向规模化工程应用。
基于文本AI的终结?Agent协作可直接「复制思维」,Token效率暴涨
来源:机器之心|发布时间:2025年12月5日
普林斯顿大学等机构提出全新框架 LatentMAS,实现多智能体在“潜在空间”内的直接协作,彻底摆脱传统文本交互依赖。通过在模型隐藏层传递思想,系统可实现更高效的推理与通信,Token消耗大幅降低。该框架为Agentic AI提供全新范式,使智能体间“思想复制”成为可能。核心意义在于打破语言瓶颈,迈向更高效、更深度的AI协作时代。
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
来源:机器之心|发布时间:2025年12月5日
来自UMD、USC、MIT的研究揭示:视频生成模型中的首帧并非起点,而是“概念记忆体”。研究发现,所有后续画面中出现的视觉实体,均在首帧中被隐式编码。该成果提出“First Frame Is the Place to Go”理论,为视频内容定制提供新方法。开发者可通过精细设计首帧实现精准控制后续生成。这一发现重构了视频生成的底层逻辑,显著提升可控性与一致性。
全球引才:Faster R-CNN、ResNet作者,中国科大任少卿,招募教授、学者和学生
来源:机器之心|发布时间:2025年12月5日
任少卿教授,Faster R-CNN与ResNet核心贡献者,现任中国科学技术大学讲席教授,正面向全球招募教授、学者与学生。其团队在深度学习、计算机视觉与智能驾驶领域取得多项开创性成果,研究成果广泛应用于自动驾驶、医疗影像与工业检测等关键领域。截至2025年11月,其论文引用超46万次,位居国内学者第一。曾获未来科学大奖、NeurIPS时间检验奖等多项国际殊荣。该招聘行动彰显中国AI科研高地的全球吸引力。
登顶SuperCLUE DeepSearch,openPangu-R-72B深度搜索能力跃升
来源:机器之心|发布时间:2025年12月5日
国产大模型 openPangu-R-72B 在第三方评测机构SuperCLUE发布的11月DeepSearch榜单中登顶,展现卓越的长链推理与复杂信息检索能力。该模型基于昇腾算力部署,采用MoE(混合专家)架构,仅激活15B参数,实现高效率与高推理性能的平衡。借助24T tokens训练数据与128k上下文长度,其在深度搜索任务中表现优异。核心技术突破推动国产大模型在复杂推理场景中走向领先。
字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶
来源:机器之心|发布时间:2025年12月5日
由字节前技术负责人与清华姚班校友联合创立的 InfCode,正引领AI编程进入“工程时代”。其智能体系统突破传统Vibe Coding局限,支持跨文件逻辑分析、大型代码库定位与自动修复,显著提升企业级开发效率。通过Agent协作与深度推理机制,可精准理解复杂工程意图,实现“从灵感到可运行代码”的全链路自动化。该突破标志着AI编程从原型实验迈向规模化工程应用。
基于文本AI的终结?Agent协作可直接「复制思维」,Token效率暴涨
来源:机器之心|发布时间:2025年12月5日
普林斯顿大学等机构提出全新框架 LatentMAS,实现多智能体在“潜在空间”内的直接协作,彻底摆脱传统文本交互依赖。通过在模型隐藏层传递思想,系统可实现更高效的推理与通信,Token消耗大幅降低。该框架为Agentic AI提供全新范式,使智能体间“思想复制”成为可能。核心意义在于打破语言瓶颈,迈向更高效、更深度的AI协作时代。
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
来源:机器之心|发布时间:2025年12月5日
来自UMD、USC、MIT的研究揭示:视频生成模型中的首帧并非起点,而是“概念记忆体”。研究发现,所有后续画面中出现的视觉实体,均在首帧中被隐式编码。该成果提出“First Frame Is the Place to Go”理论,为视频内容定制提供新方法。开发者可通过精细设计首帧实现精准控制后续生成。这一发现重构了视频生成的底层逻辑,显著提升可控性与一致性。
2026年英伟达奖学金名单公布,华人博士生霸榜占比80%
来源:机器之心|发布时间:2025年12月5日
2026年英伟达研究生奖学金计划公布,10位获奖博士生中8人为华人,占比达80%。该计划聚焦计算创新前沿,涵盖机器人、深度学习、计算机图形学与自主系统等领域。获奖者将获得最高6万美元资助。本年度华人学生表现突出,延续了往届的强势趋势。其中南加州大学的Mao Jiageng因在物理人工智能与具身智能方向的突破性研究受青睐,目标是实现现实世界中稳健、可推广的AI智能体。该奖项不仅反映华人学子在AI核心领域的领先地位,也凸显全球AI研究生态的持续演进。
告别「2D错觉」,SpatialActor通过解耦语义与几何,为具身智能注入强鲁棒空间基因
来源:机器之心|发布时间:2025年12月5日
针对机器人操作中因依赖2D图像导致的“深度错觉”问题,Dexmal团队提出SpatialActor框架,实现语义与几何信息的显式解耦。该架构通过独立处理“这是什么”与“它在哪里”两个维度,构建双流并行处理机制,结合3D空间编码器与视觉语言模型,大幅提升对复杂场景的理解能力。实验证明,该模型在多个仿真与真实任务中具备更强鲁棒性,尤其在应对深度噪声与视角变化时表现优异。这一创新为具身智能迈向真实世界落地奠定了关键基础,标志着从“图像理解”向“空间感知”的关键跃迁。
免费版Banana2来了,Vidu推出Q2生图全家桶,限时无限免费
来源:新闻助手|发布时间:2025年12月4日
生数科技Vidu正式上线Vidu Q2“生图全家桶”,推出免费版Banana2,并限时开放无限次使用。核心功能“参考生图”实现超高一致性,支持对位置、动作、构图与镜头语言的精准控制,生成速度最快仅需5秒,输出4K高清图像。新增的图像编辑功能支持局部增删改与材质变换,国际权威榜单显示,其编辑性能超越OpenAI GPT-5,媲美Google Nano。上线首日,参考生图与文生图调用量飙升至50万次,已获PhotoGrid等多家企业接入。这一举措大幅降低AI创作门槛,推动生成式AI在设计、影视、电商等领域的规模化应用。
DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了
来源:机器之心|发布时间:2025年12月4日
DeepSeek-V3.2长思考版(Speciale)在处理复杂任务时暴露出严重Token使用效率问题:相同任务下,其消耗高达7.7万Token,是Gemini的3倍以上。此外,输出内容冗长且存在逻辑错误,这一现象被归因于其采用的GRPO算法固有缺陷——存在无效推理循环与冗余输出倾向。尽管模型能力备受认可,但该问题严重影响实际应用场景的性价比与用户体验。研究者指出,若不优化算法层级的“思考路径”,仅靠增大参数规模将难以真正实现高效推理,凸显当前大模型在推理效率与逻辑合理性上的挑战。
碾压π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
来源:机器之心|发布时间:2025年12月4日
复旦大学张家辉、黄泽等团队提出首个**“世界模型+具身训练+强化学习”三位一体闭环框架**,在NeurIPS 2025上实现突破。该框架打破传统模仿学习的局限,通过构建高保真世界模型,实现对物理环境的预测与虚拟试错,显著降低真实机器人训练成本。实验表明,该系统在复杂任务中表现远超π0.5等主流离线RL算法,任务成功率提升明显。其核心创新在于将学习、模拟、优化紧密结合,构建可迭代演化的能力闭环。该成果为实现高可靠性、通用化具身智能提供了全新路径,是迈向真实世界AI机器人的重要一步。