告别「手搓Prompt」,前美团高管创业,要让物理世界直接成为AI提示词

来源: 机器之心 | 发布时间: 2025-12-16

正如奥特曼执意打造硬件,试图打破手机屏束缚,要让 AI 感受物理世界;Looki 的诞生也源于同样的渴望:补齐大模型「感官智能」的最后拼图,将现实场景实时转化为上下文,驱动人机交互从「被动问答」进化为「主动共鸣」。2025 年,AI 硬件赛道喧嚣一片。从形态各异的 AI 眼镜,到 OpenAI 传闻中的无屏设备,无数玩家正试图摆脱智能手机的束缚。其底层逻辑清晰可见,今天的 AI 不缺智商,缺乏的是「在场感」。被困在对话框里的大模型如同「缸中之脑」。当你需要复盘会议或分析孩子情绪时,却不得不将鲜活场景压缩成干巴巴的文字描述,这种依赖「手动 Prompt」的交互不仅低效,更是反人性的。我们被迫充当了 AI 的「人肉传感器」,而大模型因缺乏 Context(上下文语境),始终处于对物理数据的极度饥渴中。「在物理世界中,人类本质上是被动的生物。我们期望让 AI 变得主动。」Looki 创始人兼 CEO 孙洋一语道破。正是带着这样的思考,一支自带自动驾驶基因的团队,试图将那套解析道路环境的「从感知到决策」逻辑复用到日常生活中,填补大模型对于物理世界的认知「盲区」。他们打造的 Looki L1,在…

摘要AI感官智能突破传统交互限制,将物理世界实时转化为AI上下文,实现「主动共鸣」。Looki L1通过硬件+算法实现环境感知,摆脱「手动Prompt」困扰,为多场景智能交互提供新路径,代表AI从“被动问答”迈向“主动理解”的关键一步。


让扩散模型「可解释」不再降质,开启图片编辑新思路

来源: 机器之心 | 发布时间: 2025-12-16

过去三年,扩散模型席卷图像生成领域。以 DiT (Diffusion Transformer) 为代表的新一代架构不断刷新图像质量的极限,让模型愈发接近真实世界的视觉规律。然而,与 LLM 可解释性研究的蓬勃发展相对,扩散模型内部的语义结构、时间规律以及因果路径仍然像被深深封住的「黑箱」。研究者可以凭直觉优化架构,但外界无法真正理解扩散模型在生成过程中的「思考方式」。更棘手的是,已有的可解释性尝试往往伴随着明显的性能下降:特征分解、激活分析、插值扰动……无论采用哪种方法,只要试图将扩散模型拆开来看,生成质量就会显著劣化。这让「可解释扩散模型」在很长一段时间里被视为不切实际的小众方向。在这样的背景下,香港中文大学 MMLab 与上海人工智能实验室的研究团队提出了一个不同的观点:扩散模型作为当今视觉世界最重要的生成器,其内部机制不应永远处于不可见状态;可解释性也不应该以牺牲生成质量为代价。基于这一理念,他们提出了被 AAAI 2026 接收的 TIDE (Temporal-Aware Sparse Autoencoders) ——一个全新的可解释性框架。

摘要扩散模型可解释性难题迎来突破,TIDE框架实现“无损”可解释。该技术通过时间感知稀疏自编码器,既能清晰揭示模型内部的决策逻辑,又在生成质量上与原始模型保持一致,为提升AI设计的透明度与可靠性提供了全新范式,推动AI从“黑箱”走向“白盒”。


Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了

来源: 机器之心 | 发布时间: 2025-12-15

当前,AI 领域的研究者与开发者在关注 OpenAI、Google 等领先机构最新进展的同时,也将目光投向了由前 OpenAI CTO Mira Murati 创办的 Thinking Machines Lab。今年早些时候,他们推出了首款产品 Tinker:这是一个 API,用于帮开发者 / 研究人员微调语言模型。你只需要专注于训练数据和算法,而你不擅长的关于 Infra 的部分 —— 调度、调优、资源管理和 Infra 可靠性 —— 统统由 Tinker 来搞定,从而大大简化了 LLM 的后训练过程。此前,Tinker 仅向研究人员和开发者开放内部测试;而如今,Thinking Machines 宣布正式取消候选名单,所有用户都可以直接使用 Tinker。除此以外,Tinker 还带来了其他三项更新:首先,更强推理能力:用户现在可以在 Tinker 上对 Kimi K2 Thinking 进行微调。 Kimi K2 拥有万亿参数规模,是 Thinking Machines 目前规模最大的模型,专为长链推理和工具调用场景而设计。其次,兼…

摘要AI模型微调进入普惠时代,Tinker平台支持千亿级模型K2 Thinking和Qwen3-VL的在线微调。该平台通过自动化基础设施管理,大幅降低开发门槛,使研究人员和开发者能更专注于算法创新,快速构建高性能、定制化的大模型应用,标志着模型迭代效率的显著提升。


AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了

来源: 机器之心 | 发布时间: 2025-12-15

近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。为此,合肥工业大学研究团队携手清华大学研究团队推出了首个面向视频大语言模型的综合可信度评测基准 Trust-videoLLMs。该工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 对 5 款商业模型和 18 款开源模型进行了全面评估。评测涵盖真实性、鲁棒性、安全性、公平性、隐私五大维度,包含 30 项精心设计的任务。同时,团队还提供了一个专门用于研究视频大语言模型安全可信能力的工具箱,该工具箱采用统一接口和模块化设计,便于模型交互和任务执行。论文地址:https://arxiv.org/pdf/2506.12336项目主页:https://github.com/wangyouze/Trust-videoLLMs评测什么?Trust-videoLLMs 构建了一个系统化、多层次、可扩展的评测体系,包含五个核心维度:真实性 (Truthfulness):视频描述、时序理解、事件推理、…

摘要视频大语言模型可信度迎来系统化评估。AAAI 2026研究提出的Trust-videoLLMs基准,首次对23款主流模型进行五大维度的全方位测试,揭示了模型在真实性、安全性等方面存在的显著缺陷,建立了衡量AI视频生成质量的“标尺”,为模型安全与可信应用提供了关键指导,推动行业从“能生成”向“可信赖”迈进。


连续俩月霸榜全球第一的数据分析智能体,终于开源啦!

来源: 机器之心 | 发布时间: 2025-12-15

12月13日,第二届CCF中国数据大会上,蚂蚁数科宣布开源旗下数据智能体关键技术Agentar SQL全套论文、代码、模型和使用指南。该智能体技术可让非专业人员通过日常语言进行商业数据查询和分析,为企业数智化提供更精准可用的智能数据分析基座。蚂蚁数科首期开源实时文本转化结构化查询语言(Text-to-SQL)框架,为开发者提供一套开箱即用的数据查询方案,提升文本与数据库查询交互效率。2026年,蚂蚁数科将陆续开源数据库理解与挖掘、行业知识挖掘、实时多轮交互技术框架,覆盖意图理解、业务理解到数据理解的全链路数据能力。记者了解到,在某头部城商行试运营期间,蚂蚁数科Agentar SQL多个工具的平均查询准确率超92%,较传统查询方案提升超3倍。 今年9月25日,由该技术支持的蚂蚁数科数据分析智能体Agentar-Scale-SQL登顶全球最具权威性的自然语言转结构化查询语言(NL2SQL)评测基准BIRD-SQL,超越Google等诸多国内外厂商。目前,该智能体仍在执行准确率排行榜以及执行效率榜保持双榜第一,已持续领跑超两月。  BIRD-SQL要求AI模型将自然语言查…

摘要数据分析AI实现重大突破,Agentar SQL开源引爆行业。该智能体以超92%的准确率统领NL2SQL基准测试,证明了自然语言与数据库的高效交互能力。其开源不仅降低技术门槛,更推动企业数据智能从专业“少数派”走向全民“可触达”,成为推动业务智能化变革的关键引擎。


(剩余内容为非科技新闻,已过滤)

临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统

来源: 机器之心 | 发布时间: 2025-12-16

在经皮冠状动脉介入治疗(PCI)的决策制定中,CA-GPT垂直领域AI系统在关键决策指标上显著优于通用大模型ChatGPT-5。该系统基于中科微光医疗(Vivolight Medtech)OCT系统,构建了RAG增强型AI-OCT整合决策支持模型,能有效提升临床决策准确性。研究由空军军医大学唐都医院与深圳清华大学研究院联合完成,成果已发表于arXiv。


56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能

来源: 机器之心 | 发布时间: 2025-12-16

西安交通大学研究团队提出EfficientFlow,通过将等变建模与高效流匹配(Flow Matching)深度融合,实现生成式策略学习的56倍推理加速。该方法在多个机器人操作基准上达到SOTA性能,显著提升了数据效率与动作生成速度,相关论文已被AAAI 2026接收。


仅凭一次快照推断细胞动力学,多阶段最优传输模型重建细胞分化轨迹

来源: ScienceAI | 发布时间: 2025-12-16

卡罗林斯卡学院与KTH研究团队开发了MultistageOT算法,仅凭一次静态单细胞快照,即可数学重建细胞分化的连续动力学轨迹。该模型在ScRNA-seq数据上实现了高精度推断,为发育生物学、再生医学和疾病研究提供了新范式,相关成果发表于PNAS。


告别「手搓Prompt」,前美团高管创业,要让物理世界直接成为AI提示词

来源: 机器之心 | 发布时间: 2025-12-16

由前美团高管孙洋创立的Looki,推出L1智能设备,实现“物理世界即提示词”。该产品通过实时感知环境,将现实场景直接转化为AI上下文,让AI从被动问答进化为“主动共鸣”,突破了传统“手动Prompt”的交互障碍,已在多场景中验证其潜力。


让扩散模型「可解释」不再降质,开启图片编辑新思路

来源: 机器之心 | 发布时间: 2025-12-16

香港中文大学MMLab与上海人工智能实验室提出TIDE框架,首次实现扩散模型在不牺牲生成质量前提下的可解释性。通过引入时间感知的稀疏自编码器,模型在保留高质量图像的同时,能清晰揭示生成过程中的语义结构与因果路径,为可控图像编辑提供新工具。


Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了

来源: 机器之心 | 发布时间: 2025-12-15

Thinking Machines Labs发布其API产品Tinker的全面升级,支持对Kimi K2 Thinking、Qwen3-VL等主流大模型的直接微调,集成了调度、调优与资源管理能力,大幅简化LLM后训练流程。该平台现已对所有用户开放,标志着AI开发进入低门槛时代。


AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了

来源: 机器之心 | 发布时间: 2025-12-15

合肥工业大学与清华大学联合推出Trust-videoLLMs评测基准,对23款主流视频大模型在真实性、鲁棒性、安全性等五大维度进行系统性评估。结果显示,多数模型在安全性与公平性方面存在显著短板,该基准为AI视频模型的可信性研究提供标准化工具。


连续俩月霸榜全球第一的数据分析智能体,终于开源啦!

来源: 机器之心 | 发布时间: 2025-12-15

蚂蚁数科开源其核心AI能力Agentar SQL,该智能体在BIRD-SQL评测中连续两月保持准确率与执行效率双榜第一。开源内容包括文本转SQL框架、数据库理解、行业知识挖掘等关键技术,推动了非技术人员的低代码数据分析革命。


国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技

来源: 机器之心 | 发布时间: 2025-12-15

商汤科技发布Seko 2.0,实现纯国产芯片上的AI视频实时生成。支持1分钟内生成复杂风格短片与数字人MV,且无需手动调参。该系统在“一人剧组”场景中表现出色,标志着国产AI生成引擎在算力与效率双维度取得突破。


Veo何止生成视频:DeepMind正在用它模拟整个机器人世界

来源: 机器之心 | 发布时间: 2025-12-15

DeepMind利用Veo视频生成模型构建全球首个“虚拟机器人世界”仿真系统,能精准模拟物体交互与动作响应。该方案突破传统物理引擎局限,解决真实机器人测试成本高、安全性差的问题,为AI策略训练提供低成本可扩展平台。