多模态大模型后训练陷入“SFT陷阱”?PRISM三步法让RL不再白忙一场 研究发现SFT后直接上RL,模型性能可能先降后升,RL在替SFT还债。PRISM提出SFT→分布对齐→RL三阶段,通过混合专家判别器纠正感知与推理漂移,实验显示平均提升4-6个点。 AI 前沿动态# PRISM# Qwen3-VL# RL 3周前90
月烧940万元!龙虾之父的AI Agent团队烧掉了130万美元的token 龙虾之父Peter Steinberger晒出CodexBar截图:30天消耗6030亿token,费用130万美元,全部用于开发OpenClaw的多Agent团队,引发对AI成本与回报的讨论。 AI 前沿动态# Codex# OpenAI# OpenClaw 3周前90
「屏幕图灵测试」曝光:大模型 GUI Agent 如何绕过平台检测实现“拟人化生存” 多模态大模型驱动的GUI Agent面临平台检测危机,上海交大与CMU团队提出“屏幕图灵测试”与AHB基准,系统剖析原生Agent的机械印记,通过历史匹配、伪动作注入等策略探索拟真度与实用性的帕累托前... AI 前沿动态# AHB基准# GUI Agent# 反检测 3周前90
AI制药的“反摩尔定律”困局:算力暴涨,新药产出为何下降?三位顶尖学者激辩四大破局路径 算力暴涨为何新药产出下降?三位教授从系统科学、数据鸿沟、高价值赛道和AI Agent等角度,揭示AI制药破局的关键路径,深度探讨后AlphaFold时代的机遇与挑战。 AI 前沿动态# AI agent# AI制药# AlphaFold 3周前90
3D AI如何重塑影视与游戏?对话聚力维度赵天奇:从短剧降本90%到“终极互动影游”的野心 聚力维度创始人赵天奇揭秘3D AI如何将短剧成本降至1/10,并畅谈被称为“游戏终极形态”的互动影游如何颠覆行业。从赛娲大模型到商业路径,干货全解读。 AI 前沿动态# 3D AI# AI影视# AI短剧 3周前90
扩散模型「奖励作弊」顽疾有解!港大提出GDRO,离线训练效率飙升数倍 | CVPR 2026 香港大学赵恒爽团队在CVPR 2026提出GDRO,一种针对扩散模型的组级奖励优化后训练方法,能有效避免奖励作弊并大幅提升训练效率。本文详细解读其原理、实验结果及团队信息。 AI 前沿动态# CVPR 2026# GDRO# 奖励作弊 3周前90
当模型成为公共基础设施,企业如何构建持续判断的智能架构?特赞GEA深度解析 大模型能力趋同后,企业竞争转向上下文结构。特赞基于十年DAM经验推出GEA架构,将上下文系统与意图层结合,让智能体围绕业务目标持续运行,开启企业软件新范式。 AI 前沿动态# Agentic AI# Context System# GEA 3周前90
华为前高管刘武龙创立贝塔无限,瞄准万亿消费级机器人市场,已完成近亿元种子轮融资 华为前高管刘武龙创立贝塔无限,主攻消费级机器人,已完成近亿元种子轮融资。团队来自华为、字节等,致力于打造个性化、可自主演进的机器人解决方案。 AI 前沿动态# 具身智能# 刘武龙# 华为 3周前90
前鉴智CTO都大龙创立章鱼动力,获地平线及多家美元基金数亿元种子轮融资 前鉴智机器人CTO都大龙创立的章鱼动力完成数亿元种子轮融资,投资方包括地平线及多家知名美元基金。公司聚焦物理AI,团队来自百度、地平线等顶尖机构。 AI 前沿动态# 具身智能# 地平线# 物理AI 3周前90
AI for Science革命:AlphaFold获诺奖、美国启动 AlphaFold 3获诺贝尔化学奖,美国启动Genesis计划用AI翻倍科研效率。科学智能论坛南京举办,探讨AI如何颠覆传统科研范式。 AI 前沿动态# AI for Science# AlphaFold# Genesis计划 3周前90