开源即SOTA!Avenir-Web框架让网页智能体成功率飙升23.7%,三大模块破解长程任务难题 UCL、普林斯顿等联合推出Avenir-Web,开源Agent Harness框架在网页任务上取得53.7%成功率,超越闭源方案,三大模块破解元素定位难、缺乏流程知识、记忆不稳定等难题。 AI 前沿动态 3周前070
多智能体视觉幻觉滚雪球?ViF轻量方案:视觉流直接传递,幻觉降低近40%! ViF是一种即插即用的轻量范式,通过视觉流替代文本流和注意力重分配,无需改造模型即可大幅抑制多智能体视觉幻觉雪球,在8大基准上平均提升2.4%-3.8%,幻觉分数下降近40%。 AI 前沿动态 3周前080
华为携中科大发布“灵境造物”:AI科学家终于学会“团队协作”,科研效率暴增 华为与中国科学技术大学联合发布“灵境造物”智能科研云平台,基于openJiuwen的协同工程让多AI智能体自主分工、沉淀经验并自演进,实现从理论到实验的全流程闭环,电催化剂筛选从数周缩至数小时。 AI 前沿动态 3周前070
告别碎片化!北大开源统一世界模型框架OpenWorldLib,多任务推理一网打尽 北京大学DCAI课题组联合快手可灵等团队推出OpenWorldLib,统一世界模型推理框架,解决多任务接口不统一问题,涵盖视频生成、3D建模、推理与具身控制。 AI 前沿动态 3周前080
GLM-5大规模推理踩坑实录:智谱如何揪出Scaling路上的隐形Bug 智谱公开GLM-5大规模Coding Agent推理中遇到的乱码、复读等异常,深入分析KV Cache复用冲突与read-before-ready问题,并提出同步机制与LayerSplit优化方案,提... AI 前沿动态 3周前070
1930年知识模型微调后竟能写代码?Talkie-1930-13b在SWE-bench上实现4.5%通过率 知识截止于1930年的talkie-1930-13b模型经过微调后,在SWE-bench上实现4.5% pass@1,并成功修复xarray库bug,引发对智能本质的讨论。 AI 前沿动态 3周前070
440MB离线翻译模型超越谷歌?腾讯混元Hy-MT1.5开源,手机秒变翻译神器! 腾讯混元开源Hy-MT1.5翻译模型,极致量化至440MB,离线手机运行,翻译质量超越谷歌,支持33种语言。 AI 前沿动态 3周前070
一支15人华人团队,如何用“会推理”的图像模型杀进全球前三? Luma AI发布Uni-1.1 API,凭推理与生成统一架构冲进Arena.ai全球第三,价格仅为同类一半。由宋佳铭、沈博魁领衔的15人华人团队打造,已获Publicis、Adidas等客户采用。 AI 前沿动态 3周前080
Anthropic颠覆AI对齐:中训练让模型失准率从68%暴跌至5% Anthropic提出模型规范中训练(MSM),在预训练后插入价值观教育,实验证明可将智能体失准率从68%降至5%,同时精简微调数据40-60倍。 AI 前沿动态 3周前070
低提示词革命!00后团队打造胖鹅AI:一句话生成视频、网页看板,重新定义AI交互 00后团队打造胖鹅AI,以低提示词理念降低AI使用门槛。无需学习Prompt工程,一句话即可生成视频、可交互数据看板等,背后是垂直SOP体系。 AI 前沿动态 3周前070