顶级AI全军覆没!DeepPHY基准揭示VLM物理推理短板,愤怒的小鸟成照妖镜 | AIGC.bar
深入解读DeepPHY基准,揭示GPT-4o、Claude等顶级VLM在《愤怒的小鸟》等6款物理游戏中表现不佳,暴露其物理推理与交互控制的严重脱节,性能甚至不如随机猜测。
没有找到文章
顶级AI全军覆没!DeepPHY基准揭示VLM物理推理短板,愤怒的小鸟成照妖镜 | AIGC.bar
深入解读DeepPHY基准,揭示GPT-4o、Claude等顶级VLM在《愤怒的小鸟》等6款物理游戏中表现不佳,暴露其物理推理与交互控制的严重脱节,性能甚至不如随机猜测。