AI通关《我的世界》新纪元:400张图成本降95% | AIGC资讯

type
status
date
slug
summary
tags
category
icon
password
网址
当我们在《我的世界》(Minecraft)中自由建造、探索时,一群顶尖的科研人员正将这个像素世界视为通往通用人工智能(AGI)的绝佳练兵场。近日,香港科技大学(广州)与腾讯的联合团队发布了一项震撼人心的研究成果——VistaWise框架,它让AI仅需400余张游戏截图,就能学会从零开始挖到钻石,而训练和推理成本仅为此前顶尖方案的5%。这项被自然语言处理顶级会议EMNLP 2025录用的成果,标志着低成本、高效率的开放世界AI智能体研究迈出了关键一步。更多前沿的AI资讯,欢迎访问AI门户网站 AIGC.bar 获取。

核心突破:VistaWise的“图-检-控”极简架构

传统方法训练一个能在《我的世界》中自主决策的大模型,往往需要千万级的标注数据和数百张高端显卡,成本高昂。为了打破这一瓶颈,VistaWise提出了一套“图-检-控”三位一体的极简框架,其核心创新可以概括为“一图谱、两增强、三协同”。
  • 图谱级知识外挂:研究团队首次将游戏世界的文本攻略、百科知识与实时的视觉感知数据融合,构建了一个轻量化的“跨模态知识图谱”。这个图谱剔除了冗余描述,只保留实体间的核心关系,使得在一张1080p的游戏画面中,动态更新图谱的时间不超过20毫秒。这相当于为AI安装了一个高效、低延迟的“外置大脑”。
* 视觉与推理双重增强: 1. 轻量化视觉增强:VistaWise摒弃了庞大的多模态大模型(MLLM)来进行视觉识别,转而仅用471张游戏截图微调了一个轻量级的YOLOv10-L目标检测模型。更巧妙的是,它通过“经验阈值”利用物体的像素大小来估算距离,而非依赖复杂的深度估计网络,极大地节省了算力并降低了延迟。 2. 检索式推理增强:为了减少LLM(如ChatGPTClaude)的推理负担,团队设计了“路径搜索+实体匹配”的双阶段检索池化机制。它能先定位从玩家到目标的全局路径,再根据当前任务裁剪出最相关的信息,有效去除了冗余数据,将提交给大模型的Tokens量减少了30%以上。
  • 桌面级控制协同:为了让AI能像真人一样操作游戏,VistaWise没有依赖MineFlayer等游戏API,而是基于PyAutoGUI封装了一套原子级的键鼠操作函数库。大模型可以直接生成带参数的函数调用指令,实现“零仿真”的真机操作,无论是点击、拖拽还是合成物品,都与人类玩家无异。

决策闭环:AI如何像人一样“思考”和“行动”

VistaWise的整个决策流程构成了一个高效的“感知-检索-推理-执行”闭环,生动地模拟了人类在复杂环境下的决策过程。
  1. 感知(Perception):YOLO模型实时检测游戏环境和玩家物品栏,输出所有可见实体的坐标、尺寸和类别信息。
  1. 检索(Retrieval):感知到的结果被实时写入跨模态知识图谱。双阶段池化机制被触发,迅速从庞大的知识库中检索出与当前任务最相关的“子图”。
  1. 推理(Reasoning):强大的人工智能模型GPT-4o作为决策核心,它接收任务描述、检索到的子图、短期记忆和技能库信息,然后生成下一步行动的自然语言指令,例如“合成一个木镐(craftwoodenpickaxe)”。掌握高效的提示词(Prompt)技巧是发挥这类大模型能力的关键,您可以在 AIGC.bar 探索更多高级Prompt工程学。
  1. 执行(Execution):生成的指令被精确映射为PyAutoGUI的函数调用,驱动鼠标和键盘在真实的Minecraft客户端中完成操作。游戏环境随之改变,新的视觉信息进入下一轮感知循环。
令人惊叹的是,这套复杂的系统训练仅需一张24GB显存的消费级显卡,而推理阶段则完全可以在一台配备8GB显卡的普通笔记本电脑上流畅运行。

惊人成果:成本与性能的双重革命

VistaWise的实验结果堪称一场革命,它同时在成本和性能上实现了双重突破。
  • 成本骤降:与之前需要1.6亿帧画面的SOTA模型Voyager相比,VistaWise的训练数据量缩减了5个数量级(仅471张)。GPU显存需求从192GB骤降至24GB,降幅高达87.5%。在完成“获取钻石”这一完整任务链上,总开销仅为1.28美元,是Voyager(25美元)的5%,真正实现了“小数据办大事”。
  • 性能领先:在成本大幅降低的同时,性能不降反升。VistaWise在“获取钻石”任务上的最终成功率达到了33%,比之前的非API类方法SOTA提升了8个百分点。在分解的9个连续子任务中,每一个的成功率都超过了73%,展示了其强大的稳定性和可靠性。
这项研究证明,通过巧妙的系统设计,将轻量化模型与外部知识库结合,是实现高效、低成本通用智能体的一条可行路径,对未来AI变现和商业落地具有重要意义。

结论

港科广与腾讯联合团队的VistaWise框架,不仅仅是教会了AI玩《我的世界》,更重要的是,它为构建能在复杂、开放世界中自主学习和决策的通用智能体提供了一套全新的、极具性价比的解决方案。它打破了AGI研究必须依赖海量数据和顶级算力的“军备竞赛”模式,让更多研究者和开发者能够参与到这一前沿领域的探索中。随着这类技术的不断成熟,我们有理由相信,从数字孪生到智能机器人,功能更强大、成本更亲民的AI智能体将很快走进我们的生活。想持续关注OpenAIChatGPT等最新AI日报和行业动态,AIGC.bar 将是您的最佳信息港湾。
Loading...

没有找到文章