InternThinker:AI破解围棋思维,点亮科学发现之路

type
status
date
slug
summary
tags
category
icon
password
网址
引言
围棋,这项古老而复杂的智力游戏,一直是衡量人工智能(AI)专业能力的标尺。自AlphaGo一鸣惊人以来,AI在棋力上已远超人类顶尖高手,但在其决策背后的思考过程,却长期笼罩在“黑盒”之中。我们知道AI能赢,却不知其所以然。近日,上海人工智能实验室(上海AI Lab)发布的新一代大模型“书生·思客”(InternThinker),首次打破了这一局面,不仅在围棋上展现出专业水平,更能以人类可理解的自然语言揭示其思维链条,为探索AI推理能力和加速科学发现开辟了激动人心的新路径。更多前沿AI资讯,欢迎访问 AI门户 AIGC.bar。

破译AI“黑箱”:InternThinker的透明思维链

长期以来,AI围棋模型即便能给出胜率和落子推荐,也无法解释“为什么这一步更好”。它们有时会下出超越人类直觉的妙手,事后被证明有效,但其内在逻辑对我们来说仍然是个谜。InternThinker的出现,标志着AI从“知其然”向“知其所以然”迈出了关键一步。
升级后的InternThinker,不仅棋力达到职业中段水准(新生代世界冠军王星昊九段评价其布局棋力约在职业3-5段),更核心的突破在于其“思维透明”。在对弈过程中,InternThinker能化身“AI教练”,用自然语言全面分析当前局势,对比不同落子点的优劣,并清晰阐述选择某一步棋的决策依据和推理过程。即便是面对李世石九段那步载入史册、扭转对AlphaGo战局的“神之一手”,InternThinker也能准确评价其精妙之处(“相当刁钻……完美解决L11的威胁,重新确立中央控制权”),并给出合理的应对策略。这种能力极大地提升了AI的可解释性,也为人类学习围棋提供了前所未有的交互式指导。更有趣的是,InternThinker还具备多样化的语言风格,时而鼓励加油,时而“毒舌锐评”,展现出令人惊叹的“拟人”交互感。

InternBootcamp:加速AI推理进化的“训练营”

InternThinker强大的推理能力和思维透明性,离不开上海AI Lab创新构建的训练环境——InternBootcamp。对于复杂的逻辑推理任务,获取准确的过程和结果反馈至关重要。InternBootcamp正是为此设计的“加速训练营”,一个大规模、标准化、可扩展的可交互验证环境。
该环境基于代码智能体自动化构造,包含超过1000个验证环境,覆盖奥赛级数学、科学推理、算法编程、棋类游戏、智力谜题等广泛的复杂逻辑推理任务。InternBootcamp能够批量生成难度可控的任务,与大模型进行交互并提供反馈。这种模式让大模型跳出了传统依赖标注数据学习的范式,通过与环境的直接互动和强化学习,高效习得专业技能,显著提升推理能力。这不仅为InternThinker的围棋突破奠定了基础,也为提升大模型在各类复杂任务上的表现提供了新范式。

多任务融合与“涌现时刻”:迈向通用推理

InternThinker的训练并非局限于单一任务。研究人员发现,在InternBootcamp中进行多任务混合强化学习时,出现了令人振奋的“涌现时刻”。原本在单一任务训练中难以获得有效正反馈(奖励)的模型,通过混合训练多种不同类型的推理任务(如Tapa解谜、Unicode25等),竟然能够成功学习并获得奖励。
这表明,通过大规模、多样化的任务混合训练,大模型能够触类旁通,学习到不同任务间共通的思考方式和推理逻辑,建立起更广泛的关联,从而实现能力的“升华”。InternThinker在包括数十个任务的测试集上,平均能力已超越o3-mini、DeepSeek-R1及Claude-3.7-Sonnet等国内外主流推理模型,在某些任务上甚至表现出显著优势。这一发现意味着,随着InternBootcamp任务库的不断丰富和深化,大模型有望解决更难、更具实用性的推理问题,朝着通用人工智能(AGI)的目标加速迈进。

通专融合:构筑下一代AI的基石

InternThinker的成功,也得益于上海AI Lab在底层技术路线上的前瞻布局——“通专融合”。当前大模型发展面临专业化与通用性难以兼顾的困境。上海AI Lab率先提出的通专融合技术路线,旨在同步提升模型的深度推理能力(专)与专业泛化能力(通),使其既能在广泛任务上表现出色,又能在特定领域达到专家水平。
为实现这一目标,团队提出了创新的“三层”技术路径:基础模型层、融合协同层和探索进化层。在基础模型层,全新的“记忆体+解码器”(Memory Decoder)架构实现了知识记忆(专)与通用推理(通)的分离与自组合,记忆体可一次训练、多处复用。在融合协同层,通过PRIME强化学习算法、MoR多任务强化学习框架以及OREAL基于结果奖励的强化学习新范式等技术突破,有效提升了模型在复杂任务(如高难度数学题)上的专精能力和多任务协同能力。这些底层技术的创新,为InternThinker这类既“专”又“通”的先进大模型的诞生奠定了坚实基础。
结论
上海AI Lab的InternThinker不仅在围棋这一经典AI挑战中取得了里程碑式的突破,更重要的是,它揭示了AI思维过程的可能性,为解决AI“黑盒”问题提供了新的思路。通过InternBootcamp的创新训练范式和通专融合的底层技术架构,InternThinker展现了强大的推理能力和泛化潜力。这不仅预示着更具可解释性、更值得信赖的AI时代的到来,也为利用AI加速科学发现、解决现实世界复杂问题带来了新的曙光。关注AI发展前沿,探索更多LLM、AGI的可能性,欢迎访问 AI门户 AIGC.bar 获取最新AI资讯和深度分析。
Loading...

没有找到文章