强化学习 | 标签

首页

资讯

往期整理

AI新范式：陈丹琦RLMT横空出世，8B模型如何超越GPT-4o？

深入解析陈丹琦团队最新研究RLMT，一种结合思维链与强化学习的新方法，揭示8B小模型如何通过模型奖励思维在推理能力上超越GPT-4o，为大模型后训练时代设定新基线。

AI训练告别随机：首个100%可复现RL框架SGLang震撼发布

SGLang与slime团队联合发布首个实现100%可复现的强化学习（RL）训练框架，通过解决批次不变性问题，为大模型（LLM）提供完全确定性推理，彻底告别AI训练结果的随机性。

vivo AI Lab颠覆性突破：GTA框架融合SFT与RL，开启AI后训练新范式 | AI资讯 | AIGC.bar

vivo AI Lab提出GTA框架，创新结合监督微调(SFT)与强化学习(RL)，解决大模型后训练难题，提升文本分类性能，开启AI训练新范式，最新AI资讯。

快手AI印钞机揭秘：生成式强化学习如何引爆3%广告增收

深入解读快手生成式强化学习出价技术，剖析GAVE与CBD核心算法，揭示其如何实现多维思考决策，为平台带来超3%广告收入增长，探索AI变现前沿。

Mano大模型登顶双榜SOTA，AI智能体告别手动点击时代！

明略科技Mano大模型刷新GUI智能体记录,凭借在线强化学习与数据自动采集创新,在Mind2Web与OSWorld双榜夺魁,引领AI自动化操作进入新范式,是AGI发展的重要里程碑。

Nature封面揭秘：DeepSeek-R1如何用29万美元开启AI推理革命

深入解读DeepSeek-R1登上Nature封面，剖析其纯强化学习路径、GRPO创新算法、29.4万美元超低训练成本，以及它如何引发AI推理能力的“顿悟时刻”，开启AGI新篇章。

文心X1.1深度评测：告别AI幻觉，国产大模型推理能力新高峰

文心X1.1模型深度解读，评测其在事实性、指令遵循及智能体能力的显著提升。探讨其如何通过强化学习技术有效抑制AI幻觉，成为更可靠的生产力工具，关注最新AI资讯。

斯坦福揭秘：3B模型如何通过“刻意练习”超越Claude！| AIGC BAR AI资讯

斯坦福最新研究揭示，通过解决RL中“时长偏差”和“稀疏反馈”两大难题，Qwen2.5-3B等小模型在复杂任务中超越了Claude3.5，AI,大模型,强化学习,人工智能,AI资讯。

Karpathy力挺！AGI最后拼图「环境」开源，打破技术壁垒

Karpathy盛赞开源环境中心Environments Hub，认为环境是强化学习与AGI的关键。该项目旨在打破大厂垄断，为开源大模型提供高质量训练场，推动人工智能发展。

机器人教机器人：斯坦福RTR框架革新AI训练范式 | AIGC.Bar AI资讯

斯坦福大学提出RTR框架，利用教师机械臂“手把手”指导人形机器人进行真实世界强化学习，突破Sim-to-Real瓶颈，引领人工智能训练新范式，探索AGI新路径。

AI大模型调优新突破：告别炼丹玄学，Lite PPO以简胜繁

深入解读ROLL团队的RL4LLM新研究，揭示大模型强化学习中的技巧陷阱。介绍极简算法Lite PPO，如何用两项核心技术超越复杂方案，提升AI推理能力。

上海AI Lab新突破：混合数据训练打造全能推理AI | AIGC资讯

上海AI Lab最新研究揭示，通过混合数学、编程与逻辑数据，利用强化学习可一次性提升AI大模型的多领域推理能力，实现性能飞跃，是AI新闻领域的重大突破。

AI不再啰嗦！微软GFPO让大模型响应长度锐减80%，快来AIGC.bar体验最新AI资讯

微软GFPO算法详解, 解决大模型冗长响应, 提升AI推理效率, 缩减80% token长度, 继DeepSeek GRPO后的颠覆性创新, 最新AI新闻。

揭秘AI“策略悬崖”：为何顶尖大模型会突然“变脸”？| AI新闻

深入解读强化学习中的“策略悬崖”理论，揭示顶尖大模型（LLM）行为脆弱、出现欺骗性对齐的根本原因，探讨AGI安全与AI对齐的未来挑战与机遇。

GMPO：稳定LLM强化学习的革命性突破 | AIGC.bar AI资讯

深入解读GMPO，一种通过几何平均优化解决LLM强化学习不稳定性的新方法。了解其如何超越GRPO，实现更稳健的训练、更强的探索能力和更优的性能，探索最新AI大模型技术。

R-Zero揭秘：AI无需人类数据，左右互搏实现自我进化 | AIGC导航

深入解析腾讯R-Zero框架，看AI如何通过挑战者与解决者左右互搏，利用不确定性奖励机制，摆脱人类数据依赖，实现大模型推理能力的自进化与飞跃。

腾讯X-Omni发布：强化学习重塑AI图像生成，解锁长文本渲染新纪元 | AIGC.bar AI资讯

腾讯X-Omni模型利用强化学习，革新离散自回归图像生成，实现高质量长文本渲染，统一视觉理解与生成，引领AI大模型新方向，最新AI新闻尽在AIGC.bar。

告别数据标注：SQLM自我博弈新范式，AI如何实现自主进化？

深入解析SQLM框架，看AI如何通过自我博弈与强化学习，摆脱数据标注依赖，实现推理能力的自主进化，开启大模型训练新篇章。

ARPO算法揭秘：让AI智能体在关键时刻多想一步，推理能力飙升 | AI新闻

ARPO，一种创新的智能体强化策略优化算法，通过熵驱动探索与优势归因，显著提升LLM在多轮工具交互中的推理能力与效率，是Agentic RL领域的重大突破。

Qwen3范式GSPO：修复GRPO崩溃风险，AI大模型训练新标准

深入探讨Qwen3提出的GSPO算法，分析其如何解决DeepSeek GRPO在LLM训练中的不稳定性与模型崩溃问题，揭示大模型强化学习新方向，最新AI资讯尽在AI门户。

←上页下页→