<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>强化学习 on Peng Tan's AI Blog</title><link>https://68e49aad.hobbytp-github-io.pages.dev/zh/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><description>一个关注 AI 各领域的专题博客</description><atom:link href="https://68e49aad.hobbytp-github-io.pages.dev/zh/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml"/><item><title>Agent Lightning</title><link>https://68e49aad.hobbytp-github-io.pages.dev/zh/mas/agent_lightning/</link><pubDate>Wed, 27 Aug 2025 20:10:00 +0800</pubDate><guid>https://68e49aad.hobbytp-github-io.pages.dev/zh/mas/agent_lightning/</guid><description>&lt;h2 id="介绍">介绍&lt;/h2>
&lt;p>微软开源的 &lt;strong>Agent Lightning&lt;/strong> 项目，它的核心价值在于为开发者和研究者提供了一个强大的工具，用于&lt;strong>训练和优化 AI Agent（智能代理）&lt;/strong>，特别是&lt;strong>几乎不需要修改现有 Agent 代码&lt;/strong>就能实现显著的性能提升。&lt;/p>
&lt;p>这个项目有以下重要作用：&lt;/p>
&lt;ol>
&lt;li>
&lt;p>&lt;strong>零代码/低代码训练 AI Agent (核心价值)：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>最大亮点：&lt;/strong> 它允许你使用&lt;strong>强化学习(Reinforcement Learning, RL)&lt;/strong> 等高级优化算法来训练你现有的 AI Agent，而&lt;strong>几乎不需要修改你的 Agent 业务逻辑代码&lt;/strong>。这意味着你可以保留你用 LangChain, AutoGen, CrewAI, OpenAI SDK 等框架（甚至裸 Python）编写的 Agent 逻辑，然后让 Agent Lightning 负责优化它的决策过程。&lt;/li>
&lt;li>&lt;strong>解决痛点：&lt;/strong> 传统上，将 RL 等技术应用到现有 Agent 框架中需要大量的工程改造和集成工作。Agent Lightning 极大地简化了这个过程。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>强大的优化能力：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>算法支持：&lt;/strong> 内置支持&lt;strong>强化学习(VERL)&lt;/strong> 作为核心优化算法，并明确提到支持&lt;strong>自动提示优化(Automatic Prompt Optimization, APO)&lt;/strong>。未来很可能扩展更多算法。&lt;/li>
&lt;li>&lt;strong>提升性能：&lt;/strong> 通过优化，Agent 在执行任务（如 SQL 生成与修正、工具调用、复杂决策）时的准确性、效率和可靠性可以得到显著提升。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>广泛的兼容性和灵活性：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>框架无关：&lt;/strong> 明确支持所有主流 Agent 框架（LangChain, OpenAI Agent SDK, AutoGen, CrewAI）以及纯 Python 实现的 Agent。你可以“即插即用”。&lt;/li>
&lt;li>&lt;strong>多 Agent 系统优化：&lt;/strong> 可以在包含多个 Agent 的复杂系统中，&lt;strong>选择性地优化其中一个或几个特定的 Agent&lt;/strong>，而不是整个系统，提供了更精细的控制。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>提供训练基础设施：&lt;/strong>&lt;/p></description></item><item><title>多智能体强化学习（MARL）在多智能体系统（MAS）中的应用：理论、算法、应用与展望</title><link>https://68e49aad.hobbytp-github-io.pages.dev/zh/mas/mas_reinforcement/</link><pubDate>Sat, 26 Apr 2025 20:10:00 +0800</pubDate><guid>https://68e49aad.hobbytp-github-io.pages.dev/zh/mas/mas_reinforcement/</guid><description>本文介绍了多智能体强化学习（MARL）在多智能体系统（MAS）中的应用：理论、算法、应用与展望。</description></item></channel></rss>