Agent Lightning

https://microsoft.github.io/agent-lightning/latest/

RAGEN

https://gemini.google.com/app/9ece70bdfdaea0dc …

Agent Lightning

https://microsoft.github.io/agent-lightning/latest/

RAGEN

https://gemini.google.com/app/9ece70bdfdaea0dc

RAGEN 是一个利用强化学习训练 LLM 推理代理的系统，旨在解决多回合互动和随机环境中的挑战。该项目通过 StarPO 框架优化轨迹级别的推理和行动策略。RAGEN 的模块化设计包括环境状态管理器、上下文管理器和代理代理，支持多种环境和实验。项目强调了其在不同环境复杂性中的泛化能力，并提供了详细的设置和评估指南。

RAGEN是开源的强化学习框架，用于在交互式、随机环境中训练大型语言模型（LLM）推理Agent。基于StarPO（State-Thinking-Action-Reward Policy Optimization）框架，通过多轮交互优化整个轨迹，支持PPO、GRPO等多种优化策略。RAGEN通过MDP形式化Agent与环境的交互，引入渐进式奖励归一化策略，有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化，分为环境管理器、上下文管理器和代理代理三个模块，方便扩展和实验。支持多种环境，如Sokoban、FrozenLake等，展示了良好的泛化能力。 RAGEN的主要功能

多轮交互与轨迹优化：RAGEN通过StarPO（State-Thinking-Actions-Reward Policy Optimization）框架，将Agent与环境的交互形式化为马尔可夫决策过程（MDP），优化整个交互轨迹，不仅是单步动作。全轨迹优化策略有助于Agent在复杂环境中做出更合理的决策。强化学习算法支持：RAGEN支持多种强化学习算法，包括PPO、GRPO和BRPO等，为研究者提供了灵活的算法选择。易于扩展的环境支持：RAGEN支持多种环境，包括Sokoban、FrozenLake等，提供了添加自定义环境的接口，方便研究者进行实验。稳定性和效率提升：RAGEN通过基于方差的轨迹过滤、引入“评论家”以及解耦裁剪等技术，有效提高了训练的稳定性和效率。

RAGEN的技术原理

MDP形式化：RAGEN将Agent与环境的交互形式化为马尔可夫决策过程（MDP），其中状态和动作是token序列。支持LLM对环境动态进行推理。 StarPO框架：框架通过两个交替阶段进行训练：

Rollout阶段：给定初始状态，LLM生成多条推理引导的交互轨迹，每一步接收轨迹历史并生成动作。 Update阶段：生成轨迹后，使用重要性采样优化整个轨迹的预期奖励，非单步优化，实现长远推理。

优化策略：StarPO支持多种强化学习算法，如PPO（近端策略优化）和GRPO（归一化奖励策略优化），适应不同的训练需求。渐进式奖励归一化策略：为解决多轮训练中的不稳定性，RAGEN引入了基于不确定性的过滤、移除KL惩罚和不对称PPO裁剪等策略。模块化设计：RAGEN采用模块化架构，包括环境状态管理器、上下文管理器和Agent代理，便于扩展和定制。

RAGEN的项目地址

项目官网：https://ragen-ai.github.io/ Github仓库：https://github.com/RAGEN-AI/RAGEN 技术论文：https://ragen-ai.github.io/pdf/RAGEN.pdf

RAGEN的应用场景

智能对话系统：RAGEN可用于训练对话系统，在与用户的交互中具备更好的推理能力，提供更加自然和准确的回答。游戏AI：在复杂、动态的游戏环境中，RAGEN可以帮助Agent进行合理的策略规划和执行。自动化推理：RAGEN可以应用于数学问题解答、编程任务等自动化推理场景，提高系统解决问题的能力。企业知识管理：RAGEN可以用于企业内部文档助手，从公司Wiki、会议纪要中定位信息，生成项目报告或会议摘要。法律咨询：在法律领域，RAGEN可以匹配相关法律条文和判例，用通俗语言解释法律风险。内容创作：RAGEN可以用于技术博客撰写、新闻报道生成等场景。通过检索GitHub代码示例、技术文档等，RAGEN能整合信息输出结构化的教程。

VAGEN

Code: https://github.com/RAGEN-AI/VAGEN
Blog: https://mll-lab.notion.site/vagen
Experiment Log: https://api.wandb.ai/links/ragen-V/nlb40e7l

VAGEN (框架层面)

VAGEN 本身的主要创新在于它是一个专门为训练视觉语言模型（VLM）代理而设计的多回合强化学习（RL）框架。它认识到现有针对纯语言模型（LLM）代理的 RL 框架（如 RAGEN 等使用的 RICO 算法）在应用于 VLM 代理时存在局限性，特别是在处理视觉信息和多回合交互方面。

TRICO (算法层面)

TRICO (Turn-aware Reason-Interaction Chain Optimization) 是 VAGEN 框架内的核心算法，它在 RICO 的基础上进行了针对 VLM 代理的优化，其主要创新点体现在以下两个方面：

📅 0001-01-01 ⏱️ 1 分钟 📝 155 字

参考

-一份全面的AI Agent知识地图

https://zilliz.com/blog/top-10-ai-agents-to-watch-in-2025 12 Best AI Agents You Need to Try in …

参考

-一份全面的AI Agent知识地图

https://zilliz.com/blog/top-10-ai-agents-to-watch-in-2025 12 Best AI Agents You Need to Try in 2025 https://medium.com/%40elisowski/a-list-of-ai-agents-set-to-dominate-in-2025-028f975c5b99 https://explodingtopics.com/blog/ai-agents

📅 0001-01-01 ⏱️ 1 分钟 📝 16 字

npm install -g @githubnext/github-copilot-cli

copilot auth login

npm install -g @githubnext/github-copilot-cli

copilot auth login

📅 0001-01-01 ⏱️ 1 分钟 📝 7 字

AI Skill Resource 为每个组织、每个岗位以及每位学习者找到合适的成长路径。立即在工作中开启人工智能带来的机遇，为未来热门岗位做好准备。

Artificial Intelligence for Beginners - A …

AI Skill Resource 为每个组织、每个岗位以及每位学习者找到合适的成长路径。立即在工作中开启人工智能带来的机遇，为未来热门岗位做好准备。

Artificial Intelligence for Beginners - A Curriculum 通过为期 12 周、包含 24 节课的课程，探索人工智能（AI）的世界！课程包含实践课、测验和实验。该课程适合初学者，涵盖 TensorFlow 和 PyTorch 等工具，以及人工智能伦理等内容。

Microsoft AI Skills Youtube Channel

📅 0001-01-01 ⏱️ 1 分钟 📝 25 字

做手办

绘制这张图中角色的1/7比例商业化手办，写实风格，真实环境。手巾摆放在电脑桌上，配有圆形透明亚克力底座，底座上无文字。电脑桌旁边放置一只印有原画风格插画的精美玩具包装盒。

数字人

transform the image to …

做手办

绘制这张图中角色的1/7比例商业化手办，写实风格，真实环境。手巾摆放在电脑桌上，配有圆形透明亚克力底座，底座上无文字。电脑桌旁边放置一只印有原画风格插画的精美玩具包装盒。

数字人

transform the image to Ghibli/3D Carton/Chibi Style

📅 0001-01-01 ⏱️ 1 分钟 📝 10 字

This article details a project aiming to recreate the heroes of the Han Dynasty within 15 days, challenging the limits …

This article details a project aiming to recreate the heroes of the Han Dynasty within 15 days, challenging the limits of Wan2.2. It involves various aspects of content creation, including music, scripting, image generation, video production, and the use of robust prompting techniques. Key points include: 1. Creation Motivation: Participate in the competition after the release of Wan2.2, be inspired by film analysis, and experiment with accumulated prompts. 2. Music Creation: Select Suno as the tool, input prompts, edit and remix unsatisfactory segments, and export multi - track music for later use in video editing. 3. Script and Storyboard: Only determine the general framework based on music and theme, and improve through continuous practice. 4. Image Generation: Choose image - to - video for better consistency. Use Midjourney for consistency, design character settings, and experiment with style prompts. 5. Video Production: Understand models from official documents, select videos based on performance and viewing experience, and use tools for high - definition enlargement and frame - filling. 6. Robust Prompting: Construct prompts using the RTF structure, ensure comprehensive and clear information, use positive expressions, and enhance model performance with few - shot examples. 7. Multiple Prompting Assistants: There are different prompting assistants for text - to - image, video generation, and seamless transition design between start and end frames, each with its own workflow and rules.

📅 0001-01-01 ⏱️ 2 分钟 📝 257 字

“AGI is not possible even in 10 years” 听起来像是单纯的情绪化表达，但是当前我们听完一圈真正科技大咖们的观点后，也许就能理解，这是基于当前Transformer架构的物理和数学局 …

“AGI is not possible even in 10 years” 听起来像是单纯的情绪化表达，但是当前我们听完一圈真正科技大咖们的观点后，也许就能理解，这是基于当前Transformer架构的物理和数学局限性，提出的非常硬核的论证。

核心论点是：AGI（通用人工智能）在未来10年内都不太可能实现，目前的“2-3年实现论”更多是商业博弈而非技术现实。

以下是相关的论据拆解和逻辑推演：

1. 权威背书：构建者与售卖者的认知割裂

在AI界，有一个有趣的现象：CEO们在画饼，而顶级研究员在预警。

Yann LeCun (Meta首席科学家):
- 论点： 现有的LLM（大语言模型）完全缺失了“世界模型”。
- 论据： 人类的知识大部分来自与物理世界的互动（重力、触感、因果律），而非文本。LLM只是文本的统计学拟合，它们“读过”关于游泳的书，但从未下过水。这不仅是数据缺失，是根本性的认知缺陷。
Ilya Sutskever (OpenAI联合创始人/SSI创始人):
- 论点： “Scaling Law（缩放定律）时代”正在结束，我们回到了“研究时代”。
- 论据： 单纯堆算力和数据已经无法带来质变。AGI现在是一系列未解的科学问题，而不是只要把旋钮调大就能解决的工程问题。
Andrej Karpathy (前Tesla AI总监):
- 论点： 我们面临的是“Agent的十年”，而非“Agent的一年”。
- 论据： 目前的Agent只能处理样板代码，缺乏处理新颖问题的认知能力。它们无法像实习生那样“在工作中学习”，只会死循环地重复错误。

2. 技术瓶颈：Transformer架构的“阿喀琉斯之踵”

当前的Transformer架构无法逾越的三座大山：

A. 二次关注度问题 (The Quadratic Attention Problem)

现象： Transformer的核心机制——注意力机制（Attention）具有二次复杂度（$O(n^2)$）。
推演： 上下文长度翻倍，计算成本是四倍。虽然有稀疏注意力（Sparse Attention）或滑动窗口等优化，但这牺牲了模型捕捉长距离复杂关联的能力。
结论： 无论是处理整个公司的代码库还是全人类的医学知识，现有的上下文窗口（Context Window）在物理算力上是不可持续的。

B. “思考”的伪象 (The Thinking Problem)

现象： LLM本质是“Token预测机”，它是概率性的自动补全，而非逻辑推理。
推演：
- 算力分配不均： 模型计算“2+2=”和“证明黎曼猜想”所消耗的每个Token的算力是一样的。
- 缺乏系统2思维： 人类遇到难题会停下来思考（System 2），而模型无法自主决定“这里我需要多想一会儿”。虽然Chain of Thought (CoT) 是一种补救，但它更像是一种Prompt工程技巧，而非模型内在的认知架构。

C. 学习的停滞 (The Learning Problem)

现象： 模型权重（Weights）在训练后是冻结的。
推演：
- 上下文 $\neq$ 记忆： 你在对话框里教它的东西，只存在于临时的上下文窗口中。窗口一关，记忆即逝。
- 缺乏突触可塑性： 人类实习生犯错后，神经元连接会物理性改变（学习）。AI系统无法在推理阶段（Inference）实时更新权重。这意味着它无法像人类一样进行“持续学习”（Continuous Learning）。

3. 现实差距：“锯齿状”能力 (Jagged Intelligence)

文章引用了Sutskever的术语“Jaggy”（锯齿状）来描述当前AI的状态：

📅 0001-01-01 ⏱️ 1 分钟 📝 138 字

如何使用AI和认知科学来提升工作效率并防止“认知负债”

5W2H分析法：

是什么：认知负债是指由于信息过载、注意力分散、决策失误等原因，导致人们无法有效地处理信息，从而影响工作效率和决策质量。
为什么：信息过载、注意力分散、决策失误等原 …

如何使用AI和认知科学来提升工作效率并防止“认知负债”

5W2H分析法：

是什么：认知负债是指由于信息过载、注意力分散、决策失误等原因，导致人们无法有效地处理信息，从而影响工作效率和决策质量。
为什么：信息过载、注意力分散、决策失误等原因，导致人们无法有效地处理信息，从而影响工作效率和决策质量。
谁：人们
何时：在工作中
何地：在工作中
如何：使用AI和认知科学来提升工作效率并防止“认知负债”

什么是认知负债

什么是信息过载

认知负债的来源

信息过载：工作环境中存在大量的信息，导致人们无法及时识别和处理重要信息。
注意力分散：工作环境中存在多个任务或项目，导致人们无法集中注意力只处理当前任务。
决策失误：人们在处理信息时，可能会根据自己的判断或惯性做出错误的决策，导致决策质量下降。
长期依赖：人们在处理信息时，可能会依赖于旧有的知识或技能，导致新的信息无法及时被接受。
工作环境变化：工作环境中存在变化，导致人们需要重新学习和适应新的工作环境。
个人能力限制：人们的能力有限，情绪波动、认知偏差、知识库不完整、经验不足导致无法处理复杂的任务或信息。

为什么AI工具的不正确使用会导致认知负债？

谁在什么情况下如何使用AI工具做什么样的事情会导致认知负债？