LLM on Peng Tan's AI Blog

DeepSeekMath-V2 技术白皮书：迈向自验证数学推理

Sat, 29 Nov 2025 12:10:00 +0800

本文介绍了DeepSeekMath-V2，旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性，从而实现自我可验证的数学推理能力。该系统引入了元验证过程，以确保验证器识别的错误是准确的，并利用此验证器作为奖励模型来训练生成器进行自我评估和迭代优化。这种生成与验证的协同作用创建了一个循环，通过扩展计算规模来自动标注难以验证的新证明，从而提高了系统的能力。

AI的“知识僵化症”有救了？揭秘MIT自适应大模型SEAL

Wed, 29 Oct 2025 14:20:00 +0800

麻省理工学院（MIT）的一项开创性研究，为我们揭示了这场进化的具体路径。他们推出了一个名为 **SEAL (Self-Adapting Large Language Models，自适应大语言模型)** 的框架。这套框架首次赋予了AI模型一种前所未有的能力：它们可以“自己教自己”，通过生成和应用自己的学习材料，来持续进化其内部的知识体系。

Verbalized Sampling: 言语采样提升模型多样性

Mon, 27 Oct 2025 20:22:48 +0800

Verbalized Sampling: 言语采样提升模型多样性

Meta: 提示词对决优化器 (PDO)

Sun, 26 Oct 2025 20:22:48 +0800

这篇由Meta和宾夕法尼亚州立大学的研究者发布的论文提出了一种创新的、无需人工标注数据的提示词优化方法。

强化学习的奠基人的惊人警告：为什么说LLM可能是一条死胡同？

Thu, 02 Oct 2025 09:10:00 +0800

强化学习的奠基人惊人警告：为什么说LLM可能是一条死胡同？

Gemini 2.5 Pro 在 IMO 2025 中的高级数学推理能力评估

Thu, 14 Aug 2025 22:10:00 +0800

Gemini 2.5 Pro 在 IMO 2025 数学奥林匹克竞赛中取得优异成绩，关键在于结合了强大的数学推理能力与自我验证迭代流程，有效避免逻辑错误和表面化思维，实现了接近人类专家的严谨解题表现。

Claude-Code-Router：AI 时代的智能路由中枢

Tue, 12 Aug 2025 22:10:00 +0800

Claude-Code-Router (CCR) 是一款创新的AI模型智能路由工具，它通过拦截Claude Code 应用对Anthropic Claude模型的请求，进行多维度分析（如Token数量、用户指令、任务类型），然后依据动态路由规则和配置，将请求智能地导向最合适的AI模型（来自如Gemini、DeepSeek、本地Ollama模型等不同的模型服务提供商）。CCR的核心机制包括API格式的自动转换与适配、基于Express.js的中间件架构、异步请求处理，以及完善的错误检测、自动降级到兜底模型和潜在的重试策略，旨在提升AI服务调用的效率、灵活性和成本效益。

深入解析 Claude-Code-Router：AI 时代的智能路由中枢

1. 引言：AI 服务智能路由的新范式

在人工智能（AI）技术飞速发展的今天，大语言模型（LLM）已成为推动各行各业变革的核心引擎。然而，随着模型数量的激增以及它们在能力、性能和成本上的显著差异，如何高效、智能地管理和调度这些模型，以最大化其价值并满足多样化的应用需求，成为了一个亟待解决的关键问题。传统的单一模型服务模式已难以适应日益复杂的应用场景，开发者常常需要在不同模型的 API 之间进行繁琐的切换和适配，这不仅增加了开发成本，也限制了应用的整体性能和灵活性。正是在这样的背景下，Claude-Code-Router (CCR) 应运而生，它代表了一种全新的 AI 服务智能路由范式。CCR 通过其精心设计的核心算法与架构，特别是其智能路由决策机制、请求转换与转发策略以及错误处理与降级策略，为多模型的高效协作与按需调度提供了强大的技术支撑。本文将深入探讨 CCR 的这些核心技术，旨在为资深技术专家和架构师提供一个全面而深入的理解，以便更好地评估和应用此类智能路由解决方案，从而在 AI 时代构建更强大、更灵活、更经济的应用系统。

2. Claude-Code-Router 核心机制总览

Claude-Code-Router (CCR) 的核心机制围绕着如何智能地拦截、分析、路由、转换和转发用户请求到最合适的 AI 模型，并将模型的响应有效地返回给用户。这一过程可以概括为一个精细化的处理流水线，确保了请求在整个生命周期中得到高效和准确的处理。CCR 的设计理念在于解耦用户请求与具体模型服务，通过一个中间层来动态管理请求的流向，从而实现模型选择的灵活性、成本的可控性以及服务的鲁棒性。这个中间层，即 CCR 本身，扮演着 AI 服务智能交通枢纽的角色，根据实时的请求特性和预设的策略，将任务分配给最匹配的模型实例。

2.1. 请求拦截与预处理

CCR 的首要步骤是有效地拦截来自客户端（例如 Claude Code 工具）的 API 请求。这是通过一种巧妙的环境变量劫持机制实现的。具体而言，CCR 利用了 Claude Code 工具本身支持通过环境变量 ANTHROPIC_BASE_URL 来覆盖其默认 API 端点地址的特性。通过设置此环境变量，可以将原本直接发送给 Anthropic 官方 API 的请求，重定向到 CCR 本地运行的服务器地址（例如 http://localhost:3456 ）。这种拦截方式无需修改 Claude Code 工具的源代码，实现了对请求流的无侵入式接管，极大地简化了部署和集成过程。一旦请求被成功拦截到 CCR 的本地服务，预处理阶段随即开始。这个阶段主要包括对传入请求的初步校验、日志记录以及为后续的智能路由决策准备必要的上下文信息。例如，CCR 可能会提取请求头中的关键信息，或者对请求体进行初步解析，以确保请求的完整性和有效性，并为后续的分析步骤提供基础数据。

Context Engineering

Tue, 12 Aug 2025 22:10:00 +0800

Context Engineering 是大型语言模型（LLM）应用中的系统性技术，旨在通过动态构建、管理和优化输入模型的信息负载（包括指令、记忆、工具输出、外部知识等），提升模型在复杂任务中的性能、稳定性和可靠性。

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

Fri, 04 Jul 2025 22:30:00 +0800

Reflect, Retry, Reward: 大型语言模型的自我进化新范式

Llama 4 模型系列

Thu, 03 Apr 2025 16:10:00 +0800

本文介绍了Llama 4 模型系列详细解读。

DeepSeek 开源 LLM 对闭源 LLM 的影响

Tue, 18 Feb 2025 23:20:00 +0800

本文介绍了DeepSeek开源LLM对闭源LLM的影响，包括性能基准测试和竞争、成本效益、开源可用性和定制、市场动态和战略转变、创新与社区发展、环境影响以及AI研究和应用的转变。