Training on Peng Tan's AI Blog

Training on Peng Tan's AI Bloghttps://68e49aad.hobbytp-github-io.pages.dev/zh/categories/training/一个关注 AI 各领域的专题博客DeepSeekMath-V2 技术白皮书：迈向自验证数学推理https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseekmath_v2/Sat, 29 Nov 2025 12:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseekmath_v2/本文介绍了DeepSeekMath-V2，旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性，从而实现自我可验证的数学推理能力。该系统引入了元验证过程，以确保验证器识别的错误是准确的，并利用此验证器作为奖励模型来训练生成器进行自我评估和迭代优化。这种生成与验证的协同作用创建了一个循环，通过扩展计算规模来自动标注难以验证的新证明，从而提高了系统的能力。Reflect, Retry, Reward: 大型语言模型的自我进化新范式https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/reflect_retry_reward_rl_finetunning/Fri, 04 Jul 2025 22:30:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/reflect_retry_reward_rl_finetunning/Reflect, Retry, Reward: 大型语言模型的自我进化新范式Reinforced Self-play Reasoning with Zero Data 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/training/reinforced_selfplay_reasoning_w_zero_data/Sun, 11 May 2025 20:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/training/reinforced_selfplay_reasoning_w_zero_data/论文介绍了强化自博弈推理的零数据范式，通过自博弈生成任务和验证，实现无需依赖人工标注数据或预设任务的自主学习推理。多智能体强化学习（MARL）在多智能体系统（MAS）中的应用：理论、算法、应用与展望https://68e49aad.hobbytp-github-io.pages.dev/zh/mas/mas_reinforcement/Sat, 26 Apr 2025 20:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/mas/mas_reinforcement/本文介绍了多智能体强化学习（MARL）在多智能体系统（MAS）中的应用：理论、算法、应用与展望。微调https://68e49aad.hobbytp-github-io.pages.dev/zh/training/finetuning/Wed, 26 Feb 2025 22:14:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/training/finetuning/本文介绍了微调的常见挑战及其克服方法，并详细介绍了如何使用Unsloth在消费级GPU上对DeepSeek-R1进行微调。Test-Time Scaling 相关论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/training/test_time_scaling/Wed, 19 Feb 2025 16:40:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/training/test_time_scaling/本文介绍了Test-Time Scaling（测试时扩展）的概念，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。DeepSeek V3 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_v3/Fri, 14 Feb 2025 18:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_v3/本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型DeepSeek-V3，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。DeepSeek 微调https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek-finetuning/Fri, 14 Feb 2025 18:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek-finetuning/本文介绍了如何使用合成推理数据集微调DeepSeek-R1模型.Simple Test-Time Scaling 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/training/s1_simple_testtimescaling/Mon, 10 Feb 2025 21:36:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/training/s1_simple_testtimescaling/本文介绍了来自李飞飞团队的Simple Test-Time Scaling论文，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。DeepSeek R1 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_r1/Mon, 10 Feb 2025 20:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_r1/本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型DeepSeek-R1，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。