Papers on Peng Tan's AI Blog

Papers on Peng Tan's AI Bloghttps://68e49aad.hobbytp-github-io.pages.dev/zh/categories/papers/一个关注 AI 各领域的专题博客DeepSeekMath-V2 技术白皮书：迈向自验证数学推理https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseekmath_v2/Sat, 29 Nov 2025 12:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseekmath_v2/本文介绍了DeepSeekMath-V2，旨在克服传统上依赖最终答案的数学推理奖励机制的局限性。其核心创新在于通过训练一个专门的证明验证器来评估推导的逻辑严谨性，从而实现自我可验证的数学推理能力。该系统引入了元验证过程，以确保验证器识别的错误是准确的，并利用此验证器作为奖励模型来训练生成器进行自我评估和迭代优化。这种生成与验证的协同作用创建了一个循环，通过扩展计算规模来自动标注难以验证的新证明，从而提高了系统的能力。AI的“知识僵化症”有救了？揭秘MIT自适应大模型SEALhttps://68e49aad.hobbytp-github-io.pages.dev/zh/papers/mit_seal/Wed, 29 Oct 2025 14:20:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/mit_seal/麻省理工学院（MIT）的一项开创性研究，为我们揭示了这场进化的具体路径。他们推出了一个名为 **SEAL (Self-Adapting Large Language Models，自适应大语言模型)** 的框架。这套框架首次赋予了AI模型一种前所未有的能力：它们可以“自己教自己”，通过生成和应用自己的学习材料，来持续进化其内部的知识体系。Verbalized Sampling: 言语采样提升模型多样性https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/verbalize_sampling/Mon, 27 Oct 2025 20:22:48 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/verbalize_sampling/Verbalized Sampling: 言语采样提升模型多样性Meta: 提示词对决优化器 (PDO)https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/prompt_duel_optimizer/Sun, 26 Oct 2025 20:22:48 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/prompt_duel_optimizer/这篇由Meta和宾夕法尼亚州立大学的研究者发布的论文提出了一种创新的、无需人工标注数据的提示词优化方法。DeepSeek-OCR：重塑AI长文本处理https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_ocr/Tue, 21 Oct 2025 20:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_ocr/本文介绍了DeepSeek-OCR，一种革命性的AI模型，能够将长文本处理效率提升数十倍，从而实现对超长文档的快速处理。Agent训练新范式：Agent Learning via Early Experiencehttps://68e49aad.hobbytp-github-io.pages.dev/zh/meta/agent_learn_by_early_experience/Tue, 14 Oct 2025 18:00:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/meta/agent_learn_by_early_experience/传统AI训练像是把人类所有的知识都强行灌输AI，而Meta的最新论文《Agent Learning via Early Experience》为我们展示了一条训练AI智能体的新路径: 可扩展、无需奖励的实用范式，通过将智能体自身的行为和结果转化为强大的监督信号，显著提升了AI的性能、数据效率和泛化能力。AI Context Engineering领域若干重要论文https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/context_engineering_collection/Sun, 12 Oct 2025 20:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/context_engineering_collection/这里将收集Context Engineering相关的重要文献，具体解读将在其他博客展开。小模型逆袭：秘密武器竟是给AI一本不断变厚的“攻略”https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/agentic_context_engineering/Sat, 11 Oct 2025 20:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/agentic_context_engineering/该论文介绍了一个名为 ACE(Agentic Context Engineering，代理上下文工程) 的框架，该框架旨在通过演化上下文而非微调模型权重的方式，实现大型语言模型（LLMs）的自我改进。ACE将上下文视为不断累积、提炼和组织策略的 “演化剧本”，从而克服了现有上下文适应方法中存在的简洁性偏差和上下文崩溃等主要限制。通过使用生成器、反射器和策展器这三个代理组件，ACE实现了增量更新和“增长与提炼”机制，以保持详细的领域知识并提高可扩展性。实验结果表明，ACE在代理基准测试和金融等领域特定任务中显著优于现有基线方法，同时还能大幅降低适应的延迟和成本。AI for Research Surveyhttps://68e49aad.hobbytp-github-io.pages.dev/zh/papers/ai_for_research_survey/Sun, 06 Jul 2025 23:03:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/ai_for_research_survey/AI for Research Survey. 这篇综述文章概述了人工智能在科学研究（AI4Research）中的应用，强调了大型语言模型（LLMs）在促进科学发现各个阶段的潜力。它建立了一个系统的分类体系，将AI4Research分解为五个主要任务：科学理解、学术调查、科学发现、学术写作和学术同行评审。文章详细介绍了AI在这些领域中的具体应用，例如辅助思想挖掘、实验设计、数据分析、论文撰写和同行评审。此外，该综述还识别了未来的研究方向，包括跨学科AI模型、伦理考量以及多模态和多语言集成，旨在为研究界提供资源并激发AI驱动的科学创新。Reflect, Retry, Reward: 大型语言模型的自我进化新范式https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/reflect_retry_reward_rl_finetunning/Fri, 04 Jul 2025 22:30:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/reflect_retry_reward_rl_finetunning/Reflect, Retry, Reward: 大型语言模型的自我进化新范式深度研究智能体：系统性审查与路线图https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/deep_research_agents_sys_exam_roadmap/Tue, 01 Jul 2025 23:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/deep_research_agents_sys_exam_roadmap/本文介绍了深度研究智能体：系统性审查与路线图。Gemini - 通用智能体是否需要世界模型https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/agents_need_world_models/Thu, 05 Jun 2025 22:20:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/agents_need_world_models/本文探讨了通用智能体是否需要世界模型才能实现灵活的、面向目标的行为OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinkinghttps://68e49aad.hobbytp-github-io.pages.dev/zh/papers/omnithink/Sun, 01 Jun 2025 22:20:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/omnithink/本文介绍了OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking。从人工标注到自我迭代：大模型工具学习的动态文档优化新范式https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/tool_learn_draft/Sun, 25 May 2025 22:20:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/tool_learn_draft/本文介绍了从人工标注到自我迭代：大模型工具学习的动态文档优化新范式。Reinforced Self-play Reasoning with Zero Data 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/training/reinforced_selfplay_reasoning_w_zero_data/Sun, 11 May 2025 20:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/training/reinforced_selfplay_reasoning_w_zero_data/论文介绍了强化自博弈推理的零数据范式，通过自博弈生成任务和验证，实现无需依赖人工标注数据或预设任务的自主学习推理。Chain of Draft 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/cod-chain-of-draft/Sat, 01 Mar 2025 20:00:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/papers/cod-chain-of-draft/本文介绍了Chain of Draft（CoD）论文，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。Test-Time Scaling 相关论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/training/test_time_scaling/Wed, 19 Feb 2025 16:40:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/training/test_time_scaling/本文介绍了Test-Time Scaling（测试时扩展）的概念，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。DeepSeek V3 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_v3/Fri, 14 Feb 2025 18:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_v3/本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型DeepSeek-V3，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。DeepSeek 微调https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek-finetuning/Fri, 14 Feb 2025 18:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek-finetuning/本文介绍了如何使用合成推理数据集微调DeepSeek-R1模型.Simple Test-Time Scaling 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/training/s1_simple_testtimescaling/Mon, 10 Feb 2025 21:36:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/training/s1_simple_testtimescaling/本文介绍了来自李飞飞团队的Simple Test-Time Scaling论文，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。DeepSeek R1 论文解读https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_r1/Mon, 10 Feb 2025 20:10:00 +0800https://68e49aad.hobbytp-github-io.pages.dev/zh/deepseek/deepseek_r1/本文介绍了深度求索（DeepSeek）公司推出的新一代推理模型DeepSeek-R1，并对其技术原理、主要贡献、论文方法、评估结果和局限性进行了详细解读。