多智能体社会模拟的最新研究动态

在多智能体系统(MAS)和社会模拟领域,最近有几个重要的项目和研究方向引起了广泛关注。以下是一些关键的项目和研究方向的概述:

1. 斯坦福大学 (Stanford) - “Generative …

多智能体社会模拟的最新研究动态

在多智能体系统(MAS)和社会模拟领域,最近有几个重要的项目和研究方向引起了广泛关注。以下是一些关键的项目和研究方向的概述:

1. 斯坦福大学 (Stanford) - “Generative Agents” 项目

  • 核心研究: 这个项目名为 “Generative Agents: Interactive Simulacra of Human Behavior” (生成式智能体:人类行为的交互式模拟),由斯坦福大学和 Google 的研究人员(包括 Joon Sung Park, Joseph C. O’Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein)于 2023 年 4 月左右发表(主要通过 arXiv 预印本传播)。
  • 模拟环境: 他们创建了一个名为 “Smallville” 的虚拟小镇沙盒环境,其中包含 25 个由大型语言模型(主要是 GPT-3.5)驱动的智能体。
  • 关键架构: 为了让智能体表现得像真实人类一样具有连贯性和记忆,他们设计了一个创新的智能体架构,主要包括:
    • 记忆流 (Memory Stream): 一个长期记忆模块,记录智能体的所有观察和经历。记忆条目会根据近时性 (Recency)重要性 (Importance)相关性 (Relevance) 进行检索。
    • 反思 (Reflection): 智能体会周期性地回顾自己的记忆,并生成更高层次的思考和总结,形成更抽象的见解,这些见解也会存入记忆流。
    • 规划 (Planning): 智能体能够制定长期目标和日常计划,并根据当前情况动态调整。计划会分解成具体的行动。
  • 目标与成果: 主要目标是探索能否创造出可信的 (believable) 人类社会行为模拟。研究成功展示了这些智能体可以自主地执行日常活动(起床、工作、做饭、社交),形成新的人际关系,协调活动(例如,自发地组织并举办情人节派对),并在小镇中传播信息。
  • 影响: 这项工作被认为是 LLM 驱动的智能体和社会模拟领域的开创性研究,极大地激发了后续的研究热情和框架开发(可能也包括 OASIS 和 TinyTroupe 等),因为它展示了 LLM 在模拟复杂、涌现社会行为方面的潜力。该项目的代码也已公开。

2. 其他大学项目/研究

📅 0001-01-01 ⏱️ 2 分钟 📝 258 字

当然,以下是修改后的技术中文内容,准备发布:

大模型 RAG(检索增强生成)应用演进之路与技术解析

大型语言模型(LLM)的检索增强生成(RAG)应用,其演进历程是一部不断突破局限、追求卓越性能与灵活性的奋斗史。从最初的朴素检索到如今的模 …

当然,以下是修改后的技术中文内容,准备发布:

大模型 RAG(检索增强生成)应用演进之路与技术解析

大型语言模型(LLM)的检索增强生成(RAG)应用,其演进历程是一部不断突破局限、追求卓越性能与灵活性的奋斗史。从最初的朴素检索到如今的模块化智能系统,RAG 应用在每个阶段都取得了显著进展。本文将深入剖析这一演进过程,揭示其技术细节与未来趋势。1

核心论断

RAG 应用的演进,可概括为从 Naive RAG 的基础检索生成,到 Advanced RAG 的精细优化,再到 Modular RAG 的灵活组合这三大阶段。每个阶段均致力于提升检索精度、生成内容相关性及系统适应性,以应对日益复杂的应用场景。2

1. 朴素 RAG(Naive RAG):奠基石

  • 核心框架:索引、检索、生成三大基石,构建了从外部知识库获取信息并生成答案的基本流程。
  • 技术实现细节
    • 索引过程:离线执行,原始文档经过清洗与分块处理,随后通过 Embedding 模型将文本块转化为向量,并构建向量索引。
    • 检索过程:用户 Query 的 Embedding 向量与文档块的 Embedding 向量进行相似度计算,遴选出相似度最高的若干文档块作为增强上下文。
    • 生成过程:原始 Query 与检索到的相关文档块合并为 Prompt,输入至大型语言模型,生成最终答案。3
  • 挑战
    • 索引质量:关键词易被大量无效信息淹没,导致检索效果欠佳;内容块的语义信息易受分割方式影响,关键信息可能遗失。
    • 检索精度:用户 Query 的表达方式与知识库索引内容可能存在偏差,导致检索结果不准确;单纯依赖向量相似度计算,缺乏对 Query 与文档间深层关系的理解。
    • 生成幻觉:当检索不到相关知识或检索知识质量较差时,大型语言模型可能自主生成不准确或不相关的内容,即产生“幻觉”。4
  • 实际应用案例
    • 智能客服:在简单的客户咨询场景中,通过检索预设知识库,为用户提供常见问题解答。
  • 局限性:无法处理复杂的语义关系和多轮对话,易受噪声信息干扰,生成内容缺乏深度与创新性。

2. 高级 RAG(Advanced RAG):精雕细琢

  • 核心目标:通过在检索前、检索中、检索后增加优化策略,提升检索精度与生成内容的相关性。
  • 技术实现细节
    • 检索前优化(Pre-Retrieval)
      • 索引优化
        • 索引降噪:依据业务特点,剔除索引数据中的无效成分,凸显核心知识。例如,从“如何在 github.com 下载源代码”中提取“下载源代码”、“github”等核心信息。
        • 知识切分:训练专门的语义理解小模型,将较长文本按照语义内聚性切分为更小的块。例如,使用滑动窗口技术,确保上下文信息的完整性。
        • 元数据增强:增加内容摘要、时间戳、关键词等附加信息,丰富知识库,提高检索准确性。例如,添加章节引用、关键信息、小节标题等作为元数据。
      • 查询改写(Query Rewriting)
        • Query 分解:将复杂问题分解为多个子问题,分别进行检索。例如,将“请详细介绍 RAG”分解为“RAG 的概念是什么?”、“RAG 的原理是怎样的?”等。
        • Query 扩展:将问题转化为多种不同的问法,提高检索覆盖率。例如,使用 LLM 模型对用户初始查询进行改写生成多个查询,再进行多路搜索召回。
    • 检索时优化(Retrieval)
      • 嵌入模型微调(Embedding Fine-tuning):将 Embedding 模型定制为特定领域的上下文,提高语义相似度计算的准确性。例如,在专业术语浓度高的场景中,对嵌入模型进行微调。
    • 检索后优化(Post-Retrieval)
      • 提示压缩(Prompt Compression):删除检索到的内容块中的无关信息,凸显重要上下文,减少噪声干扰。
      • 重新排序(Re-ranking):使用专门的排序模型,重新计算上下文的相关性得分,提高生成内容的质量。例如,使用 Cohere 模型考虑查询意图、词汇多重语义、用户历史行为等特征。
  • 挑战
    • 数据质量:依赖于高质量的原始数据和文档,数据质量欠佳将严重影响优化效果,即“Garbage in, garbage out”。
    • 结构化数据处理:难以有效处理表格、数据库等结构化数据,无法捕捉实体间的复杂关系与层次结构。5
  • 实际应用案例
    • 金融智能投研:通过优化检索策略,从海量研报和新闻资讯中提取关键信息,为投资者提供更精准的投资建议。
  • 关键技术
    • Query 改写:利用大型语言模型对用户 Query 进行语义分析和转换,使其更符合知识库的检索要求。例如,将“如何评价某公司的新产品”改写为“某公司新产品特点分析”、“某公司新产品市场前景”。
    • 嵌入模型微调:使用特定领域的数据对 Embedding 模型进行微调,使其更好地捕捉领域内的语义信息。例如,在医疗领域,使用医学文献对 Embedding 模型进行训练,提高医学术语的识别能力。6

3. 模块化 RAG(Modular RAG):运筹帷幄

  • 核心目标:将 RAG 系统拆分为多个独立模块,实现更高的灵活性和可维护性,并根据不同应用场景和需求,灵活组合和配置这些模块。
  • 框架:在高级 RAG 的基础上,增加编排(Orchestration)环节,实现对整个 RAG 流程的智能控制。
  • 技术实现细节
    • 索引模块
      • 块优化(Chunk Optimization)
        • 滑动窗口(Sliding Window):将文档分割为多个滑动窗口,每个窗口包含多个连续的句子,保证上下文的完整性。
        • 增加元数据(Add Metadata):为每个内容块增加页码、文件名、作者、时间戳等元数据,提高检索的准确性。
      • 结构组织(Structural Organization)
        • 多级索引(Multi-Level Indexing):创建多个索引,例如文档摘要索引和文档块索引,分步进行检索,提高效率。例如,先通过摘要过滤相关文档,再在相关组内搜索。
        • 知识图谱(Knowledge Graph):利用知识图谱对数据集建立索引,提取实体和实体之间的关系,构建全局性的知识网络。例如,提取实体(Entity)及实体之间的关系(Relationship),构建全局性优势。
    • 预检索模块
      • 查询扩展(Query Expansion)
        • 多查询(Multi-Query):将原始 Query 扩展成多个相似的 Query,并行执行检索。例如,借助提示工程通过大型语言模型来扩展查询。
        • 子查询(Sub-Query):将原始 Query 分解为多个子问题,分别进行检索。例如,将“请详细且全面地介绍 RAG”分解为“RAG 的概念是什么?”、“为什么会产生 RAG?”等。
      • 查询转换(Query Transformation)
        • 查询重写(Query Rewriting):利用大型语言模型重新表述问题,使其更符合知识库的检索要求。例如,在多轮对话中,将历史信息和用户提问一并交给 LLM 大模型进行重新表述。
        • 假设文档嵌入(Hypothetical Document Embeddings, HYDE):让大型语言模型生成一个“假设”答案,将其和问题一起进行检索。
      • 查询构建(Query Construction)
        • Text-to-SQL:将自然语言 Query 转化为 SQL 语句,进行数据库查询。例如,在 ChatBI 场景下,将用户 Query 转化为 SQL 语句。
    • 检索模块
      • 检索器选择(Retriever Selection):根据不同的 Query 选择不同的检索器,例如稀疏检索器和密集检索器。
      • 检索器微调(Retriever Fine-tuning):使用特定领域的数据对检索器进行微调,提高检索的准确性。
    • 检索后模块
      • 重排序(Re-ranking):使用专门的排序模型,重新计算上下文的相关性得分。7
      • 压缩(Compression):删除无关内容,突出重要上下文。
      • 选择(Selection):移除无关的文档块。例如,使用 LLM-Critique 通过 LLM 批评机制,过滤掉相关性不高的文档。
    • 生成模块
      • 生成器微调(Generator Fine-tuning):使用指令微调和强化学习等技术,优化生成器的性能。
      • 验证(Verification):使用知识库验证和基于模型的验证等技术,验证生成内容的准确性。
    • 编排模块
      • 路由(Routing):为每个 Query 选择最合适的处理管道。例如,在索引环节引入多重索引技术后,使用多级路由机制,根据 Query 引导至最合适的父级索引。
      • 调度(Scheduling):控制 RAG 流程的执行顺序和条件。例如,通过规则判断、知识图谱判断、Agentic-Rag 等方式进行调度。
      • 融合(Fusion):合并多个检索结果,生成最终的答案。例如,使用 LLM 融合和互反排名融合等技术。
  • 实际应用案例
    • 智能投顾:根据客户的风险偏好和投资目标,从多个知识库中检索相关信息,并生成个性化的投资建议。
  • 关键技术
    • 多级索引:通过构建多层索引结构,实现对大规模数据的快速检索。例如,先通过文档类型索引过滤出相关文档,再通过关键词索引定位到具体的段落。
    • 知识图谱构建:利用知识图谱技术,将非结构化的文本数据转化为结构化的知识表示,提高检索的准确性和效率。例如,利用知识图谱对数据集建立索引,提取实体(Entity)以及实体之间的关系(Relationship),构建全局性的优势。8

4. 未来展望

伴随技术的持续演进,RAG 应用的未来发展趋势将聚焦于以下几个维度:

📅 0001-01-01 ⏱️ 2 分钟 📝 380 字

📅 0001-01-01

提示词收集

1
2
3
Create a beautiful 3D visualization of the difference in scale between a sub-atomic particle, an atom, a …

提示词收集

1
2
3
Create a beautiful 3D visualization of the difference in scale between a sub-atomic particle, an atom, a DNA strand, a beach ball, the Earth, the Sun, the Galaxy, and beyond. The relative scale should be accurate. Use any libraries to achieve the effect and write it as a single block of code that I can open in Chrome

创建一个精美的3D可视化效果,展示亚原子粒子、原子、DNA链、沙滩球、地球、太阳、银河系及其他天体之间的尺度差异。相对比例必须精确。可使用任何库来实现效果,并将其编写为可在Chrome浏览器中打开的单一代码块。
📅 0001-01-01 ⏱️ 1 分钟 📝 63 字

整体概况

产品线分为: 模型,AI平台(开发和部署,比如Vertex AI, AI Studio),AI应用(Gemini app, NotebookLM, Learn about, DeepResearch,Astra)

大模型

多模态大 …

整体概况

产品线分为: 模型,AI平台(开发和部署,比如Vertex AI, AI Studio),AI应用(Gemini app, NotebookLM, Learn about, DeepResearch,Astra)

大模型

多模态大模型: Gemini, Gemma 图像大模型:Imagen, PaLM-E 视频大模型: Veo

开发环境

  • Google AI Studio
  • Google Vertex AI
  • Google Cloud AI

应用

  • Google Learn about
  • Google AI Research
  • Google NotebookLM
  • Google Gemini App

NotebookLM

https://notebooklm.google/

我主要用它来阅读论文,科技报告,长篇技术文章等等。 它的一些新功能不错,比如思维导图,生成双人播客(用户可以随时插入讨论),视频生成

DeepResearch

Astra (Project Astra)

还在内测!

谷歌的Astra是由 DeepMind 开发的先进人工智能代理,旨在通过多模态功能无缝融入日常生活。Astra 处理并响应各种输入 —— 文本、图像、视频和音频 —— 使其成为高度交互和直观的助手。 Astra 的突出特点包括用于上下文理解的实时记忆、高级工具使用(例如谷歌搜索、地图和镜头)以及协助完成诸如识别物体或提供建议等任务的能力。例如,用户可以将手机对准书架并询问 Astra 识别评分最高的书,展示了其连接数字世界和物理世界的独特能力。随着将其部分功能集成到其他谷歌产品的计划,Astra 将在 2025 年及以后重新定义个人人工智能。 目前,Project Astra正在由有限数量的受信任用户进行测试,以完善其功能并为通用人工智能助手发现新用途。

人工智能代理结合多模态功能来处理文本、图像、视频和音频,创造出由谷歌 Gemini AI 模型支持的自然对话体验。

📅 0001-01-01 ⏱️ 1 分钟 📝 142 字

graph TD
    subgraph GCP ["Google Cloud Platform"]
        direction LR

        subgraph GlobalInfrastructure …

graph TD
    subgraph GCP ["Google Cloud Platform"]
        direction LR

        subgraph GlobalInfrastructure ["全球基础设施"]
            direction TB
            Region1["区域 1 (例如: us-central1)"]
            Region2["区域 N (例如: asia-northeast1)"]
            Zone1A["可用区 1-A"]
            Zone1B["可用区 1-B"]
            ZoneNA["可用区 N-A"]
            PoP["边缘节点 PoP"]

            Region1 --- Zone1A & Zone1B
            Region2 --- ZoneNA
            GlobalNetwork["全球高速网络"] --- Region1 & Region2 & PoP
        end

        subgraph CoreServices ["核心服务"]
            direction TB

            subgraph Compute ["计算服务"]
                GCE["Compute Engine (VMs)"]
                GKE["Kubernetes Engine (容器)"]
                AppEngine["App Engine (PaaS)"]
                CloudFunctions["Cloud Functions (FaaS)"]
            end

            subgraph Storage ["存储服务"]
                CloudStorage["Cloud Storage (对象)"]
                PersistentDisk["Persistent Disk (块)"]
                Filestore["Filestore (文件)"]
                CloudSQL["Cloud SQL (关系型DB)"]
                Spanner["Spanner (全球DB)"]
                Bigtable["Bigtable (NoSQL)"]
            end

            subgraph Networking ["网络服务"]
                VPC["VPC 网络"]
                LoadBalancing["Cloud Load Balancing"]
                CloudDNS["Cloud DNS"]
                CloudCDN["Cloud CDN"]
            end

            subgraph DataAnalytics ["数据与分析"]
                BigQuery["BigQuery (数据仓库)"]
                Dataflow["Dataflow (数据处理)"]
                PubSub["Pub/Sub (消息传递)"]
            end

            %% 连接关系 (高层次示意)
            Compute -- 使用 --> Storage
            Compute -- 连接 --> Networking
            Networking -- 连接 --> GlobalInfrastructure
            PoP -- 集成 --> CloudCDN
            DataAnalytics -- 处理 --> Storage
            DataAnalytics -- 交互 --> PubSub
            AppEngine & CloudFunctions -- 触发 --> PubSub
        end

        subgraph ManagementSecurity ["管理与安全 (贯穿各层)"]
            direction TB
            IAM["Identity & Access Management (IAM)"]
            SecurityCommand["Security Command Center"]
            CloudArmor["Cloud Armor"]
            Monitoring["Cloud Monitoring"]
            Logging["Cloud Logging"]
            Console["Cloud Console / CLI"]
        end

        %% 整体关系
        CoreServices -- 运行于 --> GlobalInfrastructure
        ManagementSecurity -- 管理与保护 --> CoreServices & GlobalInfrastructure

    end

    User["用户 / 应用"] --> LoadBalancing
    User --> CloudCDN
    User --> Console

    %% 样式 (可选)
    classDef default fill:#f9f,stroke:#333,stroke-width:2px;
    classDef infra fill:#e6f2ff,stroke:#36c,stroke-width:2px;
    classDef compute fill:#fff0e6,stroke:#f60,stroke-width:2px;
    classDef storage fill:#e6ffe6,stroke:#090,stroke-width:2px;
    classDef network fill:#ffe6e6,stroke:#c00,stroke-width:2px;
    classDef data fill:#ffffcc,stroke:#cc0,stroke-width:2px;
    classDef mgmt fill:#f0f0f0,stroke:#666,stroke-width:2px;

    class GlobalInfrastructure,Region1,Region2,Zone1A,Zone1B,ZoneNA,PoP,GlobalNetwork infra;
    class Compute,GCE,GKE,AppEngine,CloudFunctions compute;
    class Storage,CloudStorage,PersistentDisk,Filestore,CloudSQL,Spanner,Bigtable storage;
    class Networking,VPC,LoadBalancing,CloudDNS,CloudCDN network;
    class DataAnalytics,BigQuery,Dataflow,PubSub data;
    class ManagementSecurity,IAM,SecurityCommand,CloudArmor,Monitoring,Logging,Console mgmt;

Google Cloud Platform (GCP) 核心基础设施详解

全球基础设施与核心服务概览

📅 0001-01-01 ⏱️ 5 分钟 📝 898 字

Google NotebookLM 模型

Google NotebookLM 模型是Google开发的一种用于处理和生成笔记本内容的基于大型语言模型的笔记类(知识库类)网页应用。它能够理解和生成结构化的笔记本数据,支持代码、文本和图形元素的 …

Google NotebookLM 模型

Google NotebookLM 模型是Google开发的一种用于处理和生成笔记本内容的基于大型语言模型的笔记类(知识库类)网页应用。它能够理解和生成结构化的笔记本数据,支持代码、文本和图形元素的混合处理。

我的使用流程

论文阅读

导入

导入论文的pdf文件,或者论文所在的网页地址,

  1. ’如果只是想深入学习论文的内容,掌握论文的精髓,就只导入论文本身,
  2. 如果还想了解这篇论文对业界的影响,已经其他人对这篇论文发表的评论,我还会用“探索”功能,从网络上搜索更多的相关内容,行业评论,不同论坛讨论等等。注意有些搜索到的网页内容并不能直接导入到NotebookLm中,这是由于网站因为版权设置的一些限制,对于这些网页我需要输入自己的账号登录,然后手动获取内容,然后通过“文本导入”的方式导入NotebookLM里。
  3. 使用Gemini的DeepResearch生成相关内容的深度报告,然后导入到NotebookLM,作为一个原材料。

生成技术报告

我一般会先生成下面报告类型:

  1. 简报: 对论文的核心观点和要点进行提炼,并用简洁的语言进行概括。
  2. 研究报告: 对论文的核心内容进行深入的分析。
  3. 学习指南: 对自己对材料的内容进行简单测试。

会话讨论

在NotebookLM里面的chatbox进行和Gemini的对话来从多个维度对原材料进行研究。一般包括:

  1. NotebookLM自动生成的主题进行探讨。
  2. 要求对其中复杂的概念进行阐述,比如使用通俗易懂的语言进行重新描述,或者使用各种修辞手法进行形象描述。
  3. 讨论论文中的研究方法的原理
  4. 探讨论文的创新点和可能的应用场景。

生成博客初稿

现在我会使用“博客”模版生成一份博客初稿,进行第一次以便后面进行进一步的修改加工。

了解程度自检

用NotebookLM生成“闪卡”和“测验”。然后逐一进行内容复习和自测。“闪卡”和“测验”都可以设置“数量”和“难度”,这个可以根据自己想对该材料的了解深度的要求进行定制。

内容输出

我一般会输出一篇偏技术类博客。当前NotebookLM的缺省的“博客”Prompt生成的博客不够严肃,技术深度略浅。所以我对其进行了修改。

版本一:面向普通读者

1
作为一名深思熟虑的写作者和观点整合者,你的任务是为一家以简洁美学和深刻内容著称的在线出版平台撰写一篇引人入胜且易于阅读的博客文章。你的目标是从提供的原始材料中提炼出最最深刻、反直觉或具有影响力的要点,并将其整合成一篇逻辑清晰,有理有据,能深挖现象后面的本质的引人瞩目的清单式文章。写作风格应简洁明了、通俗易懂且便于浏览,采用对话式但又不失智慧的语调。创作一个发人深省、值得点击的标题。文章开头用简短的引言吸引读者,通过提出一个能引起共鸣的问题或好奇心,然后将每个要点作为一个独立的部分呈现,并配以清晰、加粗的小标题。在每个部分中,使用简短的段落清晰地解释概念,不要仅仅总结;提供深刻的分析或反思,说明为什么这个要点如此重要或有趣,如果在原始材料中有强有力的引用,可以用块引用强调。文章结束时用简短的、前瞻性的总结,给读者留下一个发人深省的最终问题或一个值得思考的重要观点。

版本二:面向资深专家

1
2
作为一名深思熟虑的写作者和观点整合者,你的任务是为一家以简洁美学和出品关于AI相关技术深刻内容著称的在线出版平台撰写一篇深入浅出的专业技术博客文章。你的目标是从提供的原始材料中提炼出最深刻、富有独特见解,反直觉或最具有影响力的要点,并将其整合成一篇逻辑清晰,有理有据,能深挖现象后面的本质的吸引人的文章。
写作风格应精确,精简但又要包括重要细节、通俗易懂且便于浏览,采用对话式但又不失智慧的语调。创作一个发人深省、值得点击的标题。文章开头用简短的引言吸引读者,通过提出一个能引起共鸣的问题或好奇心,然后将每个要点作为一个独立的部分呈现,并配以清晰、加粗的小标题。在每个部分中,使用简短的段落清晰地解释概念,不要仅仅总结;提供深刻的分析或反思,说明为什么这个要点如此重要或富有洞见,如果在原始材料中有强有力的引用,可以用块引用强调。文章结束时用深刻、前瞻性的总结,给读者留下一个发人深省的最终问题或一个值得思考的重要观点。

版本三:微信公众号。

核心Prompt框架(你可以像填空一样使用) 这个框架包含几个关键部分,按顺序组合即可。

# 角色设定(赋予模型一个专业身份)
请扮演一位专业的AI科技领域的内容创作者,擅长将深奥的技术内容转化为通俗易懂、吸引人的微信公众号文章。你的文风兼具专业性和可读性,能够引发读者的兴趣和共鸣。

# 核心任务与背景
我的任务是撰写一篇关于“【此处填入你的具体主题,例如:Agent技术的最新进展】”的微信公众号文章。我手头上有一些相关的资料(包括论文、博客、技术讨论等),需要你帮我整合这些信息,生成文章的初稿。

# 原始资料/核心观点摘要(这是最关键的部分!)
请基于我提供的以下核心信息进行创作:
【此处用分点或段落的形式,清晰地总结你手头资料的核心内容。可以包括:关键发现、重要数据、令人印象深刻的观点、技术原理的简单解释等。信息越具体,模型生成的内容越准确。】

例如,你的资料摘要可能是:
- 论文A指出,新型Agent框架“ABC”在工具调用准确率上提升了30%。
- 博客B提到,该框架的核心创新点是“递归性自我修正”机制。
- 技术讨论C中,开发者们认为这标志着AI从“被动响应”走向“主动规划”的关键一步。

# 文章具体要求
请根据以上信息,撰写一篇公众号文章初稿,需满足以下要求:
1.  **标题:** 生成3-5个吸引人且符合微信风格的标题选项,要求有冲击力、引发好奇或包含数字。
2.  **结构:**
    -   **开头(引子):** 从一个趋势、故事或问题切入,自然引出主题。
    -   **正文:** 逻辑清晰,层层递进。可以解释技术原理、分析其重要性、展示应用场景或案例。
    -   **结尾:** 总结核心观点,并提出开放性问题或对未来进行展望,引导读者互动。
3.  **风格:**
    -   **口语化:** 多用“我们”、“你”等代词,拉近与读者距离。
    -   **专业性:** 在解释概念时准确,但避免过多术语堆砌,必要时用比喻解释。
    -   **吸引力:** 适当使用加粗、提问、设问等排版技巧(在正文中用【加粗】标注)。
4.  **格式:** 直接输出完整的文章内容,无需额外说明。段落之间空一行。

# 额外说明
-   目标读者是对AI感兴趣的普通科技爱好者,不全是技术专家。
-   文章长度控制在1500字左右。

完整示例

📅 0001-01-01 ⏱️ 2 分钟 📝 307 字

介绍

Gemini Veo 3 是谷歌在2025年5月推出的第三代AI视频生成模型,它最引人注目的特点在于能够根据文本或图像提示,同步生成高质量视频和与之匹配的音频,真正让AI视频告别了“无声时代”。

下面这个表格能让你快速了解它的核心功能 …

介绍

Gemini Veo 3 是谷歌在2025年5月推出的第三代AI视频生成模型,它最引人注目的特点在于能够根据文本或图像提示,同步生成高质量视频和与之匹配的音频,真正让AI视频告别了“无声时代”。

下面这个表格能让你快速了解它的核心功能亮点。

功能亮点说明
🎬 音画同步生成能够自动为生成的视频添加环境音效、背景音乐甚至人物对话,并实现精准的唇形同步
🧠 叙事级理解依托强大的Gemini大模型,能深刻理解复杂的自然语言描述,生成连贯、富有故事感的视频片段。
🎨 多模态创作支持通过文字描述上传图片作为参考来生成视频,提供更灵活的创作路径。
🎥 专业级控制允许用户在提示词中指定镜头运动(如推拉摇移)、视觉风格和光影效果,实现对画面的精细控制。

💡 如何体验Veo 3

目前,Veo 3主要通过以下渠道向用户开放:

  • 通过Gemini平台:面向个人用户的主要体验渠道。需要订阅 Google AI Pro(每月约20美元,每日有生成次数限制)或 Google AI Ultra(每月249.99美元,享有更高使用限额和早期功能访问权)套餐。
  • 通过Flow电影制作工具:这是谷歌为专业创作者设计的工具,深度整合了Veo 3、Imagen 4(图像生成)和Gemini,支持更复杂的场景构建和故事板创作。
  • 通过Vertex AI平台:主要面向企业和开发者,通过API接口调用Veo 3的能力,集成到自己的应用或工作流中。

目前这些服务在访问区域上可能存在限制(例如首先在美国地区开放),且具体功能和使用条款可能会更新,建议以谷歌官方最新信息为准。

总结

总而言之,Gemini Veo 3的核心突破在于将AI视频生成从单纯的“画面生成”提升到了“完整的视听内容创作”层面。它大幅降低了高质量视频内容的制作门槛,为从普通爱好者到专业创作者的广泛群体提供了强大的工具。

希望这些信息能帮助你全面了解Gemini Veo 3。如果想了解更多关于具体提示词技巧或不同订阅方案的细节,我很乐意继续为你解答。

veo 动画案例

case 1 微缩北京天安门

1
Create a Miniature Landscape-style Animation of Beijing's Tiananmen Square. Start with a scene of an ancient Chinese scroll map made of aged, yellowed rice paper (宣纸). On the map, the central axis of Beijing is clearly marked with a crimson imperial seal stamp (朱砂印章). The marked area clearly delineates the city's grid layout, with distinct details of the paper's fiber texture, traditional ink wash marks (水墨痕迹), and classical Chinese calligraphy annotations. Subsequently, a series of iconic Chinese buildings—including the Tiananmen Gate with its crimson walls and golden-glazed tile roof, the Great Hall of the People with its massive colonnades, the symmetrical National Museum of China, and the central Monument to the People's Heroes—emerge one by one from the marked area on the scroll map, as if growing from the earth. The Tiananmen Gate simulates growth by rising from its white marble base, with the upturned eaves and roof tiles appearing in sequence, and finally, the national emblem materializes above the central gate. The Monument to the People's Heroes extends upward section by section from its base. Next, the vast square area in front of Tiananmen Gate slowly "fills in" and takes shape with the texture of grey paving stones. Chang'an Avenue is drawn across the front, and miniature classic Red Flag limousines (红旗轿车) and city buses appear, moving slowly along the road. On either side of the square and along Chang'an Avenue, sturdy pine and cypress trees, along with rows of ginkgo trees, grow in sequence from the paper texture. In the background, the vast sea of the Forbidden City's golden-tiled roofs ripples into existence behind Tiananmen Gate, while the sky above transitions into a hazy, golden Beijing sunrise, with stylized auspicious clouds (祥云) spreading like an ink wash painting. Finally, the prominent 3D text "BEIJING" (with a surface texture resembling red lacquer or white jade) grows and takes shape from the base of the Monument to the People's Heroes. Throughout the process, it simulates the dynamic rhythm of solemn construction, creating a 3D-rendered miniature model video that combines the classical charm of an ancient scroll, the solemn grandeur of Chinese architecture, and the unique historical significance of the capital's heart, showcasing the magnificent construction process from a seal on a map to the three-dimensional Tiananmen Square.
创作一幅北京天安门的微缩景观风格动画。开篇呈现一幅以泛黄宣纸制成的中国古代舆图,图中北京中轴线以朱砂印章鲜明标注。标记区域清晰勾勒出城市网格布局,纸张纤维肌理、传统水墨晕染痕迹与中式书法批注细节分明。随后,一系列中国标志性建筑——朱墙金瓦的天安门城楼、巨柱林立的人民大会堂、对称布局的中国国家博物馆以及广场中央的人民英雄纪念碑——从舆图标记处逐一拔地而起。天安门城楼模拟生长过程:汉白玉基座率先隆起,层叠飞檐与琉璃瓦依次显现,最终国徽在正中门洞上方凝结成型;人民英雄纪念碑自底座逐段向高空延展。接着,天安门前辽阔的广场区域以灰白色铺路石质感缓慢"填充"成形,长安街横贯前方,微型经典红旗轿车与公交车缓缓驶过。广场两侧与长安街沿线,苍劲松柏与成排银杏树自纸纹肌理中次第生长。背景处,天安门后方浮现紫禁城金色琉璃瓦的连绵海浪,天际则渐变为朦胧鎏金的北京朝霞,祥云图案如水墨般晕染铺展。最终,醒目的立体字"BEIJING"(表面呈现红漆或白玉质感)从人民英雄纪念碑基座处生长定型。全程模拟庄重建设的动态韵律,形成一部融合古卷轴韵味、中式建筑仪轨与首都核心区独特历史意义的3D渲染微缩模型视频,展现从地图印章到立体天安门的壮阔建造历程。

case 2:罗马城

Create a Miniature Landscape-style Animation of Rome's Urban Growth.Start with an unfolded map scene of Rome, where the map texture is clearly visible. Subsequently, groups of Italian ancient buildings-characterized by stone arches, red-tiled roofs, and accompanied by the iconic Colosse- um-emerge one by one from their corresponding positions on the map like the growth of all things, gradually forming the complete main structure of the buildings. Next, the Tiber River slowly takes shape and flows along the river course outline on the map, with vintage gondola-style boats appear- ing on the water surface. Olive trees and cypresses along the riverbank grow in sequence following the green space texture on the map, while the hazy view of the Pantheon in the background spreads simultaneously like an ink wash. Finally, the prominent 3D text "ROMA" grows and takes shape from the area beside the Colosseum on the map. Throughout the process, it simulates the dynamic rhythm of natural growth, creating a 3D-rendered miniature model textured video that embodies a classical, profound, and rich Italian style, showcasing the wonderful construction process from a 2D map to a 3D city.
创作一部罗马城市生长的微缩景观风格动画。首先展开一幅罗马地图场景,地图纹理清晰可见。随后,成群具有石拱门、红瓦顶特征的意大利古建筑伴随着标志性的罗马竞技场,如万物生长般从地图对应位置逐一浮现,逐渐构成完整的建筑主体结构。接着台伯河沿地图河道轮廓缓缓成型流淌,水面上浮现复古的贡多拉风格小船。河岸边的橄榄树与柏树根据地图像上的绿地纹理依次生长,同时背景中朦胧的万神殿景象如墨染般同步晕开。最后,醒目的3D文字"ROMA"从地图竞技场旁的区域生长成型。整个过程模拟自然生长的动态韵律,打造出一部具有古典厚重、意式浓郁风格的3D渲染微缩模型质感视频,展现从二维地图到三维城市的奇妙建造过程。

case 3:悉尼城

Create a Sydney City Growth Animation in Miniature Landscape Style. The animation starts with a scene of an old, yellowed world map with curled edges. The Sydney area is clearly marked with red marker dots on the map, featuring distinct paper textures and retro ink marks. Subsequently, Australian-style build- ings-including light-colored waterfront houses, metal-roofed structures, and the iconic Sydney Opera House-"emerge" one by one from the Sydney marker dots on the map like living things growing, gradually forming complete building structures. Next, Port Jackson slowly "fills and takes shape" along the bay outline of the marked area on the map, with sightseeing yachts "appearing" on the water surface. On the shore, eu- calyptus and palm trees "grow" one after another along the green space texture of the Sydney area on the map, while the hazy background view of the Harbour Bridge gradually spreads out like ink-wash. Finally, the prominent 3D text "SYDNEY" "grows and takes shape" from the Opera House area near the Sydney marker dots on the map. Throughout the process, it simulates the dynamic rhythm of natural growth, creating a 3D-rendered miniature model video that combines retro texture and coastal charm, showcasing the wonder- ful construction process from a marked spot on the world map to a three-dimensional Sydney.
制作一个微缩景观风格的悉尼城市生长动画。动画从一张边缘卷曲的泛黄老式世界地图场景开始,悉尼区域在地图上被红色标记点清晰标注,带有明显的纸张纹理和复古墨迹。随后,澳式建筑——包括浅色水边房屋、金属屋顶结构以及标志性的悉尼歌剧院——像生物生长般从地图上的悉尼标记点"涌现"而出,逐渐形成完整的建筑结构。接着,杰克逊港沿着地图标记区域的湾区轮廓缓慢"填充成型",观光游艇在水面"浮现"。岸边,桉树和棕榈树沿着地图上悉尼区域的绿地纹理次第"生长",而海港大桥的朦胧背景视图则如水墨般逐渐晕染开来。最后,突出的立体文字"SYDNEY"从地图悉尼标记点附近的歌剧院区域"生长成形"。整个过程模拟自然生长的动态韵律,打造出融合复古质感与海岸风情的3D渲染微缩模型视频,展现从世界地图标记点到立体悉尼的奇妙建造过程。

case 4:莫斯科城

Create a Moscow City Growth Animation in Miniature Landscape Style. The animation begins with a scene of an old, yellowed world map with curled edges. The Moscow area is clearly marked with red marker dots on the map, where paper textures and retro ink marks are distinct. Afterwards, Russian-style buildings-in- cluding colorful onion-domed churches, stone palaces, and the iconic Kremlin-"emerge" one by one from the Moscow marker dots on the map, just like all things growing in nature, gradually forming complete building structures. Next, the Moskva River slowly "flows and takes shape" along the river course outline of the marked area on the map, and vintage cruise ships "float" on the water surface. On the banks, birch trees and pine trees "grow" one after another along the green space texture of the Moscow area on the map, while the hazy background view of Red Square spreads out like ink-wash simultaneously. Finally, the strik- ing 3D text "MOSCOW" "grows and takes shape" from the Kremlin area near the Moscow marker dots on the map. Throughout the entire process, it simulates the dynamic rhythm of natural growth, creating a 3D-rendered miniature model video that combines retro texture and Russian solemnity, showcasing the wonderful construction process from a marked spot on the world map to a three-dimensional Moscow.
以微缩景观风格创作莫斯科城市生长动画。动画起始于一张边缘卷曲的泛黄老地图场景,莫斯科区域在地图上被红色标记点清晰标注,纸张纹理与复古墨迹清晰可见。随后,俄式建筑群——包括色彩斑斓的洋葱顶教堂、石砌宫殿与标志性克里姆林宫——从地图上的莫斯科标记点处如万物生长般"萌发"而出,逐渐形成完整建筑结构。接着,莫斯科河沿地图标记区域的河道轮廓缓慢"流淌成形",复古游轮在水面"漂浮";河岸两侧,白桦树与松树沿地图上莫斯科区域的绿地纹理次第"生长",而红广场的朦胧背景视效则如水墨般同步晕染展开。最后,醒目的立体文字"MOSCOW"从地图莫斯科标记点附近的克里姆林宫区域"生长成形"。整个过程模拟自然生长的动态韵律,最终形成兼具复古质感与俄式庄严的3D渲染微缩模型视频,展现从世界地图标记点到立体莫斯科的奇妙建造过程。

case 5:伦敦城

Create a London City Growth Animation in Miniature Landscape Style. The animation opens with a scene of an old, yellowed world map with curled edges. The London area is clearly marked with red marker dots on the map, where paper textures and retro ink marks are distinct. Subsequently, British-style buildings-in- cluding red-brick Georgian houses, spired churches, and the iconic Big Ben-"emerge" one by one from the London marker dots on the map, just like all things growing in nature, gradually forming complete building structures. Next, the River Thames slowly "flows and takes shape" along the river course outline of the marked area on the map, and red double-decker sightseeing boats "float" on the water surface. On the banks, plane trees and linden trees "grow" in sequence along the green space texture of the London area on the map, while the hazy background view of the London Eye spreads out like ink-wash simultaneously. Final- ly, the eye-catching 3D text "LONDON" "grows and takes shape" from the Big Ben area near the London marker dots on the map. Throughout the entire process, it simulates the dynamic rhythm of natural growth, creating a 3D-rendered miniature model video that combines retro texture and British elegance, showcasing the wonderful construction process from a marked spot on the world map to a three-dimensional London.
制作一个微型景观风格的伦敦城市发展动画。动画开篇是一幅泛黄的旧世界地图,边缘卷曲。地图上的伦敦地区用红色标记点清晰标出,纸张纹理和复古墨迹十分明显。随后,英式建筑——包括红砖乔治亚风格房屋、带尖顶的教堂以及标志性的大本钟——从地图上的伦敦标记点处一个个“浮现”出来,如同自然界万物生长一般,逐渐形成完整的建筑结构。接着,泰晤士河沿着地图上标记区域的河道轮廓缓缓“流淌成形”,红色双层观光巴士在水面上“漂浮”着。河岸上,悬铃木和椴树顺着地图上伦敦地区的绿地纹理依次“生长”,同时伦敦眼的朦胧远景如墨画般铺展开来。最后,醒目的3D文字“LONDON”从地图上伦敦标记点附近的大本钟区域“生长成形”。整个过程模拟自然生长的动态节奏,打造出一部结合复古质感与英式优雅的3D渲染微型模型视频,展现从世界地图上的一个标记点到立体伦敦的奇妙构建过程。

等距3D动画案例

Isometric 3D animation, showcasing a dazzling and vibrant miniature neon cityscape style, depicting the iconic 3D isometric view of Hong Kong's Victoria Harbour at nightfall. Set on a rounded rectangular base, the scene features a harmonious blend of skyscrapers, mountain landscapes, and local urban charm. The sequence begins with the Star Ferry pier and clock tower, followed by the Peak Tower atop Victoria Peak, and the glass-curtain-walled architectural clusters of Central, including the IFC and Bank of China Tower. Finally, the neon-lit street market of Sham Shui Po and the colorful buildings of Choi Hung Estate unfold in the corners of the model. As the buildings rise, they burst with neon pulse lighting effects accompanied by brief electronic sound effects. The glass facades reflect the dazzling laser show over Victoria Harbour. The harbor waters feature the Star Ferry and the traditional junk boat "Aqua Luna" gliding slowly. Surrounding the base are diner booths, tram stop signs, egg waffle stalls (with steam effects), and neon signs (labeled in traditional Chinese characters). Beyond the base lies the shimmering Victoria Harbour, with cargo ships and helicopters dynamically traversing the scene. Finally, the three-dimensional traditional Chinese characters "HONG KONG" in neon lighting effects flicker in from the right and come to a steady hover beside the model of Two International Finance Centre.
等距3D动画,展现出令人炫目的充满活力的微型霓虹城市景观风格,描绘了标志性的香港维多利亚港黄昏时分的3D等距视图。场景以圆角矩形底座为背景,和谐融合了摩天大楼、山地景观和当地城市魅力。动画序列从天星码头和钟楼开始,接着是位于太平山顶的凌霄阁,以及中环的玻璃幕墙建筑群,包括国际金融中心(IFC)和中国银行大厦。最后,深水埗的霓虹灯街市场和彩虹邨色彩斑斓的楼宇在模型的角落徐徐展开。随着建筑物拔地而起,它们迸发出霓虹脉冲灯光效果,并伴有简短的电子音效。玻璃幕墙反射着维多利亚港上空炫目的激光表演。海港水面上,天星小轮和传统帆船“鸭灵号”缓缓滑过。底座周围设有 diner 餐位、电车站牌、鸡蛋仔摊位(带有蒸汽效果)和霓虹灯招牌(标有繁体中文字样)。底座之外是波光粼粼的维多利亚港,货轮和直升机动态地穿梭其中。最后,带有霓虹灯光效果的立体繁体中文字符“HONG KONG”从右侧闪烁出现,平稳悬浮在国际金融中心二期模型旁。
📅 0001-01-01 ⏱️ 8 分钟 📝 1495 字

[

ModelScope

base_url=‘https://api-inference.modelscope.cn/v1',

DeepSeek

模型主页: …

[

ModelScope

base_url=‘https://api-inference.modelscope.cn/v1',

DeepSeek

模型主页: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1 Model Name: deepseek-ai/DeepSeek-V3.1 Context: 128K SDK: 同时支持OpenAI API和Anthropic API

Moonshot

模型主页: https://platform.moonshot.cn/docs/api/ base_url = “https://api.moonshot.cn/v1", model = “kimi-k2-0711-preview”, “kimi-k2-turbo-preview”, 可以通过模型列表获取(GET https://api.moonshot.cn/v1/models) 上下文:128K key: https://platform.moonshot.cn/console/api-keys playground: https://platform.moonshot.cn/playground context: 128K

百度智能云

模型主页: https://cloud.baidu.com/doc/WENXINWORKSHOP/s/aljwzxz5d base_url = “https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions", model: https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/list

📅 0001-01-01 ⏱️ 1 分钟 📝 42 字

📅 0001-01-01