Transformer 模型学习指南 I. 复习大纲
引言 •序列转换模型的局限性(循环神经网络和卷积神经网络)。 •Transformer 模型的提出:完全基于注意力机制,摒弃循环和卷积。 •Transformer 模型的优点:并行化 …
Transformer 模型学习指南 I. 复习大纲
引言 •序列转换模型的局限性(循环神经网络和卷积神经网络)。 •Transformer 模型的提出:完全基于注意力机制,摒弃循环和卷积。 •Transformer 模型的优点:并行化能力强,训练时间短,翻译质量高。 •Transformer 模型在机器翻译和英语成分句法分析上的成功应用。
背景 •减少序列计算的必要性。 •卷积神经网络模型(Extended Neural GPU, ByteNet, ConvS2S)的并行计算方式及其局限性。 •自注意力机制的定义和应用。 •Transformer 模型与其他模型的区别和优势。
模型架构 •3.1 编码器和解码器堆栈编码器: •N=6 个相同的层堆叠而成。 •每一层包含两个子层:多头自注意力机制和位置式全连接前馈网络。 •残差连接和层归一化。 •所有子层和嵌入层的输出维度 dmodel = 512。 •解码器: •N=6 个相同的层堆叠而成。 •每一层包含三个子层:多头自注意力机制,编码器输出的多头注意力机制和位置式全连接前馈网络。 •残差连接和层归一化。 •掩码机制防止解码器关注后续位置。 •3.2 注意力机制定义:将查询(query)和键值对(key-value pairs)映射到输出的函数。 •输出是值的加权和,权重由查询与对应键的兼容性函数计算。 •3.2.1 缩放点积注意力(Scaled Dot-Product Attention):计算查询和所有键的点积,除以 √dk,应用 softmax 函数得到权重。 •公式:Attention(Q, K, V) = softmax(QKT/√dk)V •与加性注意力(additive attention)的比较。 •3.2.2 多头注意力(Multi-Head Attention):将查询、键和值线性投影 h 次到不同的 dk、dk 和 dv 维度。 •在每个投影版本上并行执行注意力函数。 •将输出连接并再次投影得到最终值。 •公式:MultiHead(Q, K, V) = Concat(head1, …, headh)WO •head_i = Attention(QWQ_i, KWK_i, VWV_i) •优点:允许模型共同关注来自不同表示子空间的信息。 •3.2.3 模型中注意力的应用:编码器-解码器注意力层:查询来自先前的解码器层,键和值来自编码器的输出。 •编码器自注意力层:键、值和查询都来自同一位置,即编码器前一层的输出。 •解码器自注意力层:允许解码器中的每个位置关注到当前位置以及之前的所有位置,防止信息向左流动,保持自回归特性。 •3.3 位置式前馈网络定义:应用于每个位置的全连接前馈网络,包含两个线性变换和一个 ReLU 激活函数。 •公式:FFN(x) = max(0, xW1 + b1)W2 + b2 •3.4 嵌入和 Softmax使用学习到的嵌入将输入和输出标记转换为 dmodel 维度的向量。 •使用线性变换和 softmax 函数将解码器输出转换为预测的下一个标记概率。 •共享嵌入层和预 Softmax 线性变换的权重矩阵,嵌入层乘以 √dmodel。 •3.5 位置编码为了让模型利用序列的顺序信息,添加位置编码到输入嵌入。 •位置编码与嵌入具有相同的维度 dmodel,可以相加。 •使用不同频率的正弦和余弦函数。 •公式:PE(pos, 2i) = sin(pos/10000^(2i/dmodel)) •PE(pos, 2i+1) = cos(pos/10000^(2i/dmodel)) •使用正弦函数的原因:允许模型轻松学习相对位置的注意力。
什么是 Vector 数据库?
Vector 数据库在自然语言处理、Image Recognition、推荐系统和语义搜索等各个领域发挥着举足轻重的作用,并随着 LLM 的日益普及而变得更加重要。
这些数据库具有非凡的价值, …
什么是 Vector 数据库?
Vector 数据库在自然语言处理、Image Recognition、推荐系统和语义搜索等各个领域发挥着举足轻重的作用,并随着 LLM 的日益普及而变得更加重要。
这些数据库具有非凡的价值,因为它们为 LLM 提供了获取实时专有数据的 Accessibility,使得开发 Retrieval Augmentation (RAG) 应用程序成为可能。
矢量数据库的核心是依靠使用 Embedding 来捕捉数据的含义,并衡量不同矢量对之间的相似性,在大量数据集中进行筛选,找出最相似的矢量。
本课程将帮助你获得相关知识,以便就何时在应用程序中应用 Vector 数据库做出明智的决定。你将探索
如何使用 Vector 数据库和 LLM 深入洞察你的数据。
建立实验室,展示如何形成 Embedding 并使用多种搜索技术查找相似的嵌入。
探索在庞大的数据集中进行快速搜索的算法,并构建从 Algorithm 到多语言搜索的各种应用。
Coursera : Vector Database Fundamentals 专项课程
Coursera : Vector Databases from Embeddings to Applications 课程
为什么说神经网络几乎可以学习任何东西?
核心观点: 神经网络之所以被认为几乎能学习任何东西,其核心在于它们的通用近似能力 (Universal Approximation Capability)。这主要由通用近似定理 (Universal …
为什么说神经网络几乎可以学习任何东西?
核心观点: 神经网络之所以被认为几乎能学习任何东西,其核心在于它们的通用近似能力 (Universal Approximation Capability)。这主要由通用近似定理 (Universal Approximation Theorem, UAT) 提供理论支撑。
1. 专业严谨的解释 (基于通用近似定理)
通用近似定理 (UAT) 的核心内容: 最经典的通用近似定理(由 George Cybenko 在1989年针对Sigmoid型激活函数证明,后续 Kurt Hornik 等人扩展到更一般的激活函数)指出:
对于一个具有一个隐藏层、有限数量神经元、并使用非线性激活函数(例如 Sigmoid、Tanh、ReLU 等,只要该函数不是多项式)的前馈神经网络 (Feedforward Neural Network),只要隐藏层神经元数量足够多,它就可以以任意精度 ($\epsilon > 0$) 去近似定义在输入空间的一个紧集 (Compact Set) 上的任何连续函数 ($f$)。
关键概念分解:
- 前馈神经网络 (Feedforward Neural Network): 信息单向流动,从输入层经过一个或多个隐藏层到达输出层,没有循环连接。
- 一个隐藏层: 定理最初的证明是基于单隐藏层的,但足以证明其表达能力。实践中多层(深度)网络可能在效率和效果上更优。
- 非线性激活函数: 这是至关重要的。如果只有线性激活函数,整个网络无论多少层都等价于一个简单的线性变换,无法拟合复杂的非线性关系。常见的非线性激活函数(如 Sigmoid, Tanh, ReLU)引入了“弯曲”或“折断”的能力。
- 足够多的神经元: 理论上保证存在足够数量的神经元可以达到所需精度,但定理本身不告诉我们具体需要多少个。网络的“宽度”是关键。
- 任意精度 ($\epsilon$): 这意味着只要你愿意增加神经元数量,理论上可以将神经网络的输出与目标连续函数之间的误差(比如均方误差)缩小到任意小的正数 $\epsilon$ 以下。
- 紧集上的连续函数: “紧集”在数学上表示有界闭集(在有限维欧氏空间中)。“连续函数”意味着函数图形没有断裂或跳跃。这个条件覆盖了现实世界中绝大多数我们想要建模的函数关系。
定理的意义: UAT 证明了,从表达能力 (Representational Power) 的角度看,即使是相对简单的单隐藏层神经网络结构,也具备了拟合极其广泛函数类别的潜力。它告诉我们神经网络能够成为一个“万能函数逼近器”。
2. 通俗易懂的解释 (类比与直觉)
查询扩展(Query Expansion)
在信息检索中,**查询扩展(Query Expansion)**的核心作用是通过补充或优化用户原始查询的关键词,提升系统对用户需求的理解范围和匹配精度。简单来说,它像一个“智能助手”,帮助搜索引擎 …
查询扩展(Query Expansion)
在信息检索中,**查询扩展(Query Expansion)**的核心作用是通过补充或优化用户原始查询的关键词,提升系统对用户需求的理解范围和匹配精度。简单来说,它像一个“智能助手”,帮助搜索引擎或检索系统更全面地捕捉用户意图,避免因用户表达简略、模糊或词汇局限导致的漏检问题。以下是其具体作用和实现逻辑的通俗解释:
1. 解决用户表达的局限性
- 场景举例:当用户输入“手机”时,可能实际需要的是“智能手机评测”或“手机品牌推荐”,但原始查询过于简短。
- 技术逻辑:查询扩展通过分析用户意图,自动补充同义词(如“移动设备”)、近义词(如“终端”)、上下位词(如“安卓手机”是“手机”的下位词)或相关短语(如“5G手机”),将原始查询扩展为更丰富的表达。
2. 提高召回率(Recall)
- 核心目标:避免因词汇不匹配而遗漏相关结果。例如,某篇网页提到“AI技术”,但用户未使用该术语,仅搜索“人工智能”。通过扩展“人工智能→AI”,系统能召回更多潜在相关网页。
- 技术实现:
- 基于语义关联:利用词向量(如Word2Vec)或知识图谱(如WordNet)挖掘语义相近的词汇。
- 基于用户行为:分析历史搜索日志,统计高频共现词(如“旅游”常与“攻略”“景点”关联)作为扩展词。
3. 处理歧义性查询
- 场景举例:用户搜索“苹果”,可能指水果、手机品牌或公司。通过上下文分析(如用户历史点击记录)或结合领域知识,扩展为“iPhone 15”或“红富士苹果”,明确意图。
- 技术实现:
- 伪相关反馈(PRF):从初始检索结果中提取高频相关词(如“iPhone”相关网页中出现“iOS”“摄像头”等词)作为扩展词。
- 大语言模型(LLM):利用LLM生成假设性答案,从中提取关键词(如“苹果公司2023年财报”中的“营收”“供应链”)。
4. 增强时效性与领域适应性
- 时效性需求:对于时间敏感的查询(如“2024年奥运会最新赛程”),传统检索可能依赖过时数据,而查询扩展可结合实时知识库或网络爬取的最新信息进行补充。
- 领域适配:在医疗、法律等专业领域,扩展词可能包括术语(如“心肌梗死→心梗”)或行业标准词汇,提升领域相关性。
5. 平衡召回率与精确率
- 挑战:扩展词过多可能导致无关结果(如“手机”扩展出“手机壳维修”)。
- 解决方案:
- 动态权重调整:为扩展词分配不同权重(如同义词权重高于上位词)。
- 重排序(Reranking):通过二级模型对扩展后的结果二次排序,过滤噪声。
总结
查询扩展的本质是弥合用户表达与系统理解之间的鸿沟。它通过语义分析、用户行为挖掘和外部知识融合,将用户的“简短提问”转化为“全面检索指令”,从而在保证结果相关性的同时,尽可能覆盖更多潜在需求。这一技术广泛应用于搜索引擎、智能客服、RAG(检索增强生成)等场景,是提升信息检索效果的关键技术之一。
[1hr Talk] Intro to Large Language Models
https://www.youtube.com/watch?v=zjkBMFhNj_g 该视频讲稿系统地介绍了大型语言模型(LLMs)。首先,它从基本概念入 …
[1hr Talk] Intro to Large Language Models
https://www.youtube.com/watch?v=zjkBMFhNj_g 该视频讲稿系统地介绍了大型语言模型(LLMs)。首先,它从基本概念入手,解释了LLM的构成(参数文件和运行代码),并以Llama 2为例进行了说明,强调了其开放权重的特点。接着,深入探讨了LLM的训练过程,分为预训练(海量互联网文本、高昂算力成本)和微调(高质量人工标注数据,塑造助手模型)两个阶段,并提及了可选的**通过人类反馈强化学习(RLHF)**进行性能提升。
随后,讲稿展示了LLM的强大能力,例如工具使用(浏览器、计算器、代码执行、图像生成),以及多模态特性(处理文本、图像、音频等)。展望未来,它探讨了LLM的发展方向,包括模拟人类的系统二思维、自我改进的可能性,以及定制化的应用前景,并提出了LLM可能成为新兴操作系统内核的类比。
最后,讲稿也强调了LLM带来的安全挑战,通过越狱攻击、提示注入攻击和数据投毒/后门攻击等实例,揭示了LLM安全领域的攻防博弈。总而言之,该视频旨在为听众提供一个关于LLM的全面入门,既展现了其潜力,也指出了其面临的挑战。
做12张上海像素风图片,竖屏,然后用智能多帧穿起来。
把下面的上海景点做出像素图片,竖屏,然后用智能多帧穿起来。
东方明珠广播电视塔 金茂大厦 环球金融中心 上海中心大厦 南京路步行街 城隍庙 世博会博物馆 上海博物馆 豫园 静安 …
