clearwind

clearwind

首页
分类
登录 →
clearwind

clearwind

首页 分类
登录
  1. 首页
  2. 🚀AI
  3. 🔧LLM
  4. 矩阵分解

矩阵分解

0
  • 🔧LLM
  • 发布于 2025-01-11
  • 27 次阅读
clearwind
clearwind

矩阵分解是一种通过将较大的矩阵分解为多个小矩阵已降低计算复杂度的技术,在模型训练微调上,通常用于简化模型、提高训练效率。矩阵分解有多种形式,一下是几种常见的模型微调权重分解方法:

奇异值分解

将矩阵分解为三个矩阵乘积的方法:

W=U \Sigma V^{T}

其中:

  • W是原始权重矩阵。

  • U和V是正交矩阵。

  • \Sigma是对角矩阵,对角线上的元素称为奇异值。

奇异值分解常用于降维和压缩,通过保留较大的奇异值,可以近似表示原始矩阵。

低秩分解(Low-Rank Decomposition)

低秩分解假设权重矩阵具有较低的内在秩,可以通过两个低秩矩阵的乘积来近似表示:

\mathbf{W \approx {\color{Green} AB} }

其中:

  • A \in R^{\upsilon \times \gamma } 和B \in R^{\gamma \times \kappa } 是低秩矩阵。

  • \gamma \ll min(\upsilon , \kappa )

低秩分解常用于参数高效的微调方法(如LoRA),通过减少可训练参数的数量来提高训练效率。

幅度和方向分解(Magnitude and Direction Decomposition)

幅度和方向分解将权重矩阵分解为幅度和方向两个部分:

W=m\frac{V}{\parallel V \parallel _{c} } = \parallel W \parallel_{c} \frac{W}{\parallel W \parallel _{c} }

其中:

  • m \in R^{1 \times k } 是幅度向量。

  • V \in R^{d \times k } 是方向矩阵。

  • \parallel * \parallel _{c}表示矩阵每列向量的范数。

这种分解确保了\frac{V}{\parallel V \parallel _{c} }的每一列都是单位向量,而中的对应标量定义了每个向量的幅度。幅度和方向分解常用于DoRA等方法中,通过分别微调幅度和方向来提高模型的学习能力。

张量分解(Tensor Decomposition)

张量分解是将高维张量分解为多个低维张量的乘积,常见的张量分解方法包括CP分解(Canonical Polyadic Decomposition)和Tucker分解。

CP分解:

\tau = \sum_{r=1}^{R} a_{r} \oplus b_{r} \oplus b_{r}

其中:

  • \tau是原始张量。

  • a_{r} 、 b_{r} 、 b_{r} 是因子矩阵的列向量。

  • \oplus表示张量积。

Tucker分解:

\tau \approx \varrho \times_{1} A \times_{2} B \times_{3} C

其中:

  • \varrho是核心张量。

  • ABC是因子矩阵。

  • \times_{i}表示在第i维度上的矩阵乘积。

张量分解常用于处理高维数据和多模态数据,通过降低张量的秩来减少计算复杂度。

其他分解方法

除了上述方法,还有其他一些权重分解技术,如:

  • QR分解:将矩阵分解为一个正交矩阵和一个上三角矩阵的乘积。

  • LU分解:将矩阵分解为一个下三角矩阵和一个上三角矩阵的乘积。

  • Cholesky分解:将对称正定矩阵分解为一个下三角矩阵及其转置的乘积。

矩阵分解是一种强大的工具,可以用于简化模型、提高训练效率、增强模型的解释性以及处理高维数据。不同的分解方法适用于不同的应用场景,选择合适的分解方法可以显著提升模型的性能和效率。

标签: #Transformer 7 #LLM 9
相关文章
简述 Transformer 训练计算过程(刷新渲染)

简述 Transformer 训练计算过程(刷新渲染) 2025-01-11 23:54

Step1-定义数据集 用于创建 ChatGPT 的数据集为 570 GB。假设数据集为一下内容: 白日依山尽,黄河入海流。 马无夜草不肥,人无横财不富。 天行健,君子以自强不息,地势坤,君子以厚德载物。 Step2-计算词汇量

基于 internlm2 和 LangChain 搭建你的知识库

基于 internlm2 和 LangChain 搭建你的知识库 2025-02-27 14:25

环境配置 internlm2 模型部署 创建虚拟环境 conda create -n deepseek_rag python=3.10 -y conda activate deepseek_rag 并在环境中安装运行 demo 所需要的依赖 # 升级pip python -m pip install

Llama-Factory 微调全过程

Llama-Factory 微调全过程 2025-01-13 22:28

数据集 数据集下载:通过ModelScope获取原始数据集https://modelscope.cn/datasets/w10442005/ruozhiba_qa/summary git clone https://www.modelscope.cn/datasets/w10442005/ruozh

矩阵分解 2025-01-11 15:48

矩阵分解是一种通过将较大的矩阵分解为多个小矩阵已降低计算复杂度的技术,在模型训练微调上,通常用于简化模型、提高训练效率。矩阵分解有多种形式,一下是几种常见的模型微调权重分解方法: 奇异值分解 将矩阵分解为三个矩阵乘积的方法: W=U \Sigma V^{T} 其中: W是原始权重矩阵。 U和V是正交

LLM奥秘

LLM奥秘 2025-01-09 21:47

本文旨在通过最基础的数学内容,剔除机器学习中复杂的术语,从零描述LLM的工作原理。

GPT 模型微调

GPT 模型微调 2025-01-03 22:51

GPT-2 是一种基于 Transformer 的生成模型,专注于生成连贯的文本。在 Hugging Face 的Transformers 库中,GPT-2 已经被应用于多种中文文本生成任务,如古诗词、歌词和对联生成等。 GPT-2模型 from transformers import BertTo

目录
  • clearwind
  • 微信小程序

导航菜单

  • 首页
  • 分类
Copyright © 2024 your company All Rights Reserved. Powered by clearwind.
皖ICP备19023482号