• 矩阵分解 2025-01-11 15:48

    矩阵分解是一种通过将较大的矩阵分解为多个小矩阵已降低计算复杂度的技术,在模型训练微调上,通常用于简化模型、提高训练效率。矩阵分解有多种形式,一下是几种常见的模型微调权重分解方法: 奇异值分解 将矩阵分解为三个矩阵乘积的方法: W=U \Sigma V^{T} 其中: W是原始权重矩阵。 U和V是正交

  • LLM奥秘

    LLM奥秘 2025-01-09 21:47

    本文旨在通过最基础的数学内容,剔除机器学习中复杂的术语,从零描述LLM的工作原理。

  • GPT 模型微调

    GPT 模型微调 2025-01-03 22:51

    GPT-2 是一种基于 Transformer 的生成模型,专注于生成连贯的文本。在 Hugging Face 的Transformers 库中,GPT-2 已经被应用于多种中文文本生成任务,如古诗词、歌词和对联生成等。 GPT-2模型 from transformers import BertTo

  • 超长文本训练 2025-01-03 14:36

    在自然语言处理(NLP)任务中,处理超长文本(通常指长度超过模型最大支持长度的文本)是一个常见的挑战。BERT等预训练模型通常具有固定的最大序列长度限制(例如,BERT-base的最大序列长度为512个标记)。当需要处理超过这个长度的文本时,需要采取特定的策略来确保模型能够有效地处理这些数据。 Be

  • 数据集分类均衡问题及其解决方案 2024-12-26 21:58

    数据集的类别均衡性对模型的性能有着至关重要的影响。当数据集中某些类别的样本数量远多于其他类别时,就会出现数据不均衡问题。这种不平衡可能导致模型在训练过程中偏向多数类,从而影响对少数类的预测性能。 问题描述 分类数据集统计 import pandas as pd # 读取CSV文件 csv_file

  • Quick start of LangChain

    Quick start of LangChain 2024-12-24 23:39

    本文内容 LangChain(大模型能力封装框架) 的基本使用 基于LangChain探索AGI时代原型 需提前安装环境依赖,以及设置环境变量,如果选择openai开放接口需要会上网 export OPENAI_API_KEY="b233095ff.00gIXhXyE8yNc3Hx" export

  • 敏捷开发

    敏捷开发 2024-08-21 10:00

    一、敏捷宣言 12原则 最重要的目标是通过持续不断尽早交付有价值的软件使客户满意; 欣然面对需求变更即使在开发后期。为了客户的竞争优势。敏捷拥抱变化; 经常的交付可工作的软件,倾向于采取较短的周期; 业务人员与研发人员每天要一起工作; 激发个体斗志,以他们为核心搭建项目。提供所需环境和支持,辅以信任

  • Java应用生产故障排查 2024-06-10 21:12

    对于线上遇到的 “疑难杂症”,需要通过理性的思维去分析问题、排查问题、定位问题、解决问题,同时,如果解决掉所遇到的问题或瓶颈后,也可以在能力范围之内尝试最优解以及适当考虑拓展性。 JVM线上环境常见故障与排查思路 JVM在线上环境往往会出现一下问题: JVM内存泄漏 JVM内存溢出 <