🔧LLM - clearwind

简述 Transformer 训练计算过程（刷新渲染） 2025-01-11 23:54

Step1-定义数据集用于创建 ChatGPT 的数据集为 570 GB。假设数据集为一下内容：白日依山尽，黄河入海流。马无夜草不肥，人无横财不富。天行健，君子以自强不息，地势坤，君子以厚德载物。 Step2-计算词汇量
基于 internlm2 和 LangChain 搭建你的知识库 2025-02-27 14:25

环境配置 internlm2 模型部署创建虚拟环境 conda create -n deepseek_rag python=3.10 -y conda activate deepseek_rag 并在环境中安装运行 demo 所需要的依赖 # 升级pip python -m pip install
Llama-Factory 微调全过程 2025-01-13 22:28

数据集数据集下载：通过ModelScope获取原始数据集https://modelscope.cn/datasets/w10442005/ruozhiba_qa/summary git clone https://www.modelscope.cn/datasets/w10442005/ruozh
矩阵分解 2025-01-11 15:48

矩阵分解是一种通过将较大的矩阵分解为多个小矩阵已降低计算复杂度的技术，在模型训练微调上，通常用于简化模型、提高训练效率。矩阵分解有多种形式，一下是几种常见的模型微调权重分解方法：奇异值分解将矩阵分解为三个矩阵乘积的方法： W=U \Sigma V^{T} 其中： W是原始权重矩阵。 U和V是正交
LLM奥秘 2025-01-09 21:47

本文旨在通过最基础的数学内容，剔除机器学习中复杂的术语，从零描述LLM的工作原理。
GPT 模型微调 2025-01-03 22:51

GPT-2 是一种基于 Transformer 的生成模型，专注于生成连贯的文本。在 Hugging Face 的Transformers 库中，GPT-2 已经被应用于多种中文文本生成任务，如古诗词、歌词和对联生成等。 GPT-2模型 from transformers import BertTo
超长文本训练 2025-01-03 14:36

在自然语言处理（NLP）任务中，处理超长文本（通常指长度超过模型最大支持长度的文本）是一个常见的挑战。BERT等预训练模型通常具有固定的最大序列长度限制（例如，BERT-base的最大序列长度为512个标记）。当需要处理超过这个长度的文本时，需要采取特定的策略来确保模型能够有效地处理这些数据。 Be
数据集分类均衡问题及其解决方案 2024-12-26 21:58

数据集的类别均衡性对模型的性能有着至关重要的影响。当数据集中某些类别的样本数量远多于其他类别时，就会出现数据不均衡问题。这种不平衡可能导致模型在训练过程中偏向多数类，从而影响对少数类的预测性能。问题描述分类数据集统计 import pandas as pd # 读取CSV文件 csv_file
Quick start of LangChain 2024-12-24 23:39

本文内容 LangChain（大模型能力封装框架）的基本使用基于LangChain探索AGI时代原型需提前安装环境依赖，以及设置环境变量，如果选择openai开放接口需要会上网 export OPENAI_API_KEY="b233095ff.00gIXhXyE8yNc3Hx" export
Understanding LLMs from Scratch Using Middle School Math 2025-01-10 21:23

In this article, we talk about how Large Language Models (LLMs) work, from scratch — assuming only that you know how to add and multiply two numbers.
敏捷开发 2024-08-21 10:00

一、敏捷宣言 12原则最重要的目标是通过持续不断尽早交付有价值的软件使客户满意；欣然面对需求变更即使在开发后期。为了客户的竞争优势。敏捷拥抱变化；经常的交付可工作的软件，倾向于采取较短的周期；业务人员与研发人员每天要一起工作；激发个体斗志，以他们为核心搭建项目。提供所需环境和支持，辅以信任
Java应用生产故障排查 2024-06-10 21:12

对于线上遇到的 “疑难杂症”，需要通过理性的思维去分析问题、排查问题、定位问题、解决问题，同时，如果解决掉所遇到的问题或瓶颈后，也可以在能力范围之内尝试最优解以及适当考虑拓展性。 JVM线上环境常见故障与排查思路 JVM在线上环境往往会出现一下问题： JVM内存泄漏 JVM内存溢出 <