clearwind
clearwind
打开菜单
首页
分类
登录
→
clearwind
clearwind
关闭菜单
首页
分类
登录
clearwind
50 篇文章
简述 Transformer 训练计算过程(刷新渲染)
Step1-定义数据集 用于创建 ChatGPT 的数据集为 570 GB。假设数据集为一下内容: 白日依山尽,黄河入海流。 马无夜草不肥,人无横财不富。 天行健,君子以自强不息,地势坤,君子以厚德载物。 Step2-计算词汇量
clearwind
2025-01-11 23:54
基于Deepseek的AI试题问答
需求 项目目标 构建一个基于大模型微调的AI试题问答系统,支持数学、历史、英语等多学科试题的智能解析、答案生成及知识点关联,适配考试场景的自动评分与错题分析功能。 核心功能需求 试题交互与解析:支持选择、填空、判断、问答等题型交互,自动生成试题解析(含解题步骤与知识点标注)。 智能查询
clearwind
2025-02-28 09:46
基于 internlm2 和 LangChain 搭建你的知识库
环境配置 internlm2 模型部署 创建虚拟环境 conda create -n deepseek_rag python=3.10 -y conda activate deepseek_rag 并在环境中安装运行 demo 所需要的依赖 # 升级pip python -m pip install
clearwind
2025-02-27 14:25
xtuner微调大模型
构建环境 # 创建虚拟环境 conda create --name xtuner-env python=3.10 -y conda activate xtuner-env # 安装xtuner git clone https://github.com/InternLM/xtuner.git cd
clearwind
2025-02-26 09:31
Llama-Factory 微调全过程
数据集 数据集下载:通过ModelScope获取原始数据集https://modelscope.cn/datasets/w10442005/ruozhiba_qa/summary git clone https://www.modelscope.cn/datasets/w10442005/ruozh
clearwind
2025-01-13 22:28
矩阵分解
矩阵分解是一种通过将较大的矩阵分解为多个小矩阵已降低计算复杂度的技术,在模型训练微调上,通常用于简化模型、提高训练效率。矩阵分解有多种形式,一下是几种常见的模型微调权重分解方法: 奇异值分解 将矩阵分解为三个矩阵乘积的方法: W=U \Sigma V^{T} 其中: W是原始权重矩阵。 U和V是正交
clearwind
2025-01-11 15:48
LLM奥秘
本文旨在通过最基础的数学内容,剔除机器学习中复杂的术语,从零描述LLM的工作原理。
clearwind
2025-01-09 21:47
LLaMA-Factory 导出GGUF 部署Ollama
相关阅读http://zxse.cn/archives/1736429562536http://zxse.cn/archi
clearwind
2025-01-09 23:32
LLaMA-Factory QuickStart
简介https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md LLama-Factory整合主流训练微调技术,适配LLaMA、Qwen、ChatGpt等主流开源模型,包含预训练(pt),指令微调(sft),基于人工反馈的对齐(rl
clearwind
2025-01-09 21:32
Llama
Ollama 安装Ollamahttps://ollama.com/download 使用Ollama 启动Ollama ollama serve 拉取模型 ollama pull llama3 </
clearwind
2025-01-05 17:45
模型词汇表修改及模型训练
在自然语言处理(NLP)任务中,词汇表(vocab)是模型理解文本的基础。一个良好的词汇表可以显著提升模型的性能和泛化能力。 词汇表的修改 加载预训练模型和分词器 首先加载预训练的BERT模型及其对应的分词器(`BertTokenizer`)。以下是代码示例: from transformers i
clearwind
2025-01-04 17:25
Transformer 架构详解
Transformer 是一种神经网络架构。Transformer 最初在2017年的论文《Attention is All You Need》中被提出,并迅速成为深度学习模型的首选架构,广泛应用于文本生成、音频生成、图像识别、蛋白质结构预测等多个领域。 核心组件:每个基于Transformer的文
clearwind
2025-01-03 23:41