rasbt/
LLMs-from-scratch
Implement a ChatGPT-like LLM in PyTorch from scratch, step by step
96k15k forksJupyter Notebook· 分析于 16h ago
一句话定位
从零实现 GPT 类 LLM 的 PyTorch 教程,按模块逐步构建 tokenizer、注意力机制、训练循环等核心组件,适合理解 LLM 内部工作原理。
判断
实用教育价值很高,是理解 LLM 源码的最佳入门路径之一,但它是教学代码不是生产库,不能用来训练真正的 GPT-3 级别模型,实际工程中调 transformers 直接得多。9.6 万星主要来自学习者而非用户。
在合适的场景下值得直接采用,但不是普适必装。
30 秒上手
基于语言推断的标准命令$ git clone https://github.com/rasbt/LLMs-from-scratch克隆后参考仓库 README
最适合的 3 个场景
- 1系统学习 Transformer 和 GPT 的底层原理,而非调 API
- 2作为 Coursera/书籍配套代码,跟踪学习路线
- 3从零复现后在此基础上魔改自己的小模型
同类对比
vskarpathy/minGPT
vshuggingface/transformers
vsEleutherAI/gpt-neox
完整对比报告(含矩阵评分)即将上线,订阅后第一时间收到。
值得追的健康信号
每周 LLM 自动巡检总 Star
96k→
Forks
15k→
语言
Jupyter Notebook→
分析时间
16h ago→
x
作者短评
符合「能用就用、不能用就放着」的标准。先收藏,等你下次遇到对应场景再 deep dive 不迟。
— xaikey · 基于 LLM 分析 + 个人判断
Topics
aiartificial-intelligenceattention-mechanismdeep-learningfinetuningfrom-scratchgenerative-aigptinstruction-tuninglanguage-modellarge-language-modelsllmmachine-learningnatural-language-processingpretrainingpythonpytorchtokenizertransformers
其他 Jupyter Notebook 趋势仓库
microsoft/
generative-ai-for-beginners
微软官方出品的基础教程,教你怎么用 Azure OpenAI 的 API 快速调用 GPT、DALL-E 等生成式模型跑几个 Demo
anthropics/
anthropic-cookbook
Anthropic 官方维护的 Claude 实战 notebook 集。Tool Use / RAG / 视觉 / Agent 全有,且随 SDK 一起升级。
raiyanyahya/
how-to-train-your-gpt
Jupyter Notebook形式的教程,从零实现GPT架构,每行代码都有详细注释,适合初学者理解LLM原理
本页 LLM 分析由 MiniMax-M2.7 / Claude Haiku 4.5 等模型生成 · 不构成生产环境技术选型建议