youssofal/
MTPLX
Native MTP Speculative Decoding On Apple Silicon | 2x - 2.5x decode TPS increase at temp 0.6 | MLX-native, OpenAI API/Anthropic-compatible serving, no external drafter.
2029 forksPython· 分析于 3w ago
一句话定位
在 Apple Silicon 上使用 MLX 框架实现多 Token 预测推测解码,通过让 draft model 一次预测多个 token 来加速 LLM 推理。
判断
小众星数少、生态小众,只针对 Apple Silicon 用户有实际价值。主流服务器场景下 vLLM/TGI 的实现更成熟、性能更稳定,MLX 生态尚未成为主流推理选项。
解决一个特定问题。用得到的人觉得是宝藏,多数人无感。
30 秒上手
基于语言推断的标准命令$ pip install mtplx标准 PyPI 包名,必要时按 README 调整
最适合的 3 个场景
- 1MacBook/Mac Studio 本地运行 Qwen 等大模型时获得 2-2.5 倍的吞吐量提升
- 2在 Apple M 系列芯片上以更低延迟进行本地 AI 对话
- 3开发者在 Mac 上进行本地模型微调后的推理部署
同类对比
vsvLLM
vsllama.cpp
vsText Generation Inference (TGI)
完整对比报告(含矩阵评分)即将上线,订阅后第一时间收到。
值得追的健康信号
每周 LLM 自动巡检总 Star
202→
Forks
9→
语言
Python→
分析时间
3w ago→
x
作者短评
用得到的人会觉得是宝。多数人可以放进 "later" list 不焦虑。
— xaikey · 基于 LLM 分析 + 个人判断
Topics
anthropic-compatibleapple-siliconinference-enginelocal-aimetalmlxmtpmtplxnative-mtpopenai-compatibleqwenqwen3-nextspeculative-decodingspeculative-sampling
其他 Python 趋势仓库
Significant-Gravitas/
AutoGPT
AutoGPT 是一个基于大语言模型的自主 AI Agent 框架,通过让 AI 自主规划、执行、反思来完成复杂任务,本质上是一个 LLM + 工具调用的提示工程封装。
NousResearch/
hermes-agent
一个基于开源大模型的模块化AI agent框架,强调可扩展性和可定制性。
AUTOMATIC1111/
stable-diffusion-webui
一个将 Stable Diffusion 模型封装成可视化 Web 界面的开源工具,让用户无需命令行即可通过浏览器进行 AI 图像生成,支持文生图、图生图、ControlNet、LoRA 等主流功能。
本页 LLM 分析由 MiniMax-M2.7 / Claude Haiku 4.5 等模型生成 · 不构成生产环境技术选型建议