youssofal/

MTPLX

Native MTP Speculative Decoding On Apple Silicon | 2x - 2.5x decode TPS increase at temp 0.6 | MLX-native, OpenAI API/Anthropic-compatible serving, no external drafter.

2029 forksPython· 分析于 3w ago
一句话定位

在 Apple Silicon 上使用 MLX 框架实现多 Token 预测推测解码,通过让 draft model 一次预测多个 token 来加速 LLM 推理。

判断
小众

星数少、生态小众,只针对 Apple Silicon 用户有实际价值。主流服务器场景下 vLLM/TGI 的实现更成熟、性能更稳定,MLX 生态尚未成为主流推理选项。

解决一个特定问题。用得到的人觉得是宝藏,多数人无感。

30 秒上手

基于语言推断的标准命令
$ pip install mtplx

标准 PyPI 包名,必要时按 README 调整

最适合的 3 个场景
  • 1MacBook/Mac Studio 本地运行 Qwen 等大模型时获得 2-2.5 倍的吞吐量提升
  • 2在 Apple M 系列芯片上以更低延迟进行本地 AI 对话
  • 3开发者在 Mac 上进行本地模型微调后的推理部署
同类对比
vsvLLM
vsllama.cpp
vsText Generation Inference (TGI)

完整对比报告(含矩阵评分)即将上线,订阅后第一时间收到。

值得追的健康信号

每周 LLM 自动巡检
总 Star
202
Forks
9
语言
Python
分析时间
3w ago
x
作者短评

用得到的人会觉得是宝。多数人可以放进 "later" list 不焦虑。

— xaikey · 基于 LLM 分析 + 个人判断
Topics
anthropic-compatibleapple-siliconinference-enginelocal-aimetalmlxmtpmtplxnative-mtpopenai-compatibleqwenqwen3-nextspeculative-decodingspeculative-sampling

其他 Python 趋势仓库

本页 LLM 分析由 MiniMax-M2.7 / Claude Haiku 4.5 等模型生成 · 不构成生产环境技术选型建议