joshawome/
chainreason
A benchmark for evaluating LLM reasoning on Ethereum and DeFi tasks
387268 forksPython· 分析于 2w ago
一句话定位
chainreason 是一个用于测试大语言模型在以太坊和 DeFi 场景下推理能力的基准数据集和评测框架。
判断
小众387 stars 表明这是个小众的学术项目,主要服务于区块链+AI 的研究社区。实际开发中几乎不会用到,通用模型在 DeFi 场景的表现目前也远不够可靠,这个基准更多是论文发表用途而非实用工具。
解决一个特定问题。用得到的人觉得是宝藏,多数人无感。
30 秒上手
基于语言推断的标准命令$ pip install chainreason标准 PyPI 包名,必要时按 README 调整
最适合的 3 个场景
- 1学术研究者评估自己的微调模型在 DeFi 领域的表现
- 2比较 GPT-4、Claude 等商用模型处理链上任务的实际能力差距
- 3区块链项目方测试 AI 助手回答合约交互问题的准确性
同类对比
vsMMLU
vsBIG-Bench
vsHumanEval
完整对比报告(含矩阵评分)即将上线,订阅后第一时间收到。
值得追的健康信号
每周 LLM 自动巡检总 Star
387→
Forks
268→
语言
Python→
分析时间
2w ago→
x
作者短评
用得到的人会觉得是宝。多数人可以放进 "later" list 不焦虑。
— xaikey · 基于 LLM 分析 + 个人判断
其他 Python 趋势仓库
Significant-Gravitas/
AutoGPT
AutoGPT 是一个基于大语言模型的自主 AI Agent 框架,通过让 AI 自主规划、执行、反思来完成复杂任务,本质上是一个 LLM + 工具调用的提示工程封装。
NousResearch/
hermes-agent
一个基于开源大模型的模块化AI agent框架,强调可扩展性和可定制性。
AUTOMATIC1111/
stable-diffusion-webui
一个将 Stable Diffusion 模型封装成可视化 Web 界面的开源工具,让用户无需命令行即可通过浏览器进行 AI 图像生成,支持文生图、图生图、ControlNet、LoRA 等主流功能。
本页 LLM 分析由 MiniMax-M2.7 / Claude Haiku 4.5 等模型生成 · 不构成生产环境技术选型建议