joshawome/

chainreason

A benchmark for evaluating LLM reasoning on Ethereum and DeFi tasks

387268 forksPython· 分析于 2w ago
一句话定位

chainreason 是一个用于测试大语言模型在以太坊和 DeFi 场景下推理能力的基准数据集和评测框架。

判断
小众

387 stars 表明这是个小众的学术项目,主要服务于区块链+AI 的研究社区。实际开发中几乎不会用到,通用模型在 DeFi 场景的表现目前也远不够可靠,这个基准更多是论文发表用途而非实用工具。

解决一个特定问题。用得到的人觉得是宝藏,多数人无感。

30 秒上手

基于语言推断的标准命令
$ pip install chainreason

标准 PyPI 包名,必要时按 README 调整

最适合的 3 个场景
  • 1学术研究者评估自己的微调模型在 DeFi 领域的表现
  • 2比较 GPT-4、Claude 等商用模型处理链上任务的实际能力差距
  • 3区块链项目方测试 AI 助手回答合约交互问题的准确性
同类对比
vsMMLU
vsBIG-Bench
vsHumanEval

完整对比报告(含矩阵评分)即将上线,订阅后第一时间收到。

值得追的健康信号

每周 LLM 自动巡检
总 Star
387
Forks
268
语言
Python
分析时间
2w ago
x
作者短评

用得到的人会觉得是宝。多数人可以放进 "later" list 不焦虑。

— xaikey · 基于 LLM 分析 + 个人判断

其他 Python 趋势仓库

本页 LLM 分析由 MiniMax-M2.7 / Claude Haiku 4.5 等模型生成 · 不构成生产环境技术选型建议