文章目录
Toggle前言
在大模型的测评中,我们往往需要借助一些自动化工具来完成测评任务,本章将介绍常见的自动化测评工具:lm-evaluation-harness
。
工具简介
lm-evaluation-harness
是由 EleutherAI 开发的开源工具,用于统一评估语言模型(如 GPT、LLaMA 等)在多样化任务中的性能。支持 200+ 评测任务,涵盖文本生成、逻辑推理、数学计算等领域。
工具使用
1. 工具下载
git clone https://github.com/EleutherAI/lm-evaluation-harness.git
2. 安装工具
2.1 创建虚拟环境
安装依赖之前,最好通过conda创建一个虚拟环境,然后进入虚拟环境安装依赖。
conda create -n lm_eval python=3.10
conda activate lm_eval
剩余内容需解锁后查看