让AI知识触手可及

首页 » 【模型测试】大模型评测工具lm-evaluation-harness的使用方法总结

前言

在大模型的测评中,我们往往需要借助一些自动化工具来完成测评任务,本章将介绍常见的自动化测评工具:lm-evaluation-harness

工具简介

lm-evaluation-harness 是由 EleutherAI 开发的开源工具,用于统一评估语言模型(如 GPT、LLaMA 等)在多样化任务中的性能。支持 200+ 评测任务,涵盖文本生成、逻辑推理、数学计算等领域。

工具使用

1. 工具下载

git clone https://github.com/EleutherAI/lm-evaluation-harness.git

2. 安装工具

2.1 创建虚拟环境

安装依赖之前,最好通过conda创建一个虚拟环境,然后进入虚拟环境安装依赖。

conda create -n lm_eval python=3.10
conda activate lm_eval

剩余内容需解锁后查看

您需要付费解锁才能查看当前内容

已付费?登录刷新
声明:一起AI技术所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
原创不易,内容版权受保护,感谢您的尊重与支持。
0 0 投票数
Article Rating
订阅评论
提醒
guest的头像
0 评论
内联反馈
查看所有评论
Picture of Dongming
Dongming
见天地,见众生,见自己。

分类文章

推荐活动

推荐文章

【项目实战】通过多模态+LangGraph实现PPT生成助手
【课程总结】day24(上):大模型三阶段训练方法(LLaMa Factory)
32B 稠密模型推理能力超越 R1?秘密 AI 团队发布推理小模型 AM-Thinking-v1
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o
【模型测试】基于OpenCompass实现Agent最为苛刻的基准评测:GAIA
【模型测试】基于OpenCompass的ai-eval-system在线评测系统
【模型测试】基于OpenCompass构建Dify应用的自定义评测体系
【学习总结】MCP协议之MCP简述
【模型测试】大模型评测工具OpenCompass使用方法总结
0
希望看到您的想法,请您发表评论x
滚动至顶部