transformers/llm/eval/README.md
用于评估和分析大语言模型(LLM)的性能。以下是各个脚本和目录的功能简介:
-m:模型配置文件路径-d:数据集名称python evaluate_chat_ceval.py -m /path/to/model/config.json -d /path/to/ceval
-m:模型配置文件路径-d:数据集名称python evaluate_perplexity.py -m /path/to/model/config.json -d "wikitext/wikitext-2-raw-v1"
-m:模型配置文件路径-d:数据集名称pip install lm_eval
python llm_eval.py -m /path/to/model/config.json -d "arc_challenge"
ppl_eval使用-o:目标目录-d:数据集名称python download_data.py -o wiki -d "wikitext/wikitext-2-raw-v1"
ppl_evalevaluate_perplexity.py相似,计算ppl值,但支持纯C++环境使用download_data.py的目标目录)./ppl_eval ../transformers/llm/export/model/config.json ../transformers/llm/eval/wiki