examples/f16-p7b-p13b-33b/README.md
为了快速评测相关模型的实际表现,本项目在给定相同的prompt的情况下,在一些常见任务上对比测试了本项目的中文Alpaca-Plus-7B、中文Alpaca-Plus-13B、中文Alpaca-33B的效果。生成回复具有随机性,受解码超参、随机种子等因素影响。以下相关评测并非绝对严谨,测试结果仅供晾晒参考,欢迎自行体验。
⚠️ Alpaca-Plus-7B和Alpaca-Plus-13B结果沿用之前的生成结果。33B除多轮对话之外的任务由huggingface原生接口进行解码(F16),多轮对话由llama.cpp解码(q4_0量化版)。
| 测试任务 | 详细样例 | 样例数 | Alpaca-Plus-7B | Alpaca-Plus-13B | Alpaca-33B |
|---|---|---|---|---|---|
| 💯总平均分 | - | 200 | 75.3 | 79.4 | 👍🏻82.0 |
| 知识问答 | QA.md | 20 | 70.5 | 79.5 | 👍🏻82.3 |
| 开放式问答 | OQA.md | 20 | 👍🏻80.5 | 👍🏻80 | 78.5 |
| 数值计算、推理 | REASONING.md | 20 | 51 | 61.5 | 👍🏻84.5 |
| 诗词、文学、哲学 | LITERATURE.md | 20 | 78.5 | 👍🏻81.3 | 76 |
| 音乐、体育、娱乐 | ENTERTAINMENT.md | 20 | 72.3 | 👍🏻76.8 | 72.5 |
| 写信、写文章 | GENERATION.md | 20 | 81 | 👍🏻86.5 | 79 |
| 文本翻译 | TRANSLATION.md | 20 | 86.8 | 89.3 | 👍🏻92.3 |
| 多轮交互 | DIALOGUE.md | 20 | 80.3 | 👍🏻81.3 | 78 |
| 代码编程 | CODE.md | 20 | 62.5 | 67.5 | 👍🏻84.0 |
| 伦理、拒答 | ETHICS.md | 20 | 89.8 | 90.5 | 👍🏻92.5 |
说明:
测试中使用了统一的解码参数,以下是llama.cpp的示例:
./main -m zh-alpaca-models/{Plus-7B,Plus-13B}/ggml-model-q8_0.bin --color -f ./prompts/alpaca.txt -ins \
-b 16 -c 2048 -n 512 -t 6 \
--temp 0.2 --top_k 40 --top_p 0.9 \
--repeat_penalty 1.1
注:可能并不适合所有任务。实际使用时,对话、写作类等自由生成类任务可适当调高temp。
The followings are ChatGPT-like systems' outputs based on a single prompt. Please rate an overall score on a ten point scale for each system and give a short explanation to justify your scores. Please try not to give the same scores for different system unless they are indistinguishable.
Prompt:
<prompt-input>
System1:
System2:
注:优先使用GPT-4打分。由于GPT-4的交互次数限制,一部分打分由ChatGPT(gpt-3.5-turbo)进行。