README.zh-CN.md
<a href="https://trendshift.io/repositories/13944" target="_blank"></a>
一个强大的大型语言模型微调数据集创建工具
如果喜欢本项目,请给本项目留下 Star⭐️,或者请作者喝杯咖啡呀 => 打赏作者 ❤️!
</div>Easy Dataset 是一个专为创建大型语言模型数据集而设计的应用程序。它提供了直观的界面,内置了强大的文档解析工具、智能分割算法、数据清洗和数据增强能力,可以将各种格式的领域文献转化为高质量结构化数据集,可用于模型微调、RAG、模型效果评估等场景。
🎉🎉 Easy Dataset 1.7.0 版本上线全新的评估能力,你可以轻松将领域文献转换为评估数据集(测试集),并且可以自动执行多维度评估任务,另外还配备人工盲测系统,可以轻松助你完成垂直领域模型评估、模型微调后效果评估、RAG 召回率评估等需求,使用教程: https://www.bilibili.com/video/BV1CRrVB7Eb4/
https://github.com/user-attachments/assets/6ddb1225-3d1b-4695-90cd-aa4cb01376a8
<b>Setup.exe</b>
</a>
</td>
<td align="center" valign="middle">
<a href='https://github.com/ConardLi/easy-dataset/releases/latest'>
<b>Intel</b>
</a>
</td>
<td align="center" valign="middle">
<a href='https://github.com/ConardLi/easy-dataset/releases/latest'>
<b>M</b>
</a>
</td>
<td align="center" valign="middle">
<a href='https://github.com/ConardLi/easy-dataset/releases/latest'>
<b>AppImage</b>
</a>
</td>
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install
npm run build
npm run start
http://localhost:1717git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker-compose.yml 文件:services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
- ./prisma:/app/prisma
restart: unless-stopped
注意: 建议直接使用当前代码仓库目录下的
local-db和prisma文件夹作为挂载路径,这样可以和 NPM 启动时的数据库路径保持一致。
注意: 数据库文件会在首次启动时自动初始化,无需手动执行
npm run db:push。
docker-compose up -d
http://localhost:1717如果你想自行构建镜像,可以使用项目根目录中的 Dockerfile:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker build -t easy-dataset .
docker run -d \
-p 1717:1717 \
-v ./local-db:/app/local-db \
-v ./prisma:/app/prisma \
--name easy-dataset \
easy-dataset
注意: 建议直接使用当前代码仓库目录下的
local-db和prisma文件夹作为挂载路径,这样可以和 NPM 启动时的数据库路径保持一致。
注意: 数据库文件会在首次启动时自动初始化,无需手动执行
npm run db:push。
http://localhost:1717我们欢迎社区的贡献!如果您想为 Easy Dataset 做出贡献,请按照以下步骤操作:
git checkout -b feature/amazing-feature)git commit -m '添加一些惊人的功能')git push origin feature/amazing-feature)请确保适当更新测试并遵守现有的编码风格。
https://docs.easy-dataset.com/geng-duo/lian-xi-wo-men
本项目采用 AGPL 3.0 许可证 - 有关详细信息,请参阅 LICENSE 文件。
如果您觉得此项目有帮助,请考虑以下列格式引用
@misc{miao2025easydataset,
title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
year={2025},
eprint={2507.04009},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.04009}
}