README_ZH.md
KTransformers 是一个专注于通过 CPU-GPU 异构计算实现大语言模型高效推理和微调的研究项目。目前两个面向用户的能力都来自 kt-kernel 源码目录:推理 和 SFT。
用于异构 LLM 推理的 CPU 优化内核操作。
主要特性:
快速开始:
cd kt-kernel
pip install .
使用场景:
性能示例:
| 模型 | 硬件配置 | 总吞吐量 | 输出吞吐量 |
|---|---|---|---|
| DeepSeek-R1-0528 (FP8) | 8×L20 GPU + Xeon Gold 6454S | 227.85 tokens/s | 87.58 tokens/s(8 路并发) |
👉 完整文档 →
KTransformers × LLaMA-Factory 集成,面向超大 MoE 模型微调。
主要特性:
| 模型 | GPU 内存 | 训练速度 | 硬件 |
|---|---|---|---|
| DeepSeek-V3 | ~80GB 总计 | 3.7 it/s | 4x RTX 4090 |
| DeepSeek-R1 | ~80GB 总计 | 3.7 it/s | 4x RTX 4090 |
| Qwen3-30B-A3B | ~24GB 总计 | 8+ it/s | 1x RTX 4090 |
快速开始:
cd /path/to/LLaMA-Factory
pip install -e .
pip install -r requirements/ktransformers.txt
CUDA_VISIBLE_DEVICES=0,1,2,3 accelerate launch \
--config_file examples/ktransformers/accelerate/fsdp2_kt_int8.yaml \
src/train.py \
examples/ktransformers/train_lora/qwen3_5moe_lora_sft_kt.yaml
👉 Quick Start → 👉 完整文档 →
如果您在研究中使用了 KTransformers,请引用我们的论文:
@inproceedings{10.1145/3731569.3764843,
title = {KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models},
author = {Chen, Hongtao and Xie, Weiyu and Zhang, Boxin and Tang, Jingqi and Wang, Jiahao and Dong, Jianwei and Chen, Shaoyuan and Yuan, Ziwei and Lin, Chen and Qiu, Chengyu and Zhu, Yuening and Ou, Qingliang and Liao, Jiaqi and Chen, Xianglin and Ai, Zhiyuan and Wu, Yongwei and Zhang, Mingxing},
booktitle = {Proceedings of the ACM SIGOPS 31st Symposium on Operating Systems Principles},
year = {2025}
}
由以下团队开发和维护:
我们欢迎贡献!请随时提交问题和拉取请求。
原始的集成 KTransformers 框架已归档到 archive/ 目录以供参考。该项目现在围绕 kt-kernel 源码树中的上述两个能力入口组织文档和维护。
有关原始文档以及完整的快速入门指南和示例,请参见: