LLM.INT8භාවිතා කරමින් ජීපීටී-නියෝක්ස් තක්සේරු කරන්න () පරීක්ෂණ කට්ටලය මත ප්රමාණකරණය

මෙමකේතය LLM.INT8 () ප්රමාණකරණය භාවිතා කරමින් ජීපීටී-නියෝක්ස් ඇගයීමට ලක් කරයි, කාර්යයන් කට්ටලයක් මත.

14importtorch15fromtorchimportnn1617fromlabmlimportmonit18fromlabml\_nn.neox.evaluationimportrun\_eval\_harness19fromlabml\_nn.neox.modelimportLayerGenerator

22defmain():

උපාංගය

24device=torch.device('cuda:0')

පාවෙන16 හි ස්ථර CPU තුළට පටවන්න. අපි ස්ථර පසුව int8 බවට පරිවර්තනය කරමු, මන්ද ස්ථර GPU වෙත පැටවීමෙන් පසු පියාසර කිරීම CUDA මතක ඛණ්ඩනය වීමට හේතු වේ (3GB පමණ මතකය කැබලි වීම නිසා අහිමි විය හැක).

29layer\_generator=LayerGenerator(is\_clone\_layers=True,30dtype=torch.float16,31device=torch.device('cpu'),32)

ස්ථරපූරණය කරන්න

34layers=list(layer\_generator.load())

මෙයCUDA මතක ඛණ්ඩනය අඩු කරයි

37forlayerinmonit.iterate('Convert to int8',layers,is\_children\_silent=True):38layer\_generator.post\_load\_prepare(layer,39device=device,40is\_llm\_int8=True,41llm\_int8\_threshold=6.0,42)43layer.to(device)

nn.Sequential ආකෘතිය සාදන්න

46model=nn.Sequential(\*layers)

ඇගයීම් පටි ධාවනය කරන්න

49print(run\_eval\_harness(model,'half\_precision',[],device))

53if\_\_name\_\_=='\_\_main\_\_':54main()

Trending Research Papers labml.ai