Back to Annotated Deep Learning Paper Implementations

LLM.INT8භාවිතා කරමින් ජීපීටී-නියෝක්ස් තක්සේරු කරන්න () පරීක්ෂණ කට්ටලය මත ප්රමාණකරණය

docs/si/neox/evaluation/llm_int8.html

latest2.4 KB
Original Source

homeneoxevaluation

View code on Github

#

LLM.INT8භාවිතා කරමින් ජීපීටී-නියෝක්ස් තක්සේරු කරන්න () පරීක්ෂණ කට්ටලය මත ප්රමාණකරණය

මෙමකේතය LLM.INT8 () ප්රමාණකරණය භාවිතා කරමින් ජීපීටී-නියෝක්ස් ඇගයීමට ලක් කරයි, කාර්යයන් කට්ටලයක් මත.

14importtorch15fromtorchimportnn1617fromlabmlimportmonit18fromlabml\_nn.neox.evaluationimportrun\_eval\_harness19fromlabml\_nn.neox.modelimportLayerGenerator

#

22defmain():

#

උපාංගය

24device=torch.device('cuda:0')

#

පාවෙන16 හි ස්ථර CPU තුළට පටවන්න. අපි ස්ථර පසුව int8 බවට පරිවර්තනය කරමු, මන්ද ස්ථර GPU වෙත පැටවීමෙන් පසු පියාසර කිරීම CUDA මතක ඛණ්ඩනය වීමට හේතු වේ (3GB පමණ මතකය කැබලි වීම නිසා අහිමි විය හැක).

29layer\_generator=LayerGenerator(is\_clone\_layers=True,30dtype=torch.float16,31device=torch.device('cpu'),32)

#

ස්ථරපූරණය කරන්න

34layers=list(layer\_generator.load())

#

මෙයCUDA මතක ඛණ්ඩනය අඩු කරයි

37forlayerinmonit.iterate('Convert to int8',layers,is\_children\_silent=True):38layer\_generator.post\_load\_prepare(layer,39device=device,40is\_llm\_int8=True,41llm\_int8\_threshold=6.0,42)43layer.to(device)

#

nn.Sequential ආකෘතිය සාදන්න

46model=nn.Sequential(\*layers)

#

ඇගයීම් පටි ධාවනය කරන්න

49print(run\_eval\_harness(model,'half\_precision',[],device))

#

53if\_\_name\_\_=='\_\_main\_\_':54main()

Trending Research Paperslabml.ai