Back to Annotated Deep Learning Paper Implementations

ට්රාන්ස්ෆෝමර්ස්විචය

docs/si/transformers/switch/index.html

latest15.8 KB
Original Source

hometransformersswitch

[View code on Github](https://github.com/labmlai/annotated_deep_learning_paper_implementations/tree/master/labml_nn/transformers/switch/ init.py)

#

ට්රාන්ස්ෆෝමර්ස්විචය

මෙයකඩදාසි ස්විච් ට්රාන්ස්ෆෝමර්වල කුඩාපයිටෝච් ක්රියාත්මක කිරීමකි: සරල හා කාර්යක්ෂම ස්පාර්ටිටි සහිත ට්රිලියන පරාමිති ආකෘති වලට පරිමාණය කිරීම. අපගේ ක්රියාත්මක කිරීම සඳහා ඇත්තේ පරාමිතීන් මිලියන කිහිපයක් පමණක් වන අතර සමාන්තරව බෙදා හරින ලද පුහුණුව ආදර්ශයට නොගනී. එය තනි GPU පුහුණුව කරන්නේ, නමුත් අපි කඩදාසි විස්තර කර ඇති පරිදි මාරුවීමේ සංකල්පය ක්රියාත්මක කරමු.

ස්විච්ට්රාන්ස්ෆෝමරය ටෝකනය මත පදනම්ව පරාමිතීන් අතර මාරුවීමෙන් එක් එක් ටෝකනය සඳහා විවිධ පරාමිතීන් භාවිතා කරයි. එබැවින්, එක් එක් ටෝකනය සඳහා තෝරා ගනු ලබන්නේ පරාමිතීන්ගෙන් කොටසක් පමණි. එබැවින් ඔබට වැඩි පරාමිතීන් තිබිය හැකි නමුත් අඩු පරිගණකමය පිරිවැයක් ඇත.

මාරුවීමසිදුවන්නේ එක් එක් ට්රාන්ස්ෆෝමර් බ්ලොක් එකේ ස්ථාන-නැණවත් Feedforward ජාලයේ (FFN) ය. ස්ථාන-නැණවත් පෝෂක ජාලය අනුක්රමිකව පූර්ණ සම්බන්ධිත ස්ථර දෙකකින් සමන්විත වේ. ස්විච් ට්රාන්ස්ෆෝමරයේ අපට FFNs (බහු විශේෂ experts යින්) කිහිපයක් ඇති අතර, රවුටරයක් මත පදනම්ව භාවිතා කළ යුත්තේ කුමන එකද යන්න අපි තෝරා ගත්තෙමු. ප්රතිදානය යනු එෆ්එෆ්එන් තෝරා ගැනීම සඳහා වන සම්භාවිතාවන් සමූහයක් වන අතර, අපි ඉහළම සම්භාවිතාව ඇති එකක් තෝරාගෙන එය ඇගයීමට ලක් කරමු. එබැවින් අත්යවශ්යයෙන්ම පරිගණකමය පිරිවැය තනි එෆ්එෆ්එන් එකක් තිබීම හා සමාන වේ. අපගේ ක්රියාත්මක කිරීමේදී මෙය ඔබට බොහෝ හෝ විශාල එෆ්එෆ්එන්එස් ඇති විට සමාන්තරගත නොවේ. බෙදා හරින ලද සැකසුමක ඔබට එක් එක් FFN (සෑම ඉතා විශාල) වෙනත් උපාංගයක ඇත.

විශේෂexperts යන් (එෆ්එෆ්එන්එස්) අතර බර සමතුලිත කිරීම සඳහා කඩදාසි තවත් පාඩු යෙදුමක් හඳුන්වා දෙන අතර රවුටින් සමතුලිත නොවන විට ටෝකන අතහැර දැමීම සාකච්ඡා කරයි.

කුඩාෂේක්ස්පියර් දත්ත කට්ටුවේ ස්විච් ට්රාන්ස්ෆෝමරයක් පුහුණු කිරීම සඳහා පුහුණු කේතය සහ සටහන් පොතක් මෙන්න.

40importtorch41fromtorchimportnn4243fromlabml\_helpers.moduleimportModule44fromlabml\_nn.transformers.feed\_forwardimportFeedForward45fromlabml\_nn.transformers.mhaimportMultiHeadAttention46fromlabml\_nn.utilsimportclone\_module\_list

#

බහුFFNs අතර මාර්ගගත කිරීම

49classSwitchFeedForward(Module):

#

  • capacity_factor පරමාදර්ශී සමබර බරට සාපේක්ෂව සාධකයක් ලෙස එක් එක් විශේෂ expert යාගේ ධාරිතාවයි
  • drop_tokens ධාරිතාවයට වඩා වැඩි ටෝකන විශේෂ expert යෙකු වෙත යොමු කළහොත් ටෝකන අතහැර දැමිය යුතුද යන්න නියම කරයි
  • is_scale_prob රවුටින් සම්භාවිතාව අනුව එෆ්එෆ්එන් වෙත ආදානය ගුණ කළ යුතුද යන්න නියම කරයි
  • n_experts විශේෂඥයන් සංඛ්යාව
  • expert විශේෂ expert ස්තරය, එෆ්එෆ්එන් මොඩියුලයකි
  • d_model යනු ටෝකන කාවැද්දීම තුළ ඇති විශේෂාංග ගණන
  • d_ff යනු FFN හි සැඟවුණු ස්ථරයේ ඇති ලක්ෂණ ගණන
  • dropout FFN හි අතහැර දැමීමේ සම්භාවිතාව
54def\_\_init\_\_(self,\*,55capacity\_factor:float,56drop\_tokens:bool,57is\_scale\_prob:bool,58n\_experts:int,59expert:FeedForward,60d\_model:int):

#

71super().\_\_init\_\_()7273self.capacity\_factor=capacity\_factor74self.is\_scale\_prob=is\_scale\_prob75self.n\_experts=n\_experts76self.drop\_tokens=drop\_tokens

#

FFNsහි පිටපත් සාදන්න

79self.experts=clone\_module\_list(expert,n\_experts)

#

රවුටින්ස්තරය සහ සොෆ්ට්මැක්ස්

81self.switch=nn.Linear(d\_model,n\_experts)82self.softmax=nn.Softmax(dim=-1)

#

  • x හැඩය සහිත මාරුවීමේ මොඩියුලයට ආදානය වේ [seq_len, batch_size, d_model]
84defforward(self,x:torch.Tensor):

#

පසුවහැඩයන් වෙනස් කිරීම සඳහා හැඩය අල්ලා ගන්න

90seq\_len,batch\_size,d\_model=x.shape

#

අනුක්රමයසහ කණ්ඩායම් මානයන් සමතලා කරන්න

92x=x.view(-1,d\_model)

#

එක්එක් ටෝකන සඳහා මාර්ගගත කිරීමේ සම්භාවිතාව ලබා ගන්න. pi​(x)=∑jN​eh(x)j​eh(x)i​​ විශේෂ experts යන්ගේ සංඛ්යාව N n_experts කොතැනද සහ h(⋅) ටෝකන් කාවැද්දීම් රේඛීය පරිවර්තනය වේ.

98route\_prob=self.softmax(self.switch(x))

#

උපරිමමාර්ගගත කිරීමේ සම්භාවිතාව සහ මාර්ග ලබා ගන්න. අපි ඉහළම සම්භාවිතාව සහිත විශේෂ expert යා වෙත ගමන් කරමු

102route\_prob\_max,routes=torch.max(route\_prob,dim=-1)

#

එක්එක් විශේෂ. යා වෙත යන ටෝකන වල දර්ශක ලබා ගන්න

105indexes\_list=[torch.eq(routes,i).nonzero(as\_tuple=True)[0]foriinrange(self.n\_experts)]

#

ප්රතිදානයන්ගබඩා කිරීම සඳහා හිස් ටෙන්සරයක් ආරම්භ කරන්න

108final\_output=x.new\_zeros(x.shape)

#

එක්එක් විශේෂඥයාගේ ධාරිතාව. expertcapacity=numberofexpertstokensperbatch​×capacityfactor

114capacity=int(self.capacity\_factor\*len(x)/self.n\_experts)

#

එක්එක් විශේෂ. යා වෙත යොමු කරන ලද ටෝකන ගණන.

116counts=x.new\_tensor([len(indexes\_list[i])foriinrange(self.n\_experts)])

#

පහතවැටුණු ටෝකන වල හිස් ලැයිස්තුවක් ආරම්භ කරන්න

119dropped=[]

#

නම්පමණක් ටෝකන drop_tokens අතහරින්න True .

121ifself.drop\_tokens:

#

එක්එක් විශේෂ. යන් තුළ ටෝකන අතහරින්න

123foriinrange(self.n\_experts):

#

විශේෂexpert යා ධාරිතාව වැඩි නොවේ නම් නොසලකා හරින්න

125iflen(indexes\_list[i])\<=capacity:126continue

#

අතහැරදැමීමට පෙර දර්ශක කලවම් කරන්න

128indexes\_list[i]=indexes\_list[i][torch.randperm(len(indexes\_list[i]))]

#

පහතවැටුණු ටෝකන ලෙස ධාරිතාවයට වඩා ටෝකන එකතු කරන්න

130dropped.append(indexes\_list[i][capacity:])

#

විශේෂexpert යාගේ ධාරිතාව දක්වා ටෝකන පමණක් තබා ගන්න

132indexes\_list[i]=indexes\_list[i][:capacity]

#

විශේෂexpert එෆ්එෆ්එන්එස් හි ප්රතිදානයන් ලබා ගන්න

135expert\_output=[self.experts[i](x[indexes\_list[i],:])foriinrange(self.n\_experts)]

#

අවසානනිමැවුමට පවරන්න

138foriinrange(self.n\_experts):139final\_output[indexes\_list[i],:]=expert\_output[i]

#

පහතවැටුණු ටෝකන හරහා යන්න

142ifdropped:143dropped=torch.cat(dropped)144final\_output[dropped,:]=x[dropped,:]145146ifself.is\_scale\_prob:

#

සම්භාවිතාවවිසින් විශේෂඥ ප්රතිදානයන් විසින් ගුණ y=pi​(x)Ei​(x)

148final\_output=final\_output\*route\_prob\_max.view(-1,1)149else:

#

අගයන්පරිමාණය නොකරන්න, p^​p​=1 එවිට අනුක්රමික ගලා යන පරිදි ගුණ කරන්න (මෙය අප අත්හදා බැලූ දෙයකි).

152final\_output=final\_output\*(route\_prob\_max/route\_prob\_max.detach()).view(-1,1)

#

අවසානනිමැවුමේ හැඩය නැවත වෙනස් කරන්න [seq_len, batch_size, d_model]

155final\_output=final\_output.view(seq\_len,batch\_size,d\_model)

#

ආපසු

  • අවසානප්රතිදානය
  • එක්එක් විශේෂ. යා වෙත යොමු කරන ලද ටෝකන ගණන
  • එක්එක් විශේෂ. යා සඳහා සම්භාවිතාවන් එකතුව
  • ටෝකනගණන පහත වැටුණි.
  • තෝරාගත්විශේෂඥයින්ගේ සම්භාවිතාවන්

බරතුලනය කිරීමේ අලාභය සහ ලොග් වීම සඳහා මේවා භාවිතා වේ

166returnfinal\_output,counts,route\_prob.sum(0),len(dropped),route\_prob\_max

#

ස්විච්ට්රාන්ස්ෆෝමර් බ්ලොක්

ස්විච්පෝෂක මොඩියුලයේ අමතර ප්රතිදානයන් හැසිරවීමත් සමඟ මෙය සාමාන්ය ට්රාන්ස්ෆෝමර් කොටුවට සමාන වේ.

169classSwitchTransformerLayer(Module):

#

  • d_model ටෝකනය කාවැද්දීමේ ප්රමාණයයි
  • attn අවධානය යොමු මොඩියුලය වේ
  • feed_forward යනු ආහාර ඉදිරි මොඩියුලයයි (මෙම නඩුවේ මාරුවීමේ මොඩියුලය වන)
  • dropout_prob ස්වයං අවධානයෙන් පසු ඉවත් වීමේ සම්භාවිතාව සහ FFN
177def\_\_init\_\_(self,\*,178d\_model:int,179attn:MultiHeadAttention,180feed\_forward:SwitchFeedForward,181dropout\_prob:float):

#

188super().\_\_init\_\_()189self.size=d\_model190self.attn=attn191self.feed\_forward=feed\_forward192self.dropout=nn.Dropout(dropout\_prob)193self.norm\_self\_attn=nn.LayerNorm([d\_model])194self.norm\_ff=nn.LayerNorm([d\_model])

#

196defforward(self,\*,197x:torch.Tensor,198mask:torch.Tensor):

#

ස්වයංඅවධානය යොමු කිරීමට පෙර දෛශික සාමාන්යකරණය කරන්න

200z=self.norm\_self\_attn(x)

#

ස්වයංඅවධානය හරහා ධාවනය කරන්න, i.e. යතුරු සහ වටිනාකම් ස්වයං සිට

202self\_attn=self.attn(query=z,key=z,value=z,mask=mask)

#

ස්වයංඅවධානය ප්රතිඵල එකතු

204x=x+self.dropout(self\_attn)

#

පෝෂණයසඳහා සාමාන්යකරණය කරන්න

207z=self.norm\_ff(x)

#

මාරුවීමේපෝෂක-ඉදිරි ජාලය හරහා ගමන් කරන්න

209ff,counts,route\_prob,n\_dropped,route\_prob\_max=self.feed\_forward(z)

#

ප්රතිපෝෂණඉදිරි ප්රති results ල නැවත එක් කරන්න

211x=x+self.dropout(ff)212213returnx,counts,route\_prob,n\_dropped,route\_prob\_max

#

ට්රාන්ස්ෆෝමර්ස්විචය

216classSwitchTransformer(Module):

#

221def\_\_init\_\_(self,layer:SwitchTransformerLayer,n\_layers:int):222super().\_\_init\_\_()

#

ට්රාන්ස්ෆෝමර්ස්ථරයේ පිටපත් සාදන්න

224self.layers=clone\_module\_list(layer,n\_layers)

#

අවසානසාමාන්යකරණ ස්තරය

226self.norm=nn.LayerNorm([layer.size])

#

228defforward(self,x:torch.Tensor,mask:torch.Tensor):

#

එක්එක් ට්රාන්ස්ෆෝමර් ස්ථරය හරහා ධාවනය කරන්න

230counts,route\_prob,n\_dropped,route\_prob\_max=[],[],[],[]231forlayerinself.layers:232x,f,p,n\_d,p\_max=layer(x=x,mask=mask)233counts.append(f)234route\_prob.append(p)235n\_dropped.append(n\_d)236route\_prob\_max.append(p\_max)

#

අවසානවශයෙන්, දෛශික සාමාන්යකරණය කරන්න

238x=self.norm(x)

#

240returnx,torch.stack(counts),torch.stack(route\_prob),n\_dropped,torch.stack(route\_prob\_max)

Trending Research Paperslabml.ai