Back to Annotated Deep Learning Paper Implementations

tokenizer.py

docs/si/utils/tokenizer.html

latest1.7 KB
Original Source

homeutils

View code on Github

#

1fromtypingimportCallable23fromlabml.configsimportBaseConfigs,option

#

ටෝකනයිසර්වින්යාසයන්

6classTokenizerConfigs(BaseConfigs):

#

13tokenizer:Callable='character'

#

15def\_\_init\_\_(self):16super().\_\_init\_\_(\_primary='tokenizer')

#

මූලිකඉංග්රීසි ටෝකනයිසර්

මෙමඅත්හදා බැලීමේදී අපි චරිත මට්ටමේ ටෝකනයිසර් භාවිතා කරමු. සැකසීමෙන් ඔබට මාරු විය හැකිය,

'tokenizer': 'basic_english'

අත්හදාබැලීම ආරම්භ කිරීමේදී වින්යාස කිරීමේ ශබ්දකෝෂයේ.

19@option(TokenizerConfigs.tokenizer)20defbasic\_english():

#

34fromtorchtext.dataimportget\_tokenizer35returnget\_tokenizer('basic\_english')

#

අක්ෂරමට්ටමේ ටෝකනයිසර්

38defcharacter\_tokenizer(x:str):

#

42returnlist(x)

#

අක්ෂරමට්ටමේ ටෝකනයිසර් වින්යාසය

45@option(TokenizerConfigs.tokenizer)46defcharacter():

#

50returncharacter\_tokenizer

Trending Research Paperslabml.ai