Back to Annotated Deep Learning Paper Implementations

ප්රතිපත්ති ප්රශස්තිකරණය - PPO

docs/si/rl/ppo/readme.html

latest2.5 KB
Original Source

homerlppo

View code on Github

#

ප්රතිපත්ති ප්රශස්තිකරණය - PPO

මෙය PyTorch ක්රියාත්මක කිරීමයි Proximal Policy ප්රශස්තිකරණය - PPO .

PPOයනු ශක්තිමත් කිරීමේ ඉගෙනීම සඳහා ප්රතිපත්තිමය ශ්රේණියේ ක්රමයකි. සරල ප්රතිපත්ති ඵලය අනුක්රමික ක්රම එක් නියැදි අනුව තනි ඵලය අනුක්රමික යාවත්කාලීන කරන්න (හෝ සාම්පල මාලාවක්). ප්රතිපත්තිය නරක ප්රතිපත්තියක් නිෂ්පාදනය ඕනෑවට වඩා අපගමනය නිසා එය singe නියැදි සඳහා බහු ඵලය අනුක්රමික පියවර කරන්නේ ප්රශ්න ඇති. දත්ත සාම්පල කිරීම සඳහා භාවිතා කරන ලද ප්රතිපත්තියට සමීපව ප්රතිපත්තිය තබා ගැනීමට උත්සාහ කිරීමෙන් නියැදියකට බහු ශ්රේණියේ යාවත්කාලීන කිරීම් කිරීමට PPO අපට ඉඩ දෙයි. යාවත්කාලීන කරන ලද ප්රතිපත්තිය දත්ත සාම්පල කිරීම සඳහා භාවිතා කරන ප්රතිපත්තියට සමීප නොවේ නම්, ශ්රේණියේ ප්රවාහය ක්ලිපින් කිරීමෙන් එය එසේ කරයි.

එයභාවිතා කරන අත්හදා බැලීමක් ඔබට සොයාගත හැකිය මෙහි. අත්හදා බැලීම සාමාන්යකරණය කළ වාසි ඇස්තමේන්තුභාවිතා කරයි.

Trending Research Paperslabml.ai