Proximal Policy Optimization מה זה
ExplAInable

Proximal Policy Optimization מה זה

2022-02-16

כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה

SOTA

עד שמגיעה גישה חדשה שטורפת את הקלפים.

לכן מעניין דווקא לדבר על

PPO

שנשאר הגישה הדומיננטי ב

Reinforcement learning

כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.

נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"

Comments (3)

More Episodes

All Episodes>>

Get this podcast on your phone, Free

Create Your Podcast In Minutes

  • Full-featured podcast site
  • Unlimited storage and bandwidth
  • Comprehensive podcast stats
  • Distribute to Apple Podcasts, Spotify, and more
  • Make money with your podcast
Get Started
It is Free