Introduzione Gentile al Reinforcement Learning
Il Machine Learning (ML) ĆØ un campo dellāIntelligenza Artificiale (IA) il cui scopo ĆØ sviluppare macchine in grado di imparare e di adattarsi senza istruzioni esplicite. Nel contesto dellāapprendimento automatico esistono tre paradigmi principali:
- Supervised Learning
- Unsupervised Learning
- Reinforcement Learning
Lāobiettivo dei primi due apprendimenti ĆØ individuare uno schema nascoto, anche detto pattern, allāinterno di un insieme di dati. In un contesto supervisionato i dati sono etichettati, dunque un esperto di dominio guida lāapprendimento. In assenza di una supervisione, lāanalisi sui dati avverrĆ senza una forma di oracolo, ma solo e unicamente con dati non etichettati. Il Reinforcement Learning (RL) ĆØ un tipo di paradigma che permette allāagente di agire in un ambiente dinamico sconosciuto in assenza di istruzioni e dati. In un certo senso, lāinsieme di dati viene raccolto dallāagente durante lāesperienza, piuttosto che fornito a priori.
In un contesto di RL, lāagente si trova a dover imparare un determinato comportamento (e.g. ai fini di un task) in un ambiente sconosciuto, senza dati e senza istruzioni. AffinchĆ© lāagente impari ad agire ĆØ necessario un sistema di ricompense (reward) e di punizioni, ovvero di feedback dallāambiente. Dunque, ad ogni azione corrisponderĆ un feedback e su ciĆ² si dovrĆ costruire una metrica di guadagno da massimizzare. Lāapprendimento si svolge con un susseguirsi di iterazioni try-and-error in cui vengono collezionate numerose esperienze.
Un poā di formalizzazione
Il RL viene modellato tramite Markov Decision Process (MDP). Lo scopo principale di un MDP ĆØ di fornire una funzione che per ogni stato dellāambiente fornisca lāazione ottimale. CiĆ² basta per permettere allāagente di muoversi e adempiere al task per cui ĆØ stato ideato.
Per poter applicare algoritmi di RL ĆØ necessario modellare lāambiente secondo le componenti principali di un MDP:
- stati dellāambiente
- azioni
- reward
- funzione di utilitĆ
- policy
Con questi elementi risulta facile formalizzare il framework del RL.
Dunque, lāagente al tempo si trova in e compie lāazione ed effettua unāosservazione. Da questa scopre di essere passato allo stato ottenendo una reward . La policy ĆØ la funzione che per ogni stato fornisce unāazione
dunque dice allāagente cosa fare. La policy si dice ottimale, , se ad ogni stato lāazione mappata ĆØ quella ottimale, ovvero quella che massimizza lāutilitĆ attesa. Tutti gli algoritmi di RL lavorano sul calcolo dellāutilitĆ e della policy basata su di essa.
Fonti: