cover

07 November 2022

6m

Introduzione Gentile al Reinforcement Learning

Il Machine Learning (ML) ĆØ un campo dellā€™Intelligenza Artificiale (IA) il cui scopo ĆØ sviluppare macchine in grado di imparare e di adattarsi senza istruzioni esplicite. Nel contesto dellā€™apprendimento automatico esistono tre paradigmi principali:

  • Supervised Learning
  • Unsupervised Learning
  • Reinforcement Learning

Lā€™obiettivo dei primi due apprendimenti ĆØ individuare uno schema nascoto, anche detto pattern, allā€™interno di un insieme di dati. In un contesto supervisionato i dati sono etichettati, dunque un esperto di dominio guida lā€™apprendimento. In assenza di una supervisione, lā€™analisi sui dati avverrĆ  senza una forma di oracolo, ma solo e unicamente con dati non etichettati. Il Reinforcement Learning (RL) ĆØ un tipo di paradigma che permette allā€™agente di agire in un ambiente dinamico sconosciuto in assenza di istruzioni e dati. In un certo senso, lā€™insieme di dati viene raccolto dallā€™agente durante lā€™esperienza, piuttosto che fornito a priori.

In un contesto di RL, lā€™agente si trova a dover imparare un determinato comportamento (e.g. ai fini di un task) in un ambiente sconosciuto, senza dati e senza istruzioni. AffinchĆ© lā€™agente impari ad agire ĆØ necessario un sistema di ricompense (reward) e di punizioni, ovvero di feedback dallā€™ambiente. Dunque, ad ogni azione corrisponderĆ  un feedback e su ciĆ² si dovrĆ  costruire una metrica di guadagno da massimizzare. Lā€™apprendimento si svolge con un susseguirsi di iterazioni try-and-error in cui vengono collezionate numerose esperienze.

Un poā€™ di formalizzazione

Il RL viene modellato tramite Markov Decision Process (MDP). Lo scopo principale di un MDP ĆØ di fornire una funzione che per ogni stato dellā€™ambiente fornisca lā€™azione ottimale. CiĆ² basta per permettere allā€™agente di muoversi e adempiere al task per cui ĆØ stato ideato.

Per poter applicare algoritmi di RL ĆØ necessario modellare lā€™ambiente secondo le componenti principali di un MDP:

  • stati dellā€™ambiente [S=s0,ā€¦,sn][S = s_0, \ldots, s_n]
  • azioni [A=a0,ā€¦,am][A = a_0, \ldots, a_m]
  • reward R(s)R(s)
  • funzione di utilitĆ  UU
  • policy Ļ€\pi

Con questi elementi risulta facile formalizzare il framework del RL.

Dunque, lā€™agente al tempo tt si trova in StS_t e compie lā€™azione AtA_t ed effettua unā€™osservazione. Da questa scopre di essere passato allo stato St+1S_{t+1} ottenendo una reward Rt+1R_{t+1}. La policy ĆØ la funzione che per ogni stato fornisce unā€™azione

Ļ€ā€‰ā£:sā†’a\pi \colon s \rightarrow a

dunque dice allā€™agente cosa fare. La policy si dice ottimale, Ļ€āˆ—\pi^*, se ad ogni stato lā€™azione mappata ĆØ quella ottimale, ovvero quella che massimizza lā€™utilitĆ  UU attesa. Tutti gli algoritmi di RL lavorano sul calcolo dellā€™utilitĆ  e della policy basata su di essa.

Fonti:

Related articles:

    background

    05 December 2022

    avatar

    Francesco Di Salvo

    45 min

    30 Days of Machine Learning Engineering

    30 Days of Machine Learning Engineering

    background

    16 January 2023

    avatar

    Daniele Moltisanti

    6 min

    Advanced Data Normalization Techniques for Financial Data Analysis

    In the financial industry, data normalization is an essential step in ensuring accurate and meaningful analysis of financial data.

    background

    17 January 2023

    avatar

    Francesco Di Salvo

    10 min

    AI for breast cancer diagnosis

    Analysis of AI applications for fighting breast cancer.

    background

    18 November 2024

    avatar

    Daniele Moltisanti

    12 min

    Meet Lara: The AI Translator Revolutionizing Global Communication

    Lara is the cutting-edge AI-powered translator designed to rival professional human translations with contextual accuracy and style flexibility. Learn more!

    background

    14 November 2022

    avatar

    Francesco Di Gangi

    5 min

    Artificial Intelligence in videogames

    Artificial Intelligence is a giant world where we can find everything. Also videogames when we don't even notice...

JoinUS