fbpx
Home In Italia e nel mondo Machine Learning. Come impara un cervello di silicio

Machine Learning. Come impara un cervello di silicio

by Rosanna Greco
0 comment
Machine learning

Può una macchina apprendere? La risposta è ovviamente positiva e risulta particolarmente intrigante riflettere sui criteri impiegati per guidare tale processo.

È importante fornire la definizione del termine “Machine Learning”, impiegato per indicare l’insieme di una serie di metodi volti a predisporre in una macchina l’abilità di apprendere e di migliorare le proprie prestazioni con l’esperienza. Le strategie messe in atto per guidare il sistema e rendere sempre più efficace la comprensione e la successiva risoluzione di un qualsivoglia problema sono diverse. E’ interessante notare quanto esse siano vicine e simili alle modalità di apprendimento dell’uomo.

Una prima procedura, definita “apprendimento supervisionato”, si basa sulla presenza di un supervisore, il quale ha il compito di associare ad ogni ingresso dato in pasto al sistema – ossia ad ogni dato fornito – una determinata uscita. Per comprendere più semplicemente tale concetto, si può pensare ad uno studente che legga le risposte corrispondenti ad alcuni quesiti, per poi confrontarle con le proprie.

Una seconda strategia, definita “apprendimento non supervisionato”, consiste invece nel fornire alla macchina una serie di input, che saranno da essa suddivisi in classi distinte in base ad eventuali caratteristiche comuni. Tale metodo di Machine Learning è utilizzato nell’ambito della profilazione o per permettere il funzionamento dei motori di ricerca.

Il Reinforcement Learning è invece caratterizzato dall’importanza attribuita al tempo, alla natura dinamica del problema in esame ed alla sua storia, che ne influenza l’andamento. In questo caso, al fine di ottenere il comportamento desiderato, si utilizza un metodo basato sull’assegnazione di una “reward” o ricompensa, che diviene l’obiettivo della macchina. Un esempio di applicazione sono gli algoritmi sviluppati per la guida autonoma delle autovetture.

Tale metodologia si sviluppa in due stadi distinti: il primo denominato “fase offline”, o “fase di apprendimento”, ed il secondo “fase online”, o “fase di applicazione al mondo reale”. Durante lo sviluppo della prima fase, che può avere una durata considerevole, si verifica un processo di apprendimento per episodi, ovvero l’associazione di una reward o di un intervento da parte del supervisore a ciascuna decisione presa dalla macchina. L’obiettivo di quest’ultima è la massimizzazione della ricompensa nel lungo termine, dunque essa punterà a compiere sempre un minor numero di errori. Per esempio, quando una vettura con guida autonoma va fuori strada, a tale evento viene associata una correzione della traiettoria, che quindi porta alla comprensione della natura errata dell’azione appena intrapresa. Durante la seconda fase, invece, la macchina risulta in grado di mettere in pratica quanto appreso, portando a termine il proprio compito – nell’esempio precedente la guida sicura di una vettura – evitando azioni sbagliate.

Un’interessante strategia nell’ambito del Reinforcement Learning è l’Epsilon-Greedy, che appare incredibilmente simile al comportamento adottato dai bambini per interagire con l’ambiente circostante. La macchina ha una probabilità 1- ε di compiere una scelta dettata dall’esperienza ed una probabilità ε di agire in modo casuale, ove con ε si indica un numero compreso tra 0 e 1 che decresce con l’aumentare dei dati accumulati durante l’apprendimento. Ciò porta all’aumento del numero di azioni intraprese in base alla propria esperienza.

Ricorrendo nuovamente alla similitudine descritta in precedenza, possiamo dunque pensare al fatto che un essere umano, crescendo ed imparando dai propri errori, sia portato a compiere scelte guidate dall’esperienza e ad agire sempre meno in modo casuale. Durante il processo di exploration, ovvero durante la prima fase, la probabilità di intraprendere azioni casuali diviene dunque sempre minore. Infine, quando ε diviene nullo e nessuna decisione è dettata dalla casualità, si slitta nel dominio dell’exploitation, ovvero alla modalità online. La macchina con il machine learning agisce esclusivamente in base alla propria conoscenza.