Eage

Naive Bayes

Il Naive Bayes è un algoritmo classificatore basato sul teorema di Bayes. E' una famiglia di classificatori statistici usati nel machine learning.

E' detto "naive" ( tradotto "ingenuo" in italiano ) perché le ipotesi di partenza sono molto semplificate. In particolar modo, si considerano indipendenti tra loro le varie caratteristiche ( features ) del modello.

E' un algoritmo molto semplice e veloce. I primi studi e applicazioni risalgono agli anni '60. In alcuni casi funziona ancora bene.

Per usare il classificatore bayesano occorre conoscere o stimare le probabilità a priori e condizionali del problema.

Esempio. Un frutto può essere classificato nella classe "mele" se è di colore rosso, ha un diametro di circa 10 cm e ha una forma rotonda. Sono tre caratteristiche differenti. Un algoritmo di Naive Bayes classifier considera ognuna di queste caratteristiche come un contributo indipendente alla probabilità complessiva che il frutto sia una mela. Non considera le possibili correlazioni tra le caratteristiche ( colore, diametro, forma ).

Come funziona

L'algoritmo Naive Bayes è un algoritmo probabilistico.

Calcola la probabilità di ogni etichetta per un determinato oggetto osservando le sue caratteristiche. Poi, sceglie l'etichetta con la probabilità maggiore.

Nota. In realtà, non esiste un solo algoritmo Naive Bayes ma un'intera famiglia di algoritmi di questo tipo.

Per calcolare la probabilità delle etichette usa il teorema di Bayes.

la formula del teorema di Bayes

  • P(A) è la probabilità a priori di A cioè la probabilità dell'evento A senza considerare l'evento E. E' anche detta probabilità marginale di A.
  • P(E) è la probabilità a priori di E cioè la probabilità dell'evento E senza considerare l'evento A. E' anche detta probabilità marginale di E.
  • P(A|E) è la probabilità condizionata dell'evento A considerando le informazioni sull'evento E. E' anche detta probabilità a posteriori dell'evento A perché dipende dal valore di E.
  • P(E|A) è la probabilità condizionata dell'evento E considerando le informazioni sull'evento A. E' anche detta probabilità a posteriori dell'evento E perché dipende dal valore di A.