Issuu on Google+

Teoria delle Decisioni Bayesiana Corso di Apprendimento Automatico Laurea Magistrale in Informatica Nicola Fanizzi Dipartimento di Informatica UniversitĂ  degli Studi di Bari

14 gennaio 2009

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Sommario

Introduzione Teoria delle decisioni Bayesiana - nel continuo Classificazione a Minimo Tasso d’Errore (Minimum-Error-Rate) Classificatori, funzioni discriminanti e superfici di decisione Teoria delle decisioni Bayesiana - nel discreto

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Introduzione I

Esempio branzino/salmone Stato di natura, probabilità a priori Lo stato di natura è una variabile aleatoria La pesca di salmone o branzino è equiprobabile: P(ω1 ) = P(ω2 ) P(ω1 ) + P(ω2 ) = 1

Corso di Apprendimento Automatico

probabilità a priori uniforme esclusività ed esaustività

Teoria delle Decisioni Bayesiana


Introduzione II

Regola di decisione con la sola informazione delle probabilità a priori: ”Se P(ω1 ) > P(ω2 ) allora decidi per ω1 altrimenti decidi per ω2 ” Usare l’informazione condizionale sulle classe Sia X una variabile aleatoria che misura il peso P(x|ω1 ) e P(x|ω2 ) descrivono la differente leggerezza tra le due popolazioni di pesci

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Introduzione III

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Probabilità a posteriori, verosimilianza, evidenza I

verosimilianza p. a priori

P(ωj |x) = | {z }

p. a posteriori

z }| { z }| { P(x|ωj ) P(ωj ) P(x) | {z } evidenza

P(x) meno importante di P(ωj |x) e P(ωj ) In caso di c categorie P(x) =

c X

P(x|ωj )P(ωj )

j=1

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


ProbabilitĂ  a posteriori, verosimilianza, evidenza II

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Errore I

La decisione è conseguenza dalle probabilità a posteriori X è un’osservazione per la quale: se P(ω1 |x) > P(ω2 |x) → stato di natura reale = ω1 se P(ω1 |x) < P(ω2 |x) → stato di natura reale = ω2 Pertanto: quando si osserva una particolare x, la probabilità d’errore è: P(error |x) = P(ω1 |x) decidendo per ω2 P(error |x) = P(ω2 |x) decidendo per ω1

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Errore II Minimizzare la probabilità d’errore Se P(ω1 |x) > P(ω2 |x) allora decidi per ω1 altrimenti per ω2 Vale anche in media: Z −∞ Z P(errore) = P(errore, x)dx = −∞

−∞

P(errore|x)P(x)dx

−∞

Pertanto: P(errore|x) = min{P(ω1 |x), P(ω2 |x)}

(regola di decisione Bayesiana)

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Nel caso del continuo I

Generalizzazione delle idee precedenti: Usare più d’una feature Usare più di due stati di natura Permettere azioni non decidere solo per lo stato di natura Permettere altre azioni oltre alla classificazione permette anche la possibilità di rigetto Rifiutare di prendere una decisione in casi difficili o cattivi!

Introdurre una loss function più generale della probabilità d’errore La loss function stabilisce il costo di ogni azione intrapresa

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Nel caso del continuo II

Sia {ω1 , ω2 , . . . , ωc } l’insieme di c stati di natura (”categorie”) Sia {α1 , α2 , . . . , αa } l’insieme delle azioni possibili Sia λ(αi |ωj ) il costo dell’azione αi quando lo stato di natura è ωj

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Nel caso del continuo III Rischio globale per i = 1, . . . , a R si ottiene sommando R(αi |x) | {z } rischio Z condizionato R = R(α(x)|x)p(x)dx

Minimizzare R ⇔ Minimizzare R(αi |x) per i = 1, . . . , a R(αi |x) =

c X

λ(αi |ωj )P(ωj |x)

i = 1, . . . , a

j=1

Selezionare l’azione αi per la quale R(αi |x) sia minima → R minimale (rischio di Bayes, miglior performance ottenibile)

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Classificazione binaria I

α1 : decidere per ω1 α2 : decidere per ω2 λij = λ(αi |ωj ) costo della decisione per ωi quando il vero stato di natura è ωj Rischio condizionato: R(α1 |x) = λ11 P(ω1 |x) + λ12 P(ω2 |x) R(α2 |x) = λ21 P(ω1 |x) + λ22 P(ω2 |x)

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Classificazione binaria II

La nostra regola è la seguente: Se R(α1 |x) < R(α2 |x) allora si compie l’azione α1 ossia ”decidi per ω1 ” Questo porta alla regola equivalente: decidi per ω1 se (λ21 − λ11 )P(x|ω1 )P(ω1 ) > (λ12 − λ22 )P(x|ω2 )P(ω2 ) altrimenti decidi per ω2

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Tasso di verosimiglianza La regola precedente equivale alla seguente: Se (λ12 − λ22 )P(ω2 ) P(x|ω1 ) > P(x|ω2 ) (λ21 − λ11 )P(ω1 ) allora compi l’azione α1 (decidere per ω1 ) altrimenti compi l’azione α2 (decidere per ω2 ) P(x|ω1 ) P(x|ω2 )

likelihood ratio

Proprietà della decisione ottimale ”Se il grado di verosimiglianza eccede una soglia indipendente dall’esempio di input x, si possono intraprendere azioni ottimali”

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Classificazione per minimo tasso d’errore I

Le azioni sono decisioni sulle classi Se αi viene intrapresa ed il vero stato di natura è ωj allora: la decisione è corretta se i = j ed erronea se i 6= j Si cerca una regola di decisione che minimizza la probabilità d’errore che è il tasso d’errore Introduzione della loss function zero-uno:  0 i =j λ(αi , ωj ) = 1 i 6= j

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Classificazione per minimo tasso d’errore II Perciò, il rischio condizionato è: R(αi |x) =

c X

λ(αi , ωj )P(ωj |x)

j=1

=

X

P(ωj |x) = 1 − P(ωi |x)

j6=i

Il rischio corrispondente a questa loss function è la probabilità d’errore media Minimizzare il rischio richiede di massimizzare P(ωi |x) (dato che R(αi |x) = 1 − P(ωi |x)) Per il minimo tasso d’errore: Decidere ωi if P(ωi |x) > P(ωj |x) ∀j 6= i Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Classificazione per minimo tasso d’errore III

Regioni di decisione e loss function zero-uno Pertanto si ha la regola: (λ12 −λ22 )P(ω2 ) Sia (λ = θλ 21 −λ11 )P(ω1 ) allora decidere per ω1 se

P(x|ω1 ) P(x|ω2 )

> θλ

Se λ è la function zero-uno che significa:  loss  0 1 2) Se λ = allora θλ = P(ω P(ω1 ) = θa 1 0   0 2 Se λ = allora θλ = 1 0

Corso di Apprendimento Automatico

2P(ω2 ) P(ω1 )

= θb

Teoria delle Decisioni Bayesiana


Classificazione per minimo tasso d’errore IV

Con una loss function 0/1 o basata sulla classificazione, i limiti di decisione sono determinati da θa . Se la loss function penalizza la miscategorizzazione di ω2 , si passa a soglie più ampie θb , e R1 diventa più piccola Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Il caso multi-categorico

Insieme di funzioni discriminanti gi (x), i = 1, . . . , c Il classificatore assegna un vettore x alla classe Ď&#x2030;i se: gi (x) > gj (x)

Corso di Apprendimento Automatico

â&#x2C6;&#x20AC;j 6= i

Teoria delle Decisioni Bayesiana


Struttura funzionale di un classificatore

Un passo successivo determina quale dei valori discriminanti sia il massimo, e assegna la classe di conseguenza Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Minimizzazione del rischio Sia gi (x) = −R(αi |x) La discriminazione massima corrisponde al minimo rischio! Per il minimum error rate, considerare gi (x) = P(ωi |x) La discriminazione massima corrisponde alla massima prob. a posteriori! gi (x) ≡ P(x|ωi )P(ωi ) ossia gi (x) = ln P(x|ωi ) + ln P(ωi )

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Regioni di decisione I

Lo spazio delle feature viene diviso in c regioni di decisione Se gi (x) > gj (x) ∀j 6= i allora x è in Ri (Ri significa assignare x a ωi ) Caso binario Un classificatore detto dicotomizzatore con due funzioni discriminanti g1 e g2 Sia g(x) = g1 (x) − g2 (x) Decidere per ω1 se g(x) > 0; altrimenti decidere per ω2 Calcolo di g(x) g(x) = P(ω1 |x) − P(ω2 |x) = ln

Corso di Apprendimento Automatico

P(x|ω1 ) P(ω1 ) + ln P(x|ω2 ) P(ω2 )

Teoria delle Decisioni Bayesiana


Regioni di decisione II

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Caso discreto I

Le componenti di x sono a valori binari o interi, x prende solo uno degli m valori discreti v1 , v2 , . . . , vm

Caso di features binarie indipendenti nel problema binario Sia x = [x1 , x2 , . . . , xd ]t dove ogni xi è 0 o 1, con le probabilità: pi = P(xi = 1|ω1 ) e qi = P(xi = 1|ω2 )

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Caso discreto II La funzione discriminante in tal caso sarà: g(x) =

d X

wi xi + w0

i=1

dove wi = ln

pi (1 − qi ) qi (1 − pi )

i = 1, . . . , d

e w0 =

d X i=1

ln

P(ω1 ) 1 − pi + ln 1 − qi P(ω2 )

Decidere ω1 se g(x) > 0 e ω2 se g(x) ≤ 0

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Credits

R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley

Corso di Apprendimento Automatico

Teoria delle Decisioni Bayesiana


Teoria delle Decisioni Bayesiana