pvalue by Yan Yin

I TEST STATISTICI E IL P-VALUE Obiettivo di questo Learning Object è ripassare la teoria ma soprattutto la pratica dei test statistici, con un’attenzione particolare ai test che si usano in Econometria. Inoltre, questo Learning Object intende familiarizzare il lettore con la comprensione dei test statistici forniti dai pacchetti statisticoeconometrici. Insomma, vogliamo capire che cosa è il p-value di un test, e come il p-value si utilizza per decidere se rifiutare o meno un’ipotesi di interesse. Il Learning Object è ripartito nei seguenti 3 paragrafi: 1 – BREVE RIPASSO DEI TEST STATISTICI 2 – I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 – ESERCIZI DI ALLENAMENTO

1. BREVE RIPASSO DEI TEST STATISTICI In generale, per costruire un test statistico abbiamo bisogno di: (1) un vettore di parametri, generalmente i parametri di un modello di regressione lineare, o i momenti di una certa popolazione; (2) un campione di n osservazioni relative a un insieme di individui (dati cross-section) o osservazioni protratte nel tempo di un certo fenomeno (dati time-series); in entrambi i casi i dati del campione devono essere interpretati come realizzazioni empiriche di variabili casuali, per questo quindi abbiamo a che fare con leggi distributive; (3) un modello statistico (o un modello econometrico) che metta in relazione parametri e osservazioni di cui ai punti (1) e (2); (4) l’ipotesi nulla (H0), ovvero un’asserzione circa i valori che i parametri di cui al punto (1) devono soddisfare se vale una certa teoria o supposizione, e da confrontare con un’ipotesi alternativa (H1);

(5) una statistica test, Sn, ovvero una variabile casuale che è generalmente funzione di uno stimatore dei parametri del modello, e quindi delle n variabili casuali di cui al punto (1). La statistica test Sn avrà quindi una certe legge distributiva sotto H0, e una certa legge distributiva sotto H1. Notare che la legge distributiva di Sn a cui facciamo riferimento può valere, sotto certe condizioni, su piccoli campioni, però il più delle volte in econometria si fa riferimento alla legge distributiva di Sn in grandi campioni (cioè quando n tende ad infinito). Quando il test è basato su una distribuzione di Sn che vale per n grande parleremo di test asintotici. Una volta calcolato il valore della statistica test sul campione effettivamente osservato, scriveremo Sn = sn ; (6) il livello di significatività del test (o size, o errore di prima specie) del test, comunemente indicato con il simbolo α – fissata da chi conduce il test – che dal punto di vista formale rappresenta: α=Pr(rifiutare H0 | H0) (cioè la probabilità di rifiutare H0 quando H0 è vera, quindi la probabilità di rifiutare erroneamente H0); (7) il valore critico (cvα) del test, cioè fissato α di cui la punto (6), il percentile della distribuzione della statistica test Sn sotto l’ipotesi nulla H0, ovvero la quantità che soddisfa: Pr(Sn > cvα| H0)= α, o analogamente Pr(Sn ≤ cvα| H0)= 1-α. Si noti che Pr(Sn > cvα | H0)= α = Pr(rifiutare H0 | H0), per cui l’intervallo (cvα , ∞] è la zona di rifiuto di H0 e di conseguenza [-∞ , cvα] la zona di accettazione di H0. Si osservi inoltre, che in molti casi facciamo test a due code; in questi casi il valore critico del test è la quantità che soddisfa: Pr( Sn  ≤ cvα/2| H0)=Pr ( - cvα ≤ Sn ≤ cvα | H0)= 1α. In tal caso [-∞ , -cvα) ∪ (cvα , ∞] è la zona di rifiuto di H0, e [-cvα , cvα] la zona di accettazione di H0.

Come si fa dal punto di vista pratico il test usando le tavole ? Dal punto di vista pratico, per decidere tra H0 e H1 si procede nel seguente modo. Si fissa α (ad esempio α=0.05). Dai dati si calcola il valore osservato della statistica test, cioè Sn = sn. Si supponga ad esempio di sapere che sotto l’ipotesi nulla la statistica test Sn ha distribuzione tStudent con 3 gradi di libertà. Si supponga inoltre che il test sia a due code (vedi il punto (7) di cui

sopra). Notare che siamo in possesso di tutti e gli elementi elencati sopra nei punti (1)-(7), siamo quindi in grado di fare il test e decidere se scegliere H0 oppure H1. A tal fine si calcola dalla tavola della t-Student il cvα/2 (=cv0.025 dato che α=0.05) del test, cioè dalle Tavole della t-Student con 3 gradi di libertà si prende il valore ±3.182. Ne segue che [-3.182, +3.182] è la zona di accettazione, mentre [-∞, -3.182)∪(3.182, ∞] è la zona di rifiuto di H0. A questo punto bisogna capire se il valore di sn cade nella zona di rifiuto o di accettazione di H0. Per fare ciò si confronta quindi sn con ±3.182 se sn è più grande di 3.182 o più piccolo di -3.182 si rifiuta H0 e si sceglie H1, altrimenti si sceglie H0. Più avanti, nel Paragrafo 2 vedremo che utilizzando i software statistico-econometrici il calcolo del test risulta notevolmente semplificato!

Tre osservazioni importanti. Primo, il livello di significatività del test, Pr(Sn > cvα | H0)=α, ci dice che non siamo più disposti a credere alla validità di H0 (e quindi ripieghiamo verso H1) quando otteniamo valori della statistica test che pur ottenuti sotto H0 hanno una probabilità inferiore ad α di verificarsi. In altri termini, quando osserviamo valori di Sn “molto grandi”, cioè che si collocano verso le code della distribuzione e a cui quindi sono associati bassi livelli di probabilità (più piccoli di α) di verificarsi, non siamo più disposti a credere che tali valori siano compatibili con la distribuzione di Sn sotto H0. Secondo, i test a due code hanno senso solo quando abbiamo a che fare con distribuzioni statistiche il cui dominio comprende sia valori positivi che negativi (si pensi ad esempio alla Normale o alla tStudent). Quando abbiamo a che fare con statistiche test la cui legge distributiva ha dominio solo nei numeri positivi (si pensi alla distribuzione Chi-quadrato o alla F), allora un test a due code non ha molto senso in quanto in tal caso: Pr ( - cvα/2 ≤ Sn ≤ cvα/2| H0) ≡ P([Sn ≥ - cvα/2 ] ∩ [Sn ≤ cvα/2 ] | H0) = P(Evento certo ∩ [Sn ≤ cvα/2] | H0) = P(Sn ≤ cvα/2| H0) = 1-α/2.

Quindi, in presenza di statistiche test che hanno distribuzione Chi-quadrato o F, ci limitiamo a fare test ad una coda al livello α; solo quando abbiamo a che fare con statistiche test che hanno distribuzione Normale of t-Student dobbiamo capire se fare in test ad una coda o a due code ! Come riusciamo a capire se dobbiamo fare un test ad una o due code? E’ la formulazione dell’ipotesi alternativa che ci da indicazioni. Se ad esempio dobbiamo fare un test t-Student per H0: β=0 contro H1: β≠0, allora faremo un test a due code (infatti H1 ci dice che β può essere un qualsiasi numero diverso da zero, positivo o negativo che sia). Se invece dobbiamo fare un test test t-Student per H0: β=0 contro H1: β>0 allora faremo un test ad una sola coda . Quale coda considereremo, in tal caso, la destra o la sinistra della t-Student ? (Risposta: ovviamente la destra). Terzo, dati i 7 punti di cui sopra, si può definire potenza del test, la quantità Pr(rifiutare H0 | H1), ovvero la probabilità di rifiutare l’ipotesi nulla quando questa è effettivamente falsa. La potenza è quindi un indicatore della capacità del test di “beccarci”. Tanto più Pr(rifiutare H0 | H1) si avvicina ad uno, tanto più il test ha buone capacità. Si osservi che per calcolare la potenza del test dato il livello di significatività α, dobbiamo conoscere la legge distributiva della statistica test Sn sotto l’ipotesi alternativa H1, poiché dovremo calcolare Pr(Sn > cv0α | H1), dove con il simbolo cv0α indica che il valore critico è sempre quello calcolato utilizzando il pecentile della distribuzione della statistica test sotto H0.

Esempio 1: un modello per i tassi di interesse nell’area dell’euro Si supponga di stimare il seguente modello di regressione dinamico relativo a tassi di interesse nell’area dell’Euro: ∆Rt = β0 +β1 ∆Rt-1 +β2 (Rt-1 - rt-1) + ut

(1)

Nel modello (1) Rt è il tasso di interesse nominale sui titoli a lunga scadenza, rt è il tasso di interesse nominale sui titoli a breve scadenza, la differenza (spread) (Rt - rt) è una misura della struttura a termine dei tassi di interesse e può essere visto come un indicatore di aspettative di inflazione (se il divario tra tassi a lunga e a breve aumenta ci si aspetta una situazione inflazionistica nel futuro, mentre se il divario diminuisce ci si aspetta una politica monetaria più restrittiva da parte della

Banca Centrale e quindi meno inflazione futura). ∆ è l’operatore differenza prima: ∆Rt = Rt – Rt-1. Infine, ut è una componente White Noise con varianza σ2, e β0, β1, β2 sono i parametri. La stima OLS del modello (1) su n=142 dati trimestrali, periodo: 1970:3 – 2005:4, ha dato luogo ai seguenti risultati: Dependent Variable: DRL Method: Least Squares Date: 22/11/06 Time: 16:58 Sample (adjusted): 1970Q3 2005Q4 Included observations: 142 after adjustments Variable

Coefficient

Std. Error

t-Statistic

Prob.

C DRL(-1) SPREAD(-1)

0.011157 0.528417 -0.032839

0.035364 0.071930 0.025630

0.315480 7.346252 -1.281274

0.7529 0.0000 0.2022

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.309411 0.299475 0.335785 15.67247 -45.01083 1.787352

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

-0.034038 0.401189 0.676209 0.738656 31.13876 0.000000

TABELLA 1

Si vuole ora testare l’ipotesi nulla H0: β2=0, la quale dice che lo spread osservato nel trimestre precedente non ha influenza sulla dinamica trimestrale delle variazioni del tasso di interesse sui titoli a lungo termine. L’alternativa è H1: β2<0, e dice che variazioni dello spread osservate nel trimestre precedente hanno un impatto negativo su tale dinamica (se lo spread aumenta ci si aspetta una variazione in diminuzione del tasso a lunga per bilanciare tale aumento e ripristinare quindi una situazione di spread constante nel tempo). Dal corso di Econometria o di Econometria dei mercati finanziari sappiamo che sotto H0: β2=0 la ∧

∧

statistica test Sn= β 2/s.e.( β 2) ha, per n che tende all’infinito, distribuzione asintotica Normale (0,1) (siamo in presenza di un modello dinamico !.... e si ricordi che la t-Student con infiniti gradi di libertà converge ad una Normale(0,1)). Inoltre, dalla Tabella 1 deduciamo che il valore della ∧

∧

statistica test per H0: β2=0 è pari a Sn= sn= (β 2/s.e.( β 2)) =(-0.032839/0.025630) = -1.281274, il quale va confrontato con l’opportuno cvα. Fissiamo α=0.05. Ora dobbiamo decidere se il test è a una coda oppure a due code. Poiché l’ipotesi alternativa H1: β2<0 prevede solo valori negativi di

β2, il test sarà ovviamente ad una coda, e in particolare riguarderà la coda sinistra della Normale(0,1). Dalla tavola della normale ricaviamo che dalla coda sinistra della normale: -cv0.05 = 1.645. Poiché 1.281274 < 1.645 segue che la statistica test cade nella zona di accettazione di H0. Quindi, dai dati, emerge che lo spread osservato nei trimestri precedenti non incide sulle variazioni del tasso a lungo termine. Nel prossimo paragrafo vedremo che possiamo fare il test utilizzando solo le informazioni della Tabella 1, senza dovere andare a consultare le tavole, cioè senza dover sapere che -cv0.05 = -1.645 !

2. I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE I software statistici ed econometrici semplificano i test. In particolare, ci permettono di non occupaci del punto (7), ovvero dei valori critici, e quindi del calcolo delle zone di rifiuto e di accettazione del test, senza farci perdere alcuna informazione rilevante sul test. Per far ciò ci fornisce in alternativa il p-value (livello di probabilità) associato al valore calcolato della statistica test, sn. Per ogni H0 e H1 che vogliamo testare, il software ci fornisce il p-value associato al valore della statistica test calcolata, sn. Che cosa è il p-value associato alla statistica test calcolata sn ? E’ semplicemente la probabilità: Pr(osservare valori maggiori di o uguali di sn | H0) = Pr(Sn ≥ sn | H0) = p-value. Il p-value indica quindi quanto probabile (valori alti) o improbabile (valori bassi) è l’eventualità di osservare esattamente il valore sn della statistica test Sn sotto l’ipotesi nulla. Come si utilizza il p-value associato a sn in pratica per decidere tra H0 e H1 ? Il vantaggio del pvalue è che non ci serve più andare a consultare le tavole della Normale, della t-Student, del Chiquadrato o della F, ecc. per decidere. Tutto quello che dobbiamo fare è confrontare il p-value associato a sn con il livello di significatività α che abbiamo fissato in precedenza (punto (6) di cui sopra). Se troviamo che p-value < α, cioè significa, usando la nostra notazione, che Pr(Sn ≥ sn | H0) = p-value < α = Pr(Sn > cvα | H0)

il che implica, se ci si ragiona, che sn > cvα, il che a sua volta significa che sn è nella zona di rifiuto di H0. Per rifiutare H0 ci basta constatare che p-value < α senza dover conoscere cvα! Al contrario, se troviamo che p-value ≥ α, ciò significa, nella notazione dai noi usata, che Pr(Sn ≥ sn | H0) = p-value ≥ α = Pr(Sn > cvα | H0) ovvero che sn ≤ cvα, il che comporta l’accettazione di H0. Raggiungiamo tale conclusione senza dover necessariamente conoscere cvα, ci basta solo constatare che p-value ≥ α ! Esempio 2 Torniamo al modello (1) e ai risultati di stima della Tabella 1, e proviamo nuovamente a fare il test per H0: β2=0 contro H1: β2<0, utilizzando solo ed esclusivamente le informazioni contenute nella Tabella 1. ∧

∧

Ricordiamo che nel nostro caso la statistica test Sn= β 2/s.e.( β 2) ha, per n che tende ad infinito, distribuzione asintotica Normale (0,1) (questo lo sappiamo solo se abbiamo studiato econometria !). La Tabella 1 ci dice che: Pr(Sn ≥ -1.281274 | H0) = 0.20 quindi il il p-value associato a sn =-1.281274 è 0.20. Stiamo facendo un test ad una coda, per cui dobbiamo confrontare il p-value con α=0.05. Poiché pvalue > α, possiamo accettare H0: β2=0. Nota che se si fosse trattato di un test a due code, avremmo confrontato il p-value 0.20 con α/2=0.025.

Esempio 3 Facendo sempre riferimento al modello (1) e ai risultati di stima della Tabella 1, si supponga ora di voler fare un test per l’ipotesi nulla H0: β1=0 contro la generica alternativa H0: β1≠0. In sostanza, vogliamo testare la significatività del coefficiente β1 associato al regressore ∆Rt-1 del modello. Questa volta scegliamo α=0.10.

Si può notare dalla Tabella 1 che in questo caso la statistica test è pari a 7.346252 e ha un p-value associato pari a 0.00000. Questo significa che la probabilità di osservare un valore della statistica test superiore o uguale a 7.346252 sotto l’ipotesi nulla (distribuzione Normale(0,1)) è veramente bassa, anzi bassissima. Dato che p-value <<α/2=0.05, rifiutiamo nettamente H0: β1=0 e scegliamo l’alternativa.

Esempio 4 Facendo sempre riferimento all’esempio della Tabella 1, si supponga ora di voler testare l’ipotesi nulla congiunta: H0: β1=0.50 e β2=0, contro l’alterativa H1: β1≠0.50 e β2≠0. Dalla teoria sappiamo che tale ipotesi rientra nella casistica H0 : R’β=r e che siccome il modello stimato è un modello di regressione dinamico, una statistica test di Wald, Sn, per H0:R’β=r avrà distribuzione, per n che va ad infinito (n grande), Chi-quadrato(2), dove 2 sono le restrizioni che testiamo. La Tabella 2 sotto, ci fornisce i risultati del test: Wald Test: Equation: Untitled Test Statistic F-statistic Chi-square

Value 1.050856 2.101711

Probability

(2, 139) 2

0.3524 0.3496

Value

Std. Err.

Null Hypothesis Summary: Normalized Restriction (= 0) -0.5 + C(2) C(3)

0.028417 -0.032839

0.071930 0.025630

TABELLA 2

Abbiamo quindi Sn = sn =2.101711 con un p-value associato pari a 0.3496. Quindi vi è una probabilità di quasi il 35% di osservare un valore della statistica test, sotto l’ipotesi nulla, che sia maggiore o uguale di 2.101711. Se fissiamo il livello di significatività del test al 5%, significa che noi siamo disposti a credere all’ipotesi nulla sino a quando non otteniamo valori della

statistica test che hanno probabilità non inferiore al 5%. Noi abbiamo ottenuto una probabilità del 35% che è ben maggiore del 5%. Quindi, poiché p-value > α (=0.05 oppure 0.10), accettiamo H0.

3 ESERCIZI DI ALLENAMENTO Esercizio 1 Si consideri il modello (1) e le stime della Tabella 1. La Tabella 3 riporta il test LM di Godfrey e Breush per l’assenza di autocorrelazione nei residui:

Breusch-Godfrey Serial Correlation LM Test: F-statistic Obs*R-squared

2.843695 5.659991

Probability Probability

0.061652 0.059013

Test Equation: Dependent Variable: RESID Method: Least Squares Date: 23/11/06 Time: 14:28 Presample missing value lagged residuals set to zero. Variable

Coefficient

Std. Error

t-Statistic

Prob.

C DRL(-1) SPREAD(-1) RESID(-1) RESID(-2)

0.007801 -0.193086 -0.016146 0.304106 -0.057375

0.035347 0.234424 0.029063 0.237822 0.147914

0.220690 -0.823661 -0.555531 1.278715 -0.387892

0.8257 0.4116 0.5794 0.2032 0.6987

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.039859 0.011826 0.331418 15.04777 -42.12289 1.971134

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

-1.25E-17 0.333395 0.663703 0.767781 1.421848 0.229983

TABELLA 3

1. Si individui qual è l’ipotesi alternativa e l’ipotesi nulla di tale test. 2. Si dica se la nulla è da rifiutare o meno

3. Si dica quale dovrebbe essere il livello di significatività α del test necessario per rifiutare l’ipotesi nulla. Esercizio 2 Si consideri il modello (1) e le stime della Tabella 1. Si testi la significatività dell’intercetta. Esercizio 3 Si consideri il modello (1) e le stime della Tabella 1. I residui del modello hanno le seguenti caratteristiche: 14

Series: Residuals Sample 1970Q3 2005Q4 Observations 142

12 10 8 6 4 2 0 -0.5

0.0

0.5

Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis

-1.25e-17 0.001804 1.057587 -0.868664 0.333395 0.152186 3.290686

Jarque-Bera Probability

1.048079 0.592124

1.0

Si dica se l’ipotesi di normalità distributiva può essere accettata o rifiutata. Esercizio 4 Si consideri il modello (1) e le stime della Tabella 1. Si testi l’ipotesi nulla H0: β1=0.50 contro l’alternativa H1: β1=0.60 al livello α=0.05, e si provi poi a calcolare la potenza del test (traccia: si ricordi che la potenza del test è Pr(rifiuto H0 | H1)… e si individui la distribuzione della statistica test sotto l’ipotesi H1 ….).