Page 1

Executive Summary

Stress intersettoriali sui Tassi di Decadimento mediante l’ impiego delle Reti Neurali Artificiali vincenzoIOVIENO

modello - reti neurali - benchmark


Contents

Introduzione Dati e Variabili Il modello Le reti neurali Benchmark Statistico Risultati Note


Introduzione


01

Abstract Il presente lavoro si pone come obiettivo la modellizzazione degli stress test intersettoriali sui tassi di decadimento relativi alle Branche italiane. Nello specifico, vuole fornire un modello capace di valutare la variazione dei tassi relativi a una branca, dovuti a uno shock effettuato su una variabile di bilancio relativa a una branca differente. Il modello sviluppato si compone di tre macroparti: la prima analizza le relazioni tra le variabili di bilancio e le sofferenze (numeratore dei tassi di decadimento) a cui sono associate, la seconda si focalizza sulle relazioni reciproche delle sofferenze per le varie branche, infine la terza si concentra sugli impieghi (il denominatore dei tassi). La criticità principale del sistema in esame si è rivelata essere il numero di osservazioni storiche estremamente ridotto, se rapportato alle variabili del modello. Risulta impossibile definire matematicamente il sistema relazionale; in aggiunta, le dinamiche del sistema osservate fanno ipotizzare una non linearità tra tali relazioni, vale a dire che la variazione di una variabile dipende non solo dalla variazione delle altre, ma anche dal loro valore assoluto. Scartata la possibilità di creare un modello statistico che dia risposte quantitative verosi-

mili, si è cercato di crearne uno, euristico, che sia qualitativamente valido e quantitativamente soddisfacente. E’ stato adottato un approccio basato sulle Reti Neurali Artificiali, uno strumento matematico fondato su un algoritmo che ricalca il funzionamento delle reti neurali biologiche, capace di ipotizzare con un’alta probabilità un sistema relazionale delle variabili prossimo a quello reale. La propagazione dello stress parte da uno shock (arbitrario) su una qualsiasi variabile di bilancio, propagandosi sulle sofferenze della stessa branca per l’ anno successivo. Questo shock indotto è convertito in trimestrale, e applicato alle sofferenze della branca per il trimestre successivo a quello corrente, che a sua volta induce una variazione nei valori relativi alle altre branche. Le reti applicate agli impieghi invece hanno uno scopo predittivo. Le entità degli effetti dello shock sono valutate mediante differenza tra i valori previsti per gli scenari stressati e quelli reali. Viene usato come benchmark un modello basato sui Vettori Autoregressivi, verso cui le reti neurali si dimostrano nettamente migliori, fornendo previsioni quantitativamente buone.


Dati e Variabili


02

Il set di dati in analisi Oggetto dell’ analisi del presente lavoro sono le dinamiche dei Tassi di Decadimento, che rappresentano il rapporto tra Sofferenze ed Impieghi. Secondo la definizione della Banca d’ Italia, il tasso di decadimento in un determinato trimestre è dato dal rapporto fra due quantità, di cui il denominatore è costituito dall’ammontare di credito utilizzato da tutti i soggetti censiti in Centrale dei rischi e non considerati in situazione di “sofferenza rettificata” alla fine del trimestre precedente e il numeratore è pari all’ammontare di credito utilizzato da coloro, fra tali soggetti, che sono entrati in sofferenza rettificata nel corso del trimestre di rilevazione. È opportuno notare che il denominatore del rapporto, seppur riferito alla fine del trimestre precedente, viene convenzionalmente riportato con data contabile pari a quella del trimestre di rilevazione (la stessa del numeratore e del tasso di decadimento). Di seguito il numeratore del rapporto verrà indicato come Sofferenze, il denominatore come Impieghi. Il lavoro analizza 23 gruppi distinti, le “Branche”, ovvero le industries italiane (secondo la classificazione della Banca d’ Italia, e ne valuta gli effetti reciproci.

Sofferenze ed Impieghi sono valutati per volumi, ed il set di dati utilizzato per l’ analisi delle interazioni tra settori sui loro valori presenta 77 osservazioni, relative ad un periodo che va dal I trimestre 1990 al I trimestre 2009 (incluso). Per l’ analisi degli shock macroeconomici, sono stati prese in considerazione 12 variabili di bilancio. I dati provengono dai bilanci annuali, e rappresentano i valori medi ponderati di ogni variabile.


02 Altri prodotti industriali

Altri prodotti industriali

3,1%

Altri servizi destinab. vendita Carta, prod.stampa, editoria

Carta, prod.stampa, editoria

2,4%

Edilizia e opere pubbl. Macchine per ufficio e....

20,5%

Mezzi di trasporto Minerali e metalli ferrosi e non Minerali e prodotti a base di miner. non…

Prodotti chimici Prodotti energetici Prodotti in gomma, plastica

Materiali e forniture elettriche

2,0% 1,0%

Prodotti chimici

1,1%

Prodotti in gomma, plastica

1,4%

Servizi trasporti interni

4,1% 2,0% 4,0% 1,7% 4,2%

Prodotti tessili, cuoio,calz., abbigl.

6,7%

Servizi alberghi e pubbl.eser.

2,7%

Servizi commercio, recuperi, riparazioni Servizi delle comunic.

3,2%

Prodotti in metallo esclusi macchine e…

4,0%

Prodotti tessili, cuoio,calz., abbigl.

Servizi marittimi aerei

2,4%

Prodotti energetici

0,2%

Prodotti in metallo esclusi macchine e…

Servizi connessi ai trasporti

2,0% 1,8%

Prodotti alimentari, bevande, tabacco

5,8%

Servizi alberghi e pubbl.eser.

Mezzi di trasporto

Prodotti agricoli silvicoltura pesca

4,7%

4,0% 2,6%

Minerali e metalli ferrosi e non Minerali e prodotti a base di miner. non…

2,0%

Prodotti alimentari, bevande, tabacco

12,1% 0,7%

Macchine agricole e industriali

3,6% 2,3%

Prodotti agricoli silvicoltura pesca

20,1% 2,3%

Edilizia e opere pubbl. Macchine per ufficio e....

0,8%

Macchine agricole e industriali Materiali e forniture elettriche

2,8%

Altri servizi destinab. vendita

15,1%

17,1% 0,9% 0,1% 0,8% 1,6%

02A - Composizione percentuale delle sofferenze totali italiane

4,7% 2,9%

Servizi commercio, recuperi, riparazioni Servizi connessi ai trasporti Servizi delle comunic. Servizi marittimi aerei Servizi trasporti interni

15,7% 1,4% 2,0% 1,0% 2,5%

02B - Composizione percentuale degli impieghi totali italiani

Considerazioni statistiche e trattamento dei Dati Dalle analisi statistiche, le sofferenze evidenziano la presenza di alcuni outliers, e un andamento non lineare. Le 23 regressioni effettuate per descrivere l andamento di una variabile in maniera dipendente da tutte le branche si caratterizzano per una distribuzione dei residui non normale, eteroschedastica sebbene con scarsa autocorrelazione, un R quadro basso e significatività prossima allo zero, il modello regressivo non può essere adottato. Dai test, le variabili risultano cointegrate e non stazionarie, il che comporta la presenza di correlazioni spurie. Riguardo gli impieghi, le regressioni si caratterizzano per un alto R quadro e per una distribuzione degli errori normale ed omoschedastica, anche se la significatività dellle equazioni di regressioni è nulla anche in questo caso, per via del numero esiguo di osservazioni e dell’ alto numero di variabili. La spiegazione della discrepanza tra gli R-sq delle regressioni per le sofferenze e di quelle per gli impieghi, è molto semplice: mentre le prime sono variabili di flusso, le seconde sono valori stock, cioè incrementali, e le variazioni sono esigue rispetto ai suoi alti valori.

Discorso a parte per le variabili di bilancio. Data la natura contabile, le osservazioni coprono intervalli di tempo annuali, e sono classsificate in set distinti per ogni branca, composti da 15 osservazioni per12 variabili (più le sofferenze in risposta). Le regressioni individuali presentano una non significatività per quasi tutti i regressori, rendendole inadatte a descrivere il modello. Normalizzando e aggregando le Variabili di Bilancio (VB), risulta la presenza di omoschedasticità tra i gruppi (branche). Effettuando un test Anova, emerge che la relazione tra una VB e le Sofferenze può approssimarsi a costante, indipendentemente dalla branca. Un modello regressivo unico risulta valido. E’ stata anche valutata la stagionalità delle Sofferenze, dimostratasi assente. Per tutti i modelli, sia mediante Reti che statistici, gli outliers non sono stati eliminati nè smussati. Il motivo è che forniscono le informazioni più dirette sugli effetti reciproci tra settori. Inoltre l’ intero lavoro pone la sua attenzione alle fat tails e a risposte immediate più che al trend di lungo periodo, coerentemente non viene fatto alcun pre-trattamento dei dati.


Il Modello


03 anno T

anno T+1

effetto delle VB sulla sofferenza

stress intersettoriale

interpolazione dello stress interno

istante in cui si effettua lo stress

Il modello temporale e gli stress Il modello si compone di 3 sottosistemi: - relazioni tra variabili di bilancio e sofferenze (interna alle branche, nessuna relazione intersettoriale). L’ intervallo temporale di riferimento, data la natura dei dati, è annuale. In questo primo stage viene valutato uno stress specifico su una variabile di bilancio, e come questo si propagherà sulle sofferenze del settore in esame. - relazioni tra sofferenze delle branche, lo stress iniziale è dipendente dalla perturbazione interna, quantificata nel primo sottosistema, e copre un intervallo trimestrale. - relazioni tra impieghi, sono un sottosistema stand-alone, non comunicando nè con i livelli di sofferenza nè con le variabili di bilancio. Nell’ ipotesi che gli errori abbiano una distribuzione White Noise, si può calcolare lo stress di una variabile Y dovuto a uno shock su una variabile X come la differenza del suo valore previsto in condizioni “ordinarie” ad eccezione di X, aumentata della quantità dX, pari allo shock, e del valore previsto di X in condizioni ordinarie. Nel caso del presente modello, le condizioni ordinarie equivalgono alle osservazioni, e l’ ipotesi diventa valida in assenza di errori sistemaci nel modello predittivo.

L’ algoritmo si sviluppa nelle seguenti fasi: - Sono caricati in input i valori delle variabili di bilancio e il livello di sofferenze della branca oggetto di stress, verificati alla fine dell’anno T (precedente quello corrente), le sofferenze e gli impieghi di tutte le branche al trimestre precedente quello attuale. - Vengono scelte la variabile target e l’ammontare dello stress. Il modello fornirà in risposta la variazione (annuale) delle sofferenze dovuta allo shock sulla VB d’interesse. - Si effettua una trasformazione dello stress di Bilancio annuale in trimestrale. I test statistici mostrano che la presenza di stagionalità non è significativa, e lo stress trimestrale dato uno shock sulle VB, è approssimabile linearmente allo stress annuale / 4. - Tale quantità rappresenta lo shock sul valore delle sofferenze di una branca, che si propagherà su tutte le altre. - Gli impieghi, essendo riferiti alla fine del trimestre precedente, subirebbero gli effetti di un eventuale shock nel trimestre successivo a quello target. Perciò non sono sottoposti a stress, ma viene soltanto effettuata una previsione al trimestre successivo, valore che rappresenta il denominatore del TDEC.


Le Reti Neurali


04

Cosa sono le reti neurali Una rete neurale è un modello matematico/informatico di calcolo basato sulle reti neurali biologiche. Tale modello è un sistema adattivo che cambia la sua struttura basata su informazioni esterne o interne che scorrono attraverso la rete durante la fase di apprendimento. In termini pratici le reti neurali sono strutture non-lineari di dati statistici organizzate come strumenti di modellazione. Esse possono essere utilizzate per simulare relazioni complesse tra ingressi e uscite che altre funzioni analitiche non riescono a rappresentare. Una rete neurale artificiale riceve segnali esterni su uno strato di nodi (unità di elaborazione) d’ingresso, ciascuno dei quali è collegato con numerosi nodi interni, organizzati in più livelli. Ogni nodo elabora i segnali ricevuti e trasmette il risultato a nodi successivi. I segnali in uscita dalla rete vengono confrontati con le osservazioni reali, e un feedback corregge i pesi associati alle connessioni neurali. In tale fase, definita Training, la rete si autoadatta al sistema, identificando un flusso di controllo, ovvero definendo un modello di processo che descriva le relazioni causali tra le variabili.

Il punto di forza delle reti neurali è che non necessitano di un modello teorico che sintetizzi il fenomeno analizzato (e che non sono condizionate da ipotesi errate): diversamente dagli strumenti classici, le reti filtrano autonomamente le informazioni significative e le leggi che regolano un dato sistema di variabili, trovando da sole il modello più verosimile. L’altra faccia della medaglia è la loro dipendenza dai dati campione. Una delle maggiori criticità è dovuta al fenomeno dell’ Overfitting. Non si può ipotizzare di osservare tutti i possibili comportamenti del sistema, ma nella migliore delle ipotesi, solo un subset rappresentativo. Ciò implica che le reti debbano avere capacità di generalizzare, per rendere flessibile il modello a comportamenti non osservati in precedenza. Viceversa, i modelli spesso forniscono risposte verosimili solo per ciò che è stato osservato, discostandosi di molto in presenza di comportamenti nuovi (overfitting) o dualmente, permettono un ampio range di risposte senza motivarle con un supporto forte (underfitting). Sebbene non ci siano procedure che garantiscono di evitare questo fenomeno, lo si può contenere minimizzando l’errore in un subset non usato nel training.


04 Schema di una rete neurale input 1

1h1 1h2

2h1

1h3

2h2

1h4

bias

input 2

OL

input n bias bias

Un neurone dispone di n canali in ingresso, ad ognuno dei quali è associato un peso. Tali pesi rappresentano le sinapsi, e sono numeri reali. Se wi > 0, il canale è eccitatorio, per wi<0 esso è inibitorio. In valore assoluto rappresentano la forza della connessione. I segnali sono poi computati nel neurone vero e proprio. La somma pesata degli ingressi, ∑wixi, è abbassata da un valore soglia, σ, per poi essere trasformata tramite la funzione di attivazione, s(x);infine, manda il suo output ai neuroni dello strato successivo. xi

wi

S(x)

y

Le reti neurali artificiali Le reti si compongono di tre classi di neuroni: di input - ricevono dati dall’ esterno (un solo ingresso, molte uscite) di output - trasmettono la risposta del modello dato un set di input (molti ingressi, una uscita) hidden - interni alla rete, su uno o più livelli, ricevono i dati dagli imput o dai neuroni dello strato precedente, e mandano segnali a quelli di output o allo strato successivo (molti ingressi, molte uscite). Ciascun neurone comunica, in sintesi, con quelli degli strati precedenti e successivi, ma non con quelli di pari livello. Le connessioni, chiamate sinapsi, permettono lo scambio dei segnali, filtrato dal peso relativo alla specifica sinapsi. Entrando nel dettaglio, il neurone artificiale è costituito da un’unità che riceve in ingresso un valore numerico, somma pesata di diversi segnali, e lo elabora attivandosi oppure rimanendo inattivo a seconda che venga superata (o meno) la soglia di attivazione. Più specificatamente, il neurone artificiale usa il dato in ingresso come argomento per una funzione, detta appunto di attivazione( s) e che restituisce in uscita i valori 0, 1 – più spesso, un valore compreso in [0, 1] – e, per i neuroni dell’ultimo strato, un qualunque numero reale.

Pertanto, il neurone sarà caratterizzato dalla funzione e dalla soglia di attivazione. Quest’ultima viene solitamente introdotta mediante un ingresso costante, uguale ad 1, opportunamente modulato da un coefficiente, o bias, il cui effetto è quello di controllare la traslazione della soglia di attivazione rispetto all’origine dei segnali. Solitamente sono adottate diverse funzioni di attivazione, a seconda del ruolo che il neurone e la rete neurale sono destinati a svolgere. Le più diffuse sono la funzione sigmoidale, σ(x)=1/(1+exp(-x)) e la tangente iperbolica τ(x)= (a-b)/(a+b). Mentre la funzione di attivazione è statica, le sinapsi hanno la capacità di adattarsi (e quindi adattare il modello), mediante apprendimento. In questa fase, le sinapsi (i pesi) della rete assumono valori casuali o neutri (0.5) come valori iniziali, successivamente sono processate (sequenzialmente o in ordine casuale) le osservazioni, e viene confrontata la risposta della rete con la risposta reale. L’errore di previsione viene poi usato per apprendere, o più precisamente per correggere i pesi della rete, tramite una learning rule. Questa consiste nel ripartire il differenziale dell’ errore sui pesi tramite un metodo di discesa del gradiente.


04 stress variabili di bilancio VB stressata

rete

sofferenze

rete

validation

impieghi

rete

validation

L’ architettura delle reti neurali adottate I problemi legati all’ over/underfitting si sono dimostrati essere la maggiore criticità a questo modello. Il gran numero di variabili, il set di osservazioni corto e le risposte finali (la variazione dei tassi di decadimento dato uno shock su una variabile di bilancio) di alcuni ordini di grandezza più piccole delle variabili in esame, il modello risulta estremamente sensibile ed è necessario che sia quanto più accurato possibile, laddove un errore anche contenuto si amplifica notevolmente. In particolare, l overfitting fa tendere a zero la varianza degli errori nelle previsioni partendo da scenari su cui la rete e stata addestrata, e a far aumentare la varianza degli errori nelle previsioni partendo da scenari nuovi, cioè uno stress verrebbe calcolato come differenza tra due distribuzioni eteroschedastiche. Per minimizzare questo fenomeno, le reti sono state implementate adottando due criteri: il primo, riguardante la calibrazione, minimizza non l’MSE del set di training, ma quello del set di validazione ( il 10% delle osservazioni, scelte in maniera casuale). Viene usato un sistema di correzione dei pesi “batch”, ovvero sono processati tutti i dati, e l’errore in base cui applicare la backpropagation è quello

medio dell’ epoca, ovvero del subset di validazione, non processato dalle reti. Il secondo riguarda l’ architettura. Non esistono in letteratura criteri per determinare a priori il numero ottimale di strati e di neuroni, che variano non solo in base al numero di variabili e di osservazioni, ma anche in base a quanto queste ultime siano rappresentative. Troppi neuroni fanno tendere la rete all’ overfitting, troppi pochi all’ underfitting. Il metodo più usato è basato sul criterio informativo di Akaike (AIC), un indice relativo che relaziona l’MSE di una rete al suo numero di neuroni. In fase preliminare si è disegnata l’ architettura delle reti, in maniera iterativa. Ogni rete è stata allenata in ogni configurazione possibile tra quelle aventi da 1 a 5 neuroni nel primo livello hidden, e da 0 a 3 nell’ eventuale secondo livello. Per ogni configurazione è stato valutato l’ AIC, e si è scelta la configurazione migliore. Successivamente, sono state addestrate le reti (1000 epoche, 3 cicli), e salvati i pesi qualora avessero superato l’ultima condizione, ovvero che le risposte della rete abbiano una distribuzione significativamente non diversa da quella reale. Per le reti sulle VB, non si è usato un subset di validazione.


Benchmark Statistico


05

Vettori AutoRegressivi e regressioni I vettori autoregressivi (VAR) sono una generalizzazione del modello ad equazioni simultanee in cui tutte le variabili siano endogene, le equazioni non costituiscono più un modello di equilibrio parziale, per cui ogni variabile può dipendere a priori da ogni altra, ed inoltre che sia definito direttamente nella forma ridotta, eliminando i vincoli necessari all’ identificazione delle equazioni simultanee. Tale modello fa dipendere linearmente il vettore di variabili al tempo t da se stesso ritardato di 1,..,p unità temporali. Si sviluppa cioè un Vettore AutoRegressivo (VAR) che può essere visto come un AR (generalizzazione di un ARIMA) in forma vettoriale ( che valuti congiuntamente, cioè, più variabili endogene, superando il limite dell’ ARIMA) sia come una particolare forma ridotta dei SEM. Il VAR riesce quindi a includere gli effetti non solo della variabile oggetto, ma anche delle altre variabili, includendo i ritardi anche di queste ultime. Infine, il VAR può essere visto come una generalizzazione di una rete neurale in cui sono assenti i livelli di neuroni hidden (soltanto il livello di input e quello di output) e che abbia una funzione di attivazione lineare.

I Vettori AutoRegressivi rappresentano il benchmark ideale, in quanto associano ad un modello che ricalca quello delle reti, un fondamento matematico e statistico. I VAR sono stati impiegati per stimare sia le sofferenze che gli impieghi; non è stato tuttavia diviso il set di osservazioni, creando un subset di validazione anche per loro (non avrebbe avuto alcun senso statistico), e non sono stati filtrati gli outliers, per rendere il set coerente con quello di riferimento per le reti. Il lag temporale è pari a un periodo, sia per coerenza sia perchè per lag superiori i VAR avrebbero perso significatività statistica. Riguardo il modello delle variabili di bilancio, i VAR non forniscono prestazioni accettabili e devono essere scartati. Le regressioni lineari, sebbene abbiano R-squares molto alti, presentano una eccessiva sensibilità nei coefficienti, dando in risposta valori negativi (impossibili fisicamente, dato che le sofferenze sono un’esposizione per cassa) anche per shock molto contenuti (ordine dell’1%). Viene quindi usata una sola regressione, valida per tutte le branche, ipotizzando in prima approssimazione che si abbia lo stesso schema relazionale, indipendentemente dalla branca.


Risultati e Considerazioni Finali


06

Prestazioni delle Reti rispetto ai VAR e considerazioni Per quanto riguarda i modelli basati sulle VB, le reti neurali forniscono risultati soddisfacenti, considerando anche che il set di osservazioni sia estremamente corto e che non sia stata usata la tecnica della minimizzazione dell’ MSE di validazione. L’ MSE per le reti ha un range che varia da 0.003 a 0.048, i p-values dei test statistici sull’uguaglianza delle medie (delle risposte reali e delle risposte del modello) sono prossimi allo 0.5 (range: 0.487-0.508) mentre quelli relativi alle varianze delle due risposte sono ugualmente contenuti (0.548-0.847). Il modello regressivo, invece, presenta un MSE di uno-due ordini superiori (mediamente, 0.46), ma un ottimo R-square (0.86), coincidenza delle medie (p-val=1) e differenza non significativa tra le varianze delle risposte reali e del modello regressivo (p-val 0.85). Per le singole branche, i test sulle medie presentano p-values tra 0.55 e 0.85, quelli sulle varianze tra 0.49 e 0.51. Discorso a parte per gli MSE, superiori a 0.5 per due branche: servizi delle comunicazioni (2.095) e Prodotti Energetici (0.740). Entrambe rappresentano una quota marginale (rispettivamente 0.9% e 0.25%), e sono un compromesso tollerabile.

Il risultato maggiore nel modello globale proposto si evidenzia per la modellizzazione delle sofferenze: a una sostanziale assenza di trend, elevata variabilità e eteroschedasticità, le reti neurali rispondono egregiamente, con un MSE (del set di validazione) compreso tra 0.001 e 0.03, differenza tra le medie delle risposte non significativa per nessuna branca, tuttavia hanno una varianza inferiore per 7 branche su 23. La modellizzazione tramite VAR invece presenta MSE accettabili (0.001-0.119), ma p-val delle medie più bassi e una varianza molto più ridotta, conferendogli una valenza molto più descrittiva che predittiva. Gli impieghi, infine, sembrano essere modellizzati meglio dai Vettori Autoregressivi che dalle reti neurali. La forte presenza di trends, infatti, agevola i VAR, strumenti lineari. Questi presentano MSE minori (0 - 0.009) rispetto alle reti (0.01 -0.11); mentre i p-value di queste ultime assumono valori “neutri” (0.450.93 per le medie, 0.383 - 0.975 per le varianze), nel caso dei VAR sono fortemente concentrate attorno a 0.87 e a 0.45, e presentano un forte overfitting. Nel complessivo, i risultati sostengono l’ ipotesi di una buona capacità predittiva delle reti neurali.

Reti Neurali  

confidential

Read more
Read more
Similar to
Popular now
Just for you