Page 1

Information and Communication Technology – Modulo n. 2

Pag. 1

Claudio CANCELLI (www.claudiocancelli.it)

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 2

INDICE INDICE DEI CONTENUTI DOCUMENTO DI PROGRAMMAZIONE MODULARE ………………………………………. PAG. 3

1. SVILUPPO

DELL’UNITA’ DI LAVORO X.1

X.1.1 - Conoscere il concetto di guasto, di errore e di servizio offerto …….. PAG. 5 X.1.2 - Conoscere e comprendere il significato di affidabilità, disponibilità, guasto ed errore …………………………………………………………………………………………… PAG. 08 X.1.3 - Comprendere la rilevazione degli errori ed il trattamento del guasto PAG. 15

2. CONCLUSIONI

……………………………………………………………………………………………………….. PAG. 25

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 3

Modulo x: Le funzioni di Manutenzione Modulo x.1: Introduzione alle funzioni di Manutenzione Obiettivi di competenza finali attesi 1 – Saper comprendere la necessità e le funzionalità dell’HW e del SW necessari ad interpretare le funzioni di diagnostica nei sistemi di

elaborazione con controllo a microprocessore (Esercizi da definire

con l’Unità di Lavoro x.2)

2 – Saper impostare i criteri di analisi e di progettazione per la

diagnosi di unità hardware duplicate (Esercizi da definire con

l’Unità di Lavoro x.2). Progettare l’hardware ed il software necessari per il controllo del data bus di un sistema duplicato.

Cn = OBIETTIVI RELATIVI ALLE (sapere nel senso di possedere conoscenze descrittive di tipo formale/astratto) Ab= OBIETTIVI RELATIVI ALLE ABILITA’ (saper fare, nel senso di saper utilizzare in concreto date conoscenze) T => TEORIA -- P => PRATICA CONOSCENZE

Modalità di verifica, recupero ed approfondimento Verifica in itenere (di tipo formativo), sommativa scritta alla fine del modulo. Eventuale rivisitazione dei contenuti e completamento. Eventuale approfondimento mirato ad ulteriori esempi di analisi o di progetto. Verifica orale e scritta. Recupero pomeridiano. Unità di Lavoro x.1 – Introduzione alle funzioni di manutenzione

Prerequisiti – Ottima conoscenza dei circuiti combinatori (Modulo B) e dei circuiti sequenziali (Modulo D)

Obiettivi di Teoria Fondamentali

Obiettivi di Laboratorio Fondamentali

CnT1-x.1.1 – Conoscere il concetto di servizio offerto da un sistema CnT2-X.1.2 – Conoscere e comprendere il significato di affidabilità, disponibilità, guasto ed errore CnT3-X.1.3 – Comprendere le modalità di rilevazione degli errori e di trattamento del guasto CnT4-X.1.4 – Introdurre il concetto di manutenzione

Non previsti

Corrispondenze verifiche Da definire Problemi

tra

obiettivi

Obiettivi di Laboratorio Opzionali Non previsti

e

Da definire

Obiettivi di Teoria Opzionali Non previsti

Modalità di verifica, recupero ed approfondimento Verifica formativa in itenere con esercizi mirati alla valutazione delle conoscenze e delle abilità, eventuale rivisitazione dei contenuti; verifica scritta alla fine dell’unità. L’eventuale approfondimento mirato avverrà in itinere. L’eventuale recupero sarà successivo alla verifica scritta prevista con J.2. e comunque

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 4

previsto con n.ro 4 ore pomeridiane.

Unità di Lavoro x.2 – La simulazione e la realizzazione

Prerequisiti – Unità di Lavoro x.1 – – Introduzione alle funzioni di manutenzione

Obiettivi di Teoria Fondamentali

Obiettivi di Laboratorio Fondamentali

AbT1–x.2.1 – saper progettare l’hardware di controllo degli errori sul bus dati AbT2–x.2.2 – saper implementare una routine scritta con un linguaggio di alto livello

AbL1–x.2.3 – progetto HW e verifica AbL2–x.2.4 – progetto SW e verifica

Obiettivi di Laboratorio Opzionali Non previsti

Obiettivi di Teoria Opzionali Programmare un CnT3-X.2.3 microcontrollore con la routine scritta in x.2.2

Corrispondenze verifiche

tra

obiettivi

e

Da definire

Modalità di verifica, recupero ed approfondimento Da definire

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 5

SVILUPPO DELL’UNITA’ DI LAVORO x.1  CnT1 – x.1.1

Comprendere il concetto di servizio offerto da un sistema Introduzione Poniamoci le seguenti domande e cerchiamo di fornire risposte inerenti gli aspetti legati alla sicurezza, all’affidabilità ed alla necessità di disporre dei servizi offerti dall’apparato/sistema/gestore. Evitiamo la fatica di ricercare la definizione di sistema e cerchiamo di dare un significato al termine richiamando i concetti che ci saranno utili per la nostra trattazione. A Esempio 1) Cosa succede il PC con il quale lavoriamo/giochiamo/comunichiamo tutti i giorni si guasta? E se a guastarsi è il chip di memoria del PC presente nell’ufficio dell’amministratore delegato di una multinazionale, quali sarebbero le conseguenze? RISPOSTE ……………………………………………………………………………………………………………

B

………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… …………………………………………………………………………………………

Esempio 2) Pensiamo ad un guasto nei sistemi di comunicazione presenti in un sottomarino (fino a 50 anni senza fare rifornimento) o su un aereo supersonico (~ 100 CPU). Lo potremmo tollerare?

C

RISPOSTE ……………………………………… ……………………………………… ……………………………………… ……………………………………… ……………………………………… ………………………………………

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 6

…………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………

Esempio 3) E cosa succede se una centrale telefonica urbana va completamente fuori servizio? RISPOSTE …………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ………………………………………………………………………………………………

D

Esempio 4) E cosa dire di un satellite che viene progettato per una vita media di 810 anni? E’ così grave che si renda inutilizzabile dopo un anno di vita per la presenza di condizioni non previste nell’orbita geostazionaria? RISPOSTE …………………………………………………………………………………………………………………………………………………………… ……………………………………………………………… E ……………………………………………………………… ……………………………………..………………………… ……………………………………………………………… ……………………………………………………………… ……………………………………………………………… ……………………………………………………………… ……………………………………………………………… ……………………………………………………………… ……………………………………………………………… ………………………………………………………………

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 7

Esempio 5) Non è finita: è così grave se durante il relax con la fase di decompressione, l’applicazione domotica del tele-wc va fuori servizio?

F

RISPOSTE …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… ……………………………………………………………………………..……………

Es. x.1.1) Ed ora come esercizio, in quali dei sistemi riportati in figura spendereste dei quattrini per garantire l’eccellente funzionalità dell’elettronica presente in ciascuno di essi? H

G

M

I

L

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 8

CnT1 – x.1.2

Conoscere e comprendere il significato di affidabilità, disponibilità, guasto ed errore Definizioni e concetti Prima di procedere è necessario che vengano chiariti alcuni significati di termini abbastanza ricorrenti.

E’ la probabilità che un componente/apparato/sistema esegua correttamente una funzione per un dato periodo di tempo e in condizioni di funzionamento specificate senza evidenziare alcun malfunzionamento. L’affidabilità (reliability) assicura quindi il corretto funzionamento del prodotto durante il suo utilizzo. Es. x.1.2) Una rete dati è composta da 5 router; l’affidabilità R(t) di ciascun apparato è uguale a 0,99 in un anno. Vuol dire che ciascun apparato funziona correttamente per il 99% del tempo. Possiamo introdurre il concetto di:

come F(t) = 1- R(t). Per l’esempio risulta uguale a 1- 0,99 = 0,01. Ossia l’1% è la percentuale di fuori servizio di ciascun apparato. Se in un anno risultano 60*24*365 = 525.600 minuti, risulta accettabile un fuori servizio pari all’1%, ossia uguale a 14,4 minuti/giorno.

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 9

La disponibilità è una funzione definita come la probabilità che il sistema non mostri malfunzionamenti nell'istante in cui gli è richiesto di operare. La disponibilità (Availability) si differenzia dall'affidabilità poiché quest'ultima è una misura di corretto funzionamento in un intervallo, mentre la disponibilità è una misura di corretto funzionamento ad un dato istante temporale.

Dopo aver analizzato gli esempi, possiamo pervenire ad una considerazione: se il sistema è così fondamentale da dover garantire

criteri economici, di sicurezza e di affidabilità dobbiamo prevedere che la presenza di un guasto non incida sul funzionamento complessivo dell’apparato o del sistema. Per guasto si intende l’interruzione di una o più prestazioni funzionali offerte da un dispositivo/apparato/sistema. Il servizio e le prestazioni di molti sistema devono essere garantiti anche in presenza di un guasto, tenendo comunque presente che i calcolatori impiegati nei Sistemi di Elaborazione e di Controllo delle Informazioni e dei dati, non potranno mai essere in nessun caso considerati assolutamente affidabili. I calcolatori sono spesso alternativi all’uomo ed in molti casi lo supportano con funzioni fondamentali per l’importanza economica e la sicurezza fisica delle persone. Una situazione di guasto può provocare danni notevoli in termini economici e di vite

giusta importanza al trattamento ed alla loro prevenzione. se

non

si

da

la

Al concetto di guasto è normalmente associato il TASSO DI GUASTO

λ

TASSO DI GUASTO

umane

MORTALITA’ INFANTILE

definito come il numero di guasti nell’unità di tempo. Uno schema tipico C. Cancelli – Introduzione alle Funzioni di Manutenzione

VITA UTILE

USURA TEMPO

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 10

del tasso di guasto in funzione dell’età del componente è riportato in figura. La relazione che esiste tra tasso di guasto ed affidabilità risulta:

R(t) = e

-λt

Es. x.1.3) Calcolare l’affidabilità di un componente a 3000 ore se il tasso di guasto è pari a:

λ = 8*10-5 h -1

R(t) = 0,787 equivale alla probabilità del 78,7% che il componente funzioni in tale arco di tempo.

Verificare a quanto ammonta la probabilità che il componente funzioni a 10.000 ore. Ora introduciamo:

MTBF  

Mean Time Between Failure – Ossia l’intervallo di tempo (medio) tra due guasti consecutivi, e si calcola come M MT TBBFF == 11//λλ Per l’esempio I.1.2 risulta un MTBF uguale a 12.500 ore.

MTTR  

Mean Time To Repair – Ossia l’intervallo di tempo medio necessario a riparare o sostituire l’unità guasta. Se μ è il tasso di riparabilità, risulta: M MT TT TRR == 11//μμ Ad esempio per μ = 0,03, risulta un MTTR uguale a 30 secondi.

Mean Time To Failure – E’ il tempo atteso MTTF   (valore medio) per la manifestazione del 1° guasto. Si può calcolare come tempo cumulativo di funzionamento di tutto il campione diviso il n.ro di guasti. Concludiamo l’argomento sull’affidabilità e sui guasti richiamando l’attenzione sull’affidabilità di sistemi complessi che può essere calcolata individuando i sottosistemi che li costituiscono e come sono collegati. I due modelli utilizzati per valutare l’affidabilità di tali sistemi risultano i seguenti:

Sistemi in Serie 

L’affidabilità totale del sistema è uguale al prodotto delle affidabilità dei singoli componenti:

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 11

RS(t) = R1(t) * R2(t) * R3(t) *….. e per n elementi uguali: RS(t) = e

–nλt

All’aumentare dei componenti, cala l’affidabilità del sistema, per cui, se il valore ottenuto non soddisfa, dobbiamo usare componenti di migliore qualità o trovare una soluzione che richieda meno componenti. Richiamando l’esempio I.1.2, se la comunicazione coinvolge i 5 dispositivi, l’affidabilità complessiva del sistema risulta pari a: RS(t) = 0,99*0,99*0,99*0,99*0,99 = 0,9509

Sistemi in Parallelo 

L’affidabilità totale del sistema è uguale a: RS(t) = 1 - [(1-R1(t))] * [(1-R2(t))] * ...... Per rendere il sistema non funzionante si devono guastare tutti i componenti. È una soluzione che prevede costi elevati perché ogni componente deve garantire al sistema le prestazioni richieste necessarie alla corretta funzionalità. All’aumentare dei componenti, aumenta l’affidabilità del sistema; se il valore ottenuto non soddisfa, si devono usare componenti di migliore qualità oppure aumentare il numero dei componenti in parallelo.

Il sistema composto da due CPU con affidabilità pari a 0,999 comporta una affidabilità totale pari a 0,999999. Per concludere l’argomento solo un cenno all’o orriiggiinnee

suddividerli nel modo seguente: –

Le

ddeeii gguuaassttii che consente di

cause fenomenologiche che implicano… – –

…Guasti fisici (phisical faults ), dovuti a fenomeni fisici avversi; …Guasti causati dall’uomo (human–made faults ), dovuti all’imperfezione umana;

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 12

I confini del sistema che implicano… – …Guasti interni (internal faults ), che sono parti dello stato del sistema che, quando richiamate dall’attività di elaborazione, produrranno un errore; – …Guasti esterni (external faults ), che derivano dall’interferenza dell’ambiente fisico nel sistema (perturbazioni elettromagnetiche, radiazioni, temperatura, vibrazioni, etc.) o dall’interazione con l’ambiente umano;

La fase di creazione rispetto alla vita del sistema che implica… – …Guasti di progetto (design faults ), che derivano da imperfezioni che si verificano durante lo sviluppo del sistema o per modifiche successive; – …Guasti operativi (operational faults ), che si verificano durante l’uso del sistema.

… ed alla p paattoollooggiiaa: –

attivo (active ) quando produce un errore. Un guasto attivo è o un guasto interno che era in precedenza inattivo (dormant ) e che è stato attivato Un guasto è

dal processo di elaborazione, o un guasto esterno.

Es. x.1.4) Per quale motivo il sistema operativo di un processore presente in una centrale di commutazione telefonica dovrebbe schedulare un programma di diagnostica nei confronti della periferica che consente il load della cassetta di back-up (programmi + data base), e non prevedere la schedulazione del programma che diagnostica le linee d’abbonato. ……..………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 13

E poi l’altro problema: è giusto affidarsi completamente alle risposte fornite dal calcolatore? Gli errori nei sistemi di calcolo si verificano e possono derivare da specifiche ambigue o incomplete, da errori di progetto, da errori di programmazione, da errori hardware, da errori di immissione dati o di interpretazione dei risultati I progettisti hardware e software devono prevedere circostanze atipiche ed ammettere/contenere l’errore dell’utente; occorre pianificare correttamente la fase di testing : esistono software di supporto al debugging (correzione degli errori) Nei confronti degli errori si usano le tecniche di ¾ Tecniche di rilevamento dell’errore — eerrrroorr d deetteeccttiioonn Una delle tecniche HW abbastanza diffuse consiste nel generare un bit di parità, normalmente associato ad un byte, e rilevarlo a valle rilevando la correttezza o meno. ¾ Tecniche di correzione dell'errore — eerrrroorr ccoorrrreeccttiioonn Una tecnica abbastanza utilizzata durante la trasmissione di informazioni consiste nell’avere un meccanismo di rilevamento dell'errore che abbia capacità di diagnosi, cioè che sappia indicare il punto in cui si è verificato un errore ed intervenire predicendo il risultato. Relazione tra guasti, errori e malfunzioni

GUASTO (FAULT)

È la causa dell’errore

ERRORE (ERROR)

È la manifestazione del guasto nel sistema

MALFUNZIONE C. Cancelli – Introduzione(FAILURE) alle Funzioni di Manutenzione

È la manifestazione - Dicembre 2010 dell’erroreEd. sul1.0 servizio


Information and Communication Technology – Modulo n. 2

Pag. 14

Le problematiche che si pongono quando bisogna garantire il funzionamento del sistema secondo specifiche atte a garantire la corretta funzionalità risultano le seguenti: –

Prevenzione dai guasti

(fault pprreevveennttiioonn): come

possono essere

prevenute le occorrenze di guasti;

Testing Qualità –

Tolleranza ai guasti (fault tolerance): come garantire un servizio che si mantenga conforme alle specifiche, nonostante i guasti;

Sovradimensionamento Diagnostica –

Eliminazione del guasto (fault removal): come ridurre l'occorrenza (numero, gravità) dei guasti;

Debugging HW e SW –

Predizione di

guasti

forecasting): come

stimare il numero, la frequenza presente e futura, e le conseguenze dei guasti.

(fault

di incidenza,

Valutazione dei guasti inevitabili In definitiva:

Se un guasto lo possiamo prevedere

.. lo possiamo rimuovere e gestire

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 15

Es. x.1.5) Facciamo riferimento all’esercizio precedente per introdurre il concetto di Errore Latente ed Errore Rilevato. ¾ Un errore è llaatteennttee (latent) quando non è stato riconosciuto dal μP ¾ un errore è rriilleevvaattoo (detected), quando un algoritmo o meccanismo di rilevamento lo riconosce. Come può un microprocessore non riconoscere un errore latente o rilevarlo? (…… Interrupt mascherabili ……) Es. x.1.6) Una domanda per voi. Tutti i guasti che possono capitare in un sistema controllato da un microprocessore, si possono prevedere? In un sistema controllato da un μp quali sono i guasti secondo te che non si possono prevedere? ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………

CnT1 – x.1.3

Comprendere le modalità di rilevazione degli errori e di trattamento del guasto

In riferimento alla Tolleranza ai guasti (fault tolerance) valuteremo prima il sovradimensionamento e quindi analizzeremo il trattamento e recupero dell’errore ed il trattamento del guasto con casi concreti.

Esempio 6) Consideriamo lo schema seguente. Cosa capita se si verifica un guasto in memoria, oppure un guasto alla CPU? Oppure su uno dei bus di interconnessione tra memoria e CPU?

CPU

MEMORIA

C. Cancelli – Introduzione alle Funzioni di Manutenzione

………………………………………………………… ………………………………………………………… ………………………………………………………… ………………………………………………………… ………………………………………………………… …………………… Se c’è bisogno che il sistema garantisca una indisponibilità max di 2 minuti, vi sembra che questa soluzione possa Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 16

soddisfare tale specifica? Poiché quindi non possiamo permetterci la situazione di

guasto né della CPU né della memoria , in quanto essendo UNITA’ SIMPLEX, mi impedirebbero l’erogazione del servizio per un tempo superiore a 2 minuti, dobbiamo pensare ad una struttura alternativa. Dieci minuti di tempo per pensare. Soluzioni…………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… Analizziamo la soluzione seguente:

CPU BUS ‘A’

PWR ‘A’

MEMORIA ‘A’

BUS ‘B’

PWR ‘B’

MEMORIA ‘B’

Con la memoria in configurazione DUPLEX. Se durante l’accesso della CPU in memoria, verrà rilevato un guasto nel blocco di MEMORIA ‘B’, si può fare in modo che tale unità venga isolata così che la CPU possa continuare a lavorare con la MEMORIA ‘A’ e garantire così la corretta funzionalità di tutto il sistema. I due blocchi di memoria vengono alimentate da due fonti di alimentazione differente Es. x.1.7) Dettagliare l’architettura esposta con la soluzione dell’esempio 1, mettendo in evidenza l’Address Bus, il Data Bus ed il Control Bus. Pensa a C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 17

cosa deve avvenire durante l’operazione di lettura? E durante l’operazione di scrittura?

CPU

BUS ‘A’

? BUS ‘B’

A.B D.B. C.B PWR ‘B’

PWR ‘A’

MEMORIA ‘A’

MEMORIA ‘B’ FROM μP

Operazione di SCRITTURA

Buffer

Buffer

BUS ‘A’

BUS ‘B’ TO μP

Operazione di LETTURA

MUX

BUS ‘A’ C. Cancelli – Introduzione alle Funzioni di Manutenzione

BUS ‘B’ Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 18

Es. x.1.8) Fate riferimento all’alimentazione della CPU. Con l’architettura precedente c’è un grosso problema. Riguarda l’alimentazione. Come potrebbe essere superato? La soluzione, in questo caso ve la fornisco io e la discutiamo assieme.

PWR ‘A’

CPU

PWR ‘B’

CPU

‘A’

‘B’

BUS ‘AL’

BUS ‘BL’

BUS ‘AR’

BUS ‘BR’

PWR ‘A’

PWR ‘B’

MEMORIA ‘A’

MEMORIA ‘B’

In assenza di guasti una CPU è attiva e l’altra è in stand-by. Le due memorie vengono contemporaneamente sia scritte sia lette. TRATTAMENTO DELL’ERRORE Il trattamento dell’errore può essere eseguito per:

Rilevare l’errore e recuperarlo

con cui uno stato esente da errore viene sostituito allo stato erroneo. la sostituzione può avvenire con: • Recupero indietro, in cui la trasformazione dello stato erroneo consiste nel riportare il sistema in uno stato precedente al verificarsi dell’errore Þ occorre determinare un punto di recupero; • Recupero in avanti, in cui la trasformazione dello stato erroneo consiste nell’evolvere in un nuovo stato dal quale il sistema possa operare, eventualmente in modo degradato.

o compensarlo C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 19

consentendo per la presenza di ridondanza, di continuare a fornire un servizio esente da errore a partire dallo stato erroneo. Esempio x.1.9) Supponiamo che per un’operazione di scrittura la CPU ‘A’ acceda IN memoria con il valore F0F4 sul bus dati. Unitamente a tale dato un ODD parity generator sul byte basso (DPL) presente all’interno della CPU genera il valore 1 ed un ODD parity generator sul byte alto (DPH) genera il valore 0. Il controllore di parità presente nella scheda di memoria rileva 1 piuttosto che 0 sul bit DPH e genera un interrrupt diretto al microprocessore tramite il Programmable Interrupt Controller.

CPU ‘A’

μP INT

P.I.C.

D.B. = F0F4

DPL= 1 INTMA

DPH= 0

PWR ‘A’

MEMORIA ‘A’ Alarm Register

DPH ER

Es. x.1.9) Si riporti lo schema hardware che consenta la generazione di parità ed il controllo di parità sul byte basso del Bus Dati. Si utilizzi il data sheet per il dettaglio dei componenti che si intende utilizzare …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 20

…………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………………….

GESTIONE DEGLI INTERRUPT Si riporta il diagramma che consente di comprendere il riconoscimento dell’errore affidato alla priorità che il S.O. assegna ai vari programmi. Mask INTMA

Task 1 Mask INT

Remove mask INT

Guasto

Task 2

Interrupt routine

Task 3

Remove mask INTMA

USER PROGRAM Istante in cui il guasto provoca l’errore DPH-ER

INTERRUPT HANDLER

Il S.O. consente il riconoscimento dell’Interrupt

i i+1

TRATTAMENTO DEL GUASTO

Il primo passo nel trattamento del guasto è la diagnosi del guasto che consiste nel determinare le cause degli errori, sia in termini di locazione che di natura. del guasto. I programmi di diagnostica utilizzano normalmente registri di I/O non mappati in memoria. L’esempio precedente evidenzia il richiamo del programma di diagnostica che consente di individuare l’unità minima guasta sulla quale si può intervenire con operazioni di

MANUTENZIONE CORRETTIVA.

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 21

Si tenga presente che lo stesso programma può essere attivato dall’operatore od

anche schedulato per le operazioni di MANUTENZIONE PREVENTIVA, ed evitare così che errori latenti considerati gravi non vengano subito riconosciuti per la loro reale importanza. Seguono poi le azioni tese a prevenire che il guasto sia nuovamente attivato,

tendendo a renderlo passivo mediante il processo di disattivazione del guasto. Ciò consiste nel mettere FUORI SERVIZIO l’unità identificata guasta e non richiamata più dagli User Program. Infine se il sistema non è più in grado di fornire il servizio precedentemente offerto, viene attivato il processo di una copia da Stand-By diventi attiva.

riconfigurazione. Può essere ad esempio che

L’ultimo tipologia è la MANUTENZIONE PREDITTIVA (o su condizione). Gli interventi di manutenzione sono subordinati al rilievo, tramite misure dirette o indirette (misure d'usura, di potenza assorbita, rumore, ...), del raggiungimento di una soglia di probabilità del verificarsi di un guasto o malfunzionamento. Con la manutenzione predittiva è possibile: ¾ rispetto alla manutenzione correttiva, evitare gli interventi di urgenza seguendo l'evoluzione delle anomalie in modo da intervenire nelle condizioni più favorevoli; ¾ rispetto alla manutenzione preventiva, evitare interventi anche quando potrebbero non rivelarsi necessari in quanto potenziali fonti di ulteriori avarie.

Dovevamo intervenire sul concetto di Manutenzione all’inizio di tale Unità Didattica, ma nessuno di voi è intervenuto per chiederne il significato, vorrà dire che l’argomento lo completeremo adesso, prima di farci gli auguri per le vacanze.

LA MANUTENZIONE - L'insieme di azioni che permette di mantenere o di

ristabilire un apparato/sistema/dispositivo in uno stato tale da assicurare il servizio specificato. Teniamo presente che la manutenzione ha normalmente impatto sulle aree:

Tecnica per la conoscenza necessaria dei sistemi da controllare, ...; Economica: per le previsioni di investimenti, per i budget di spesa, ...; Organizzativa:

per dell’organigramma, ….

la

gestione

C. Cancelli – Introduzione alle Funzioni di Manutenzione

lavoro,

per

la

definizione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 22

DIAGNOSI DEL GUASTO Una volta riconosciuto l’errore attraverso l’interrrupt, il microprocessore attiva il programma di diagnosi per comprendere, possibilmente in modo più accurato, la motivazione del guasto. Il primo test riguarda la verifica del Bus Dati. Avviene scrivendo dei pattern (solitamente prima zero e poi uno) e verificando che non si verifichi né un Ready Time Out e che il pattern letto corrisponda a quello scritto. Ciò e realizzato tramite i Registri di Loop-Back. Un primo registro di Loop-Back è posto nelle immediate vicinanze del microprocessore, l’ultimo in prossimità dell’unità indirizzabile (Memoria o registro di I/O inerente una periferica). Esempio x.1.11) Proviamo a scrivere sul DB il valore 0000 indirizzando il Loop-Back Register #1. Supponiamo che il valore letto sia 0000. La funzione EX-OR con tutti 0 non evidenzia alcuna anomalia.

μP

Write Operation

Read Operation

Loop-Back Register #1

D.B. = 0000

D.B. = 0000

EXOR (0000, 0000) = 0000

Ora con una seconda operazione sempre nei confronti dello stesso registro scriviamo FFFF; se in lettura il dato è ancora FFFF, possiamo concludere che la parte tra il microprocessore e la zona circoscritta da tale registro è PERFETTAMENTE FUNZIONALE.

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

μP

Write Operation

Pag. 23

Read Operation

Loop-Back Register #1

D.B. = FFFF

D.B. = FFFF

EXOR (FFFF, FFFF) = 0000 Ora nel caso in cui l’operazione che prevede la scrittura di FFFF sul bus dati porti come risultato di lettura un valore F7FF, ne risulta che la funzione EX-OR è pari a 0800 e quindi il bit 11 è il risultato dell’anomalia.

μP

Write Operation

Read Operation

Loop-Back Register #1

D.B. = FFFF

D.B. = F7FF

EXOR (FFFF, F7FF) = 0800

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 24

RICONFIGURAZIONE Supponiamo che la CPU “A” sia attiva e che la CPU “B” sia in stand-by. Se la CPU “A” rileva, durante l’accesso in memoria, un guasto nella MEMORIA “A”, una volta PWR

Out of Service

CPU ‘A’

PWR ‘B’

CPU ‘B’

BUS ‘AL’

BUS ‘BL’

BUS ‘AR’

PWR ‘A’

MEMORIA ‘A’

BUS ‘BR’

PWR ‘B’

MEMORIA ‘B’

riconosciuto l’errore, diagnostica l’unità sospetta guasta e se l’errore è realmente presente la pone fuori servizio. La riconfigurazione consiste nel fatto cha da questo momento la CPU “A” lavora non più in configurazione duplex nei confronti della memoria bensì in simplex interfacciando solo la memoria “B” tramite il bus “AR”. Se sussisteranno le condizioni per riparare la memoria “A” e se il guasto verrà rimosso la CPU “A”, tramite una nuova riconfigurazione, interfaccerà entrambe le memoria e riprenderà a lavorare in duplex. Un altro esempio di guasto può riguardare la CPU “A” attiva. In tal caso la CPU “A” informa la CPU “B” che cerca di riprendere il controllo della situazione corrente, sempre che la CPU “A” sia stata nella condizione di memorizzare le informazioni correnti (indirizzi, dati, etc..) prima di essere dichiarata fuori servizio. In tal caso la CPU “B” riprende il programma esattamente dal punto di interruzione della CPU “A”. Se ciò non dovesse essere possibile la CPU “B” riprende dal programma di boostrap con una perdita di dati transitoria e parziale.

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

PWR

Out of Service

CPU ‘A’

Pag. 25 PWR ‘B’

CPU ‘B’

BUS ‘AL’

BUS ‘BL’

BUS ‘AR’

PWR ‘A’

MEMORIA ‘A’

BUS ‘BR’

PWR ‘B’

MEMORIA ‘B’

6. CONCLUSIONI  Con l’unità di lavoro x.1 sono stati messi in evidenza gli aspetti considerati propedeutici per trattare con la successiva unità, x.2, un progetto Hardware o Software relativo alla diagnostica di una unità sospetta guasta. Si è così affrontato un argomento di estremo interesse per sistemi particolarmente critici dal punto di vista della sicurezza e della affidabilità: la necessità di continuare in real-time ad offrire i servizi anche in presenza di guasti. Ciò viene assicurando rendendo ridontante l’hardware e prevedendo gli adeguati processi software per riconoscere il guasto e riconfiurare il sistema.

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

Pag. 26

ÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖ

Qualsiasi osservazione che possa contribuire a rendere il documento più completo è ben accolta! c.cancelli@tiscali.it o claudio.cancelli1@istruzione.it

ÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖ

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2

C. Cancelli – Introduzione alle Funzioni di Manutenzione

Pag. 27

Ed. 1.0 - Dicembre 2010

Introduzione alle funzioni di manutenzione_ICT  

Saper comprendere la necessità e le funzionalità dell’HW e del SW necessari ad interpretare le funzioni di diagnostica nei sistemi di elabor...

Read more
Read more
Similar to
Popular now
Just for you