Page 1

http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

1

PROB. DISCRETE IPERGEOMETRICA 1. N è conosciuto 2. il processo di verifica è stato effettuato 3. conosco D il n° di elementi non conformi 4. viene estratto n causale senza reimmissione 5. La distribuzione ipergeometrica è adatta per selezionare un campione casuale di n elementi senza rimessa da un lotto di N elementi dei quali D sono non conformi o difettosi. Solitamente x rappresenta il numero di elementi non conformi trovato nel campione BINOMIALE 1. N è infinito e non conosciuto 2. estraggo n elementi senza reimmissione 3. conosco la probabilità di successo in % della popolazione 4. x = n° elementi non conformi nel campione causale 5. Solitamente x rappresenta il numero di elementi non conformi trovato nel campione POISSON 1. P è molto piccola 2. N è molto grande o indefinita 3. si è in possesso di 1 sola informazione Landa = varianza = media= n*p PROB. CONTINUE NORMALE Conosciamo la media e la varianza della popolazione INFERENZE Procedimento deduttivo che mira ad estendere alla totalità della popolazione i dati ottenuti da un campione della popolazione stessa. Si utilizza il metodo dell’ inferenza quando non si conoscono le caratteristiche della popolazione. Studia quelli serie di metodologie che applicate al campione della distribuzione della popolazione con una probabilità di successo 1-alpha. Ne esistono 3 tipi: 1. STIME PUNTUALI; 2. STIME INTERVALLARI; 3. VERIFICHE DI IPOTESI; Stime puntuali: Significa assegnare al parametro incognito della popolazione, un valore calcolato nel campione con un certo rischio di errore. Stime intervallari: Partendo da un parametro dell’ intera popolazione (media), si stima un intervallo con determinati limiti superiore ed inferiore, all’interno del quale, cadrà il parametro con una probabilità pari a 1alpha. Nb: sia le stime puntuali che intervallari, fanno parte delle STIME PARAMETRICHE. luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 1


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

2

Vedi Proprietà stimatori pag. 5-6 slide2 STIME DEI PARAMETRI (sono stime intervallari) Distinguiamo 3 tipi di parametri: MEDIA; PROPORZIONI;(P) VARIABILITA’; Intervalli di confidenza su PH STAT Media 1. TEST Z (estimate for the mean, sigma know) con noto s.q.m. della popolazione. 2. TEST T (estimate for the mean, sigma unknow) con s.q.m. sconosciuto della popolazione però conosco S ossia lo sqm campionario e campioni piccoli come numerosità Nb\\ se n infinito oppure n N test T = test Z Stimatore di Varianza 1. TEST X^2 (CHI) ( estimate for population variance )con Var sconosciuta; media sconosciuta, mi genero S^2 ( varianza campionaria che la posso riferire all’intera popolazione N) Una Proporzione ( estimate for population propotion) Se siamo capaci di calcolare la proporzione dei difetti partendo da P^ (proporzione elementi difettosi ossia la probabilità di successi nel campione / ampiezza campionaria), possiamo calcolare i limiti dell’intervallo. TEST Z

VERIFICA IPOTESI Si Verifica la conformità dei parametri del processo e valori sperati A) Basati su 1 campione B) Basati su 2 campione H0: miu = miu(0) ipotesi nulla, ipotesi da verificare H1: miu diverso miu(0) = ipotesi alternativa , ossia ipotesi opposta alla nulla, quando la nulla è rifiutata Nb: M = media campionaria ; S= scarto quadratico medio Se hai lo sqm della popolazione uso il test Z se invece conosco lo sqm del campione utilizzo T Confidence Level = 1- alpha= 95% Livello di significatività =5% ossia 0.05 3 possibilità 1 BILATERALE: SE H0 deve assumere un valore determinato H1 è tutto il resto a dx e a sx Se z0> di Z alpha H0 viene rifiutata 2 UNILATERALE A DX luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 2


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

3

H1 è maggiore o maggiore-uguale a H0 allora sarà una ipotesi unilaterale A DX 1 UNILATERALE A SX Se H1 è minore o minore – uguale ad H0 allora sarà una ipotesi unilaterale a SX TEST X^2 CHI si usa sempre quando si parla di Varianza Il p-value è il più piccolo livello di significatività che conduce al rifiuto dell’ ipotesi nulla

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 3


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

4

Il  test  del  chi  quadrato   Con   test   chi   quadrato   si   intende   uno   dei   test   di   verifica   d'ipotesi   usati   in   statistica   che   utilizzano   la   variabile   casuale   Chi   Quadrato   per   verificare   se   l'ipotesi   nulla   è   probabilisticamente   compatibile   con   i   dati.  A  seconda  delle  ipotesi  di  partenza  usate  per  costruire  il  test,  tali  test  vengono  considerati  a  volte   parametrici  e  altre  volte  non  parametrici.     Si   definisce   test   parametrico   un   test   statistico   che   si   può   applicare   in   presenza   di   una   distribuzione   normale   dei   dati,   o   comunque   nell'ambito   della   statistica   parametrica.   Ciò   avviene   effettuando   un   controllo  delle  ipotesi  sul  valore  di  un  parametro,  quale  la  media,  la  proporzione,  la  deviazione  standard,   l’uguaglianza  tra  due  medie…   Nella   statistica   non   parametrica   i   modelli   matematici   non   necessitano   di   ipotesi   a   priori   sulle   caratteristiche  della  popolazione  (ovvero,  di  un  Parametro),  o  comunque  le  ipotesi  sono  meno  restrittive   di  quelle  usuali  nella  statistica  parametrica.   In  particolare  non  si  assume  l'ipotesi  che  i  dati  provengano  da  una  popolazione  normale  o  gaussiana.   Viene  considerata  da  alcuni  la  statistica  dei  piccoli  campioni  in  quanto   è  soprattutto  in  questi  casi  che   l'ipotesi  di  distribuzione  gaussiana  è  fatta  spesso  in  modo  arbitrario.  Ma  questa  definizione  può  essere   fuorviante   in   quanto   la   non   parametrica   viene   applicata   anche   in   presenza   di   campioni   relativamente   grandi.   Effettivamente,   in   presenza   di   grandi   campioni,   diverse   distribuzioni   tendono   alla   variabile   casuale  gaussiana  permettendo  così  di  passare  alla  statistica  parametrica.   Lo   scopo   del   test   χ²   è   quello   di   conoscere   se   le   frequenze   osservate   differiscono   significativamente   dalle   frequenze  teoriche.   Se   χ²   =   0,   le   frequenze   osservate   coincidono   esattamente   con   quelle   teoriche.   Se   invece   χ²   >   0,   esse   differiscono.  Più  grande  è  il  valore  di  χ²,  più  grande  è  la  discrepanza  tra  le  frequenze  osservate  e  quelle   teoriche.  Nella  pratica  le  frequenze  teoriche  vengono  calcolate  sulla  base  di  un’ipotesi  H0.  Se  sulla  base   di   questa   ipotesi   il   valore   calcolato   di   χ²   è   più   grande   di   un   certo   valore   critico   (come   20.95   o   20.99,   che   sono   i   valori   critici   rispettivamente   ai   livelli   di   significatività   5   %   e   1   %),   dovremmo   concludere   che   le   frequenze  osservate  differiscono  significativamente  dalle  frequenze  attese  e  dovremmo  rifiutare  H0  al   corrispondente   livello   di   significatività.   Altrimenti   dovremmo   accettarla,   o   almeno   non   rifiutarla.   Tale   procedimento  è  chiamato  test  chi-­‐quadrato  dell’ipotesi.   Bisognerebbe  notare  che  si  deve  guardare  con  sospetto  a  circostanze  in  cui  χ²  è  troppo  vicino  allo  zero,   poiché   è   raro   che   le   frequenze   osservate   concordino   troppo   bene   con   le   frequenze   teoriche.   Per   esaminare  tali  situazioni,  possiamo  determinare  se  il  valore  calcolato  di  χ²  è  minore  di  20.05  o  di  20.01   nel  qual  caso  dovremmo  concludere  che  l’accostamento  è  troppo  buono  ai  livelli  di  significatività  del  5  %   e  1  %  rispettivamente.   Per  conoscere  i  valori  critici  di  χ²  ad  un  determinato  livello  di  significatività  e  con  gli  opportuni  gradi  di   libertà   ci   si   può   avvalere   di   tabelle,   oppure   si   possono   calcolare   numericamente   partendo   dalla  

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 4


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

5

corrispondente   istanza   della   distribuzione   χ²   e   calcolandone   l’integrale   nell’opportuno   intervallo   che   dipenderà  dal  livello  di  significatività  scelto.  

esempio 2: supponiamo   la   seguente   tabella   che   mette   in   relazione   genitori   che   fumano   e   bambini   asmatici.  Esiste  una  relazione?   Per  prima  cosa,  riportiamo  i  dati  raccolti  in  una  tabella:      

sani  

asmatici  

totale  

Fumatori  

37  

13  

50  

Non  fumatori  

92  

8  

100  

totale  

129  

21  

150  

Verificare  l’ipotesi  di  indipendenza  a  un  livello  di  significatività  1%   esempio   2:   in   un   campione   di   N   =   70   unità   statistiche   vengono   rilevati   due   caratteri   X   (reddito)   ed   Y   (rendimento  scolastico);  raggruppando  i  valori  osservati  di  X  in  3  classi,  e  quelli  di  Y  anche  in  3  classi,  si   ottiene  la  seguente  tabella  di  contingenza:          

   

  buono  

rendimento     discreto   scarso  

  alto   7   5   7   reddito   medio     12   7   6     basso   15   8   3     totale   34   20   16   Verificare  a  un  livello  di  significatività  del  5%  se  esiste  un  legame.  

  totale   19   25   26   70  

Ricordo  che  la  statistica  del  chi  quadrato  dipende  dai  gradi  di  liberta  n=(r-­‐1)(c-­‐1)  e  da  alfa.  I  valori  sono   presenti  nelle  apposite  tabelle.   Se  il  chi-­‐quadrato  (test)  è  minore  del  valore  critico,  si  accetta  l’ipotesi  nulla   Se  il  chi-­‐quadrato  (test)  è  maggiore  del  valore  critico,  si  rifiuta  l’ipotesi  nulla    

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 5


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

6

CONTROLLO STATISTICO DELLE QUALITA’ 1) MODELLI DELLA QUALITA’ DI PROCESSI Descrizione della variabilità Ci sono semplici strumenti di statistica descrittiva che si possono impiegare per valutare quantitativamente le variazioni che una caratteristica o indicatore di qualità presenta tra i valori considerati in un campione. Così come le distribuzioni di probabilità possono fornire uno strumento per la realizzazione del modello o la descrizione delle caratteristiche di qualità di un processo produttivo. Tra i diversi metodi grafici utili per sintetizzare i dati osservati abbiamo: • grafici rami e foglie, • box plot • istogrammi

Il box plot è una rappresentazione grafica che presenta importanti indicatori dei dati osservati, quali tendenza centrale o locazione, dispersione o variabilità, allontanamento dalla simmetria distributiva e identificazione delle osservazioni anomale che sono distanti dal nucleo centrale dei dati. Tale grafico presenta i tre quartili, il valore minimo e massimo in una scatola rettangolare, dove l’ampiezza del rettangolo rappresenta la differenza interquartile con il primo quartile Q1a sinistra (o in basso) ed il terzo quartile Q3a destra (o in alto). Vi è poi una linea intermedia che corrisponde al secondo quartile Q2 = x (che indica il mediano). Due segmenti esterni al rettangolo si estendono ai valori estremi minimo a sinistra e massimo a destra; detti segmenti sono chiamati whisker (baffi). L'istogramma è la rappresentazione grafica di una distribuzione in classi di un carattere continuo. Nella sua essenza è costituito da rettangoli adiancenti le cui basi sono allineate su un asse orientato e dotato di unità di misura (l'asse ha l'unità di misura del carattere e può tranquillamente essere inteso come l'asse delle ascisse). L'adiacenza dei rettangoli dà conto della continuità del carattere. Ogni rettangolo ha base di lunghezza pari all'ampiezza delle corrispondenti classi; l'altezza invece è calcolata come densità di frequenza, ovvero essa è pari al rapporto fra la frequenza relativa associata alla classe e la lunghezza della base del rettangolo (ampiezza della classe). Tale strategia rende l'area della superficie di ogni rettangolo coincidente alla frequenza relativa associata alla

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 6


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

7

classe cui il rettangoli si riferisce. Così come la somma delle frequenze relative è pari ad uno, anche la somma delle aree dei rettangoli è pari ad uno. Nell'ipotesi che la numerosità dei valori osservati tende ad infinito, e contemporaneamente l'ampiezza delle classi tende a zero, l'istogramma tende, a sua volta, ad una stima (seppur distorta) della legge di probabilità che regola l'esperimento casuale da cui si osserva il carattere. ESEMPIO BOX-PLOT

DISTIBUZIONI DI PROBABILITA’ Una variabile si dice casuale (stocastica, aleatoria) quando può assumere modalità diverse, comprese in una insieme di valori, a seconda del verificarsi di eventi aleatori. Una distribuzione di probabilità è un modello matematico che collega il valore della variabile alla probabilità che tale valore si trovi all’interno della popolazione. Un campione è un insieme di elementi scelti da una popolazione più ampia. Vi sono due tipi di distribuzione di probabilità: • distribuzioni continue: quando la variabile da misurarsi viene espressa mediante una scala continua, la sua distribuzione di probabilità viene definita una distribuzione continua. • distribuzione discreta: quando il parametro da misurarsi può assumere solo determinati valori, quali gli interi 0, 1, 2, …; ad es. la distribuzione di elementi non conformi o difettosi in un circuito stampato. Una distribuzione discreta appare come una serie di segmenti di altezza proporzionale.

Distribuzioni discrete Alcune distribuzioni discrete compaiono frequentemente nel controllo statistico della qualità. Le principali distribuzioni discrete sono: • ipergeometrica • binomiale o bernulliana • di Poisson • di Pascal o binomiale negativa

distribuzione ipergeometrica luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 7


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

8

La distribuzione di Poisson E’una distribuzione discreta utile nel controllo statistico di qualità, ed è definita nel seguente modo: Quando il numero di dati (n) è molto grande e la probabilità (p) è molto piccola, la distribuzione binomiale presenta vari inconvenienti pratici, che erano importanti soprattutto prima dell'introduzione del calcolo automatico. Infatti, essa richiede sia l'innalzamento di probabilità (p) molto basse a potenze (i) elevate, sia il calcolo di fattoriali per numeri (n) grandi, che sono operazioni che rendono il calcolo manuale praticamente impossibile. Per - n che tende all'infinito, - p che tende a 0, - in modo tale che n⋅p sia costante,  la  probabilità  dell’evento  (Pi)  è  stimata  da  

dove il parametro λ>0. La media e la varianza della distribuzione di Poisson sono: µ= λ media σ2= λ varianza In termini discorsivi, con un numero infinito di dati, se p tende a 0 e quindi q tende a 1, la varianza è uguale alla media n⋅p⋅q (σ2) = n⋅p (µ). E’ un concetto importante quando si deve individuare la forma reale di una distribuzione campionaria. La legge di distribuzione poissoniana è detta anche legge degli eventi rari, poiché la probabilità (p) che l’evento si verifichi per ogni caso e la media (µ) degli eventi su tutta la popolazione sono basse. E’ chiamata pure legge dei grandi numeri, in quanto tale distribuzione è valida quando il numero (n) di casi considerati è alto. Nella pratica della ricerca, la distribuzione poissoniana sostituisce quella binomiale quando p < 0,05 e n > 100. La distribuzione poissoniana ha una forma molto asimmetrica, quando la media è piccola. luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 8


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

9

Quando λ < 1, la classe più frequente o più probabile è zero. E’ ancora asimmetrica per valori di λ < 3. Ma già con λ ≥ 5-6 la distribuzione delle probabilità è vicina alla forma simmetrica e può essere bene approssimata dalla distribuzione normale o gaussiana. Un’applicazione tipica della distribuzione di Poisson nel controllo di qualità si ha nella definizione della distribuzione del numero di difetti o non conformità che si trovano in un’unità di prodotto. Ogni fenomeno casuale che avviene in un’unità(di spazio, di tempo, ecc.) è spesso ben approssimata mediante la distribuzione di Poisson.

La distribuzione binomiale o bernulliana Consideriamo un processo formato da una sequenza di n prove, in cui il risultato di ogni prova è un “successo”o un “insuccesso”. Tali prove sono dette prove di Bernoulli. Se la probabilità di successo in ogni tentativo (p) è costante, il numero di successi in n prove di Bernoulli ha una distribuzione binomiale con parametri n e p definita come: f(x)=Pn, x =

px qn-x dove x= numero di successi e n= numero di prove indipendenti.

La distribuzione binomiale indica la probabilità con cui su n ripetizioni indipendenti di un esperimento con due soli possibili risultati (successo e insuccesso, 0 e 1) x siano dei successi. La funzione f(x) si chiama binomiale con due parametri p e n ed è indicata generalmente con il simbolo B(n,p). Non viene presa in considerazione q essendo p + q = 1 con un solo grado di libertà, una volta determinato p resta determinata anche la probabilità q=1-p. Si dimostra che il valore atteso (media) e la varianza della distribuzione binomiale sono rispettivamente: E(X)= µ= np

Var (X)= σ2= npq

e lo scarto σ=

Caratteristiche Essa è generalmente asimmetrica e dipende dal valore assunto da p. •

Se p=q=0,5 la distribuzione binomiale è simmetrica

• Se p<q la distribuzione binomiale è asimmetrica positiva (le frequenze più alte si concentrano sui valori di x più bassi). • Se p>q a distribuzione binomiale è asimmetrica negativa (le frequenze più alte si concentrano sui valori di x più alti). • Quando n→∞ (cioè abbiamo un elevato numero di prove) e q = p la binomiale tende alla curva normale. Una variabile casuale che si trova spesso nel controllo statistico di qualità è: pˆ= x/n dove x ha distribuzione binomiale con parametri n e p. Spesso pˆ è la frazione campionaria di elementi difettosi, cioè il rapporto tra numero osservato di elementi difettosi in un campione (x) e la numerosità (n) del campione stesso. pˆ è una stima del valore reale ignoto del parametro della distribuzione binomiale p. La distribuzione di probabilità di pˆ si ottiene dalla binomiale poiché:

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 9


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

10

Distribuzione di Pascal Anch’essa, come la binomiale, ha le proprie basi nelle prove di Bernoulli. Consideriamo una sequenza di prove indipendenti, ognuna con probabilità di successo p, ed indichiamo con x la prova in sui si ottiene l’r-esimo successo. x è una variabile casuale di Pascal con la seguente distribuzione di probabilità:

Due casi particolari della distribuzione di Pascal sono: •

Distribuzione binomiale negativa: r >0 ma non necessariamente intero. Tale distribuzione è utile come modello statistico di riferimento ad es. per il conteggio di elementi di non conformità in un’unità. Nella distribuzione binomiale viene fissata la dimensione del campione (numero di prove di Bernoulli) e si ottiene il numero di successi; nella distribuzione binomiale negativa si fissa invece il numero di successi e si ottiene la dimensione del campione (numero di prove di Bernoulli) richiesta per raggiungerli.

Distribuzione geometrica: r = 1; è la distribuzione del numero di prove di Bernoulli richieste fino al primo successo.

La distribuzione normale o curva di Gauss La distribuzione normale riveste una grandissima importanza in statistica e in particolare per l’inferenza statistica. Essa è la generalizzazione dello schema di Bernoulli quando n→∞ e p=q. La funzione di densità è:

La funzione di ripartizione è: Calcolare la probabilità attraverso la formula sopra indicata non è agevole, data la complessità di calcolo per un integrale di una curva. Con una trasformazione di variabile è possibile ricavare i valori delle due funzioni per qualsiasi distribuzione normale. La trasformazione della variabile è data da: Z= con la media µ=0 e la varianza σ2=1. luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 10


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

11

La trasformazione determina la variabile scarto ridotto e la funzione della variabile trasformata prende il nome di distribuzione normale standardizzata. La funzione di densità è:

I valori della funzione ripartizione riguardante questa funzione densità sono stati calcolati in modo definitivo e vengono riportati su una tavola. In questo modo è possibile conoscere la probabilità di qualsiasi distribuzione normale conoscendo la media e la varianza. Caratteristiche della distribuzione normale. La distribuzione normale ha media µ e varianza σ 2 che sono i parametri della funzione e si indica con la seguente simbologia N(µ, σ2). Le caratteristiche principali sono: a) Essa è simmetrica rispetto all’ordinata massima per x = µ. Si ricorda che una curva si dice simmetrica rispetto all’asse di simmetria se dati due valori a lei equidistanti le aree comprese sono uguali. b)

Il suo massimo è dato da f(x = µ)

c)

È campanulate, cioè prima ha un andamento crescente e poi decrescente.

d)

È unimodale, cioè ha un solo punto di massimo.

e)

La media, la moda e la mediana coincidono, cioè il grado di asimmetria è zero.

f) Ha due flessi, il primo ascendente e il secondo discendente per x =µ . Si ricorda che si definisce punto di flesso un punto qualsiasi in cui la concavità cambia verso. La frazione dei casi compresi - fra µ+σ e µ-σ è uguale al 68,27% (in cifra tonda o in valore approssimato i 2/3), - quella fra µ+2σ e µ-2σ è uguale 95,45% (in cifra tonda 95%), - quella fra µ+3σ e µ-3σ è esattamente uguale al 99,73% (circa il 99,9%). In pratica, nella curva normale la quasi totalità dei dati è compresa nell'intorno della media di ampiezza 3 σ. La relazione tra la percentuale di dati sottesi dalla curva e le dimensioni dell’intervallo tra due valori è una caratteristica di rilevante importanza nella statistica applicata: se la distribuzione è normale, è sufficiente conoscere due parametri di una serie di dati, la media µ e la varianza σ2 (o altro parametro da esso derivato come la deviazione standard σ ), per conoscere anche la sua distribuzione.

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 11


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

12

INFERENZA STATISTICA 1. Cosa si intende per inferenza statistica Nelle sezioni precedenti si sono considerati gli aspetti della statistica connessi con la descrizione dei fenomeni e con la stima di certe caratteristiche della popolazione o universo dei dati. Quando, però, si deve risolvere un problema di carattere statistico, in genere si opera su un insieme di dati che non sempre costituisce la totalità di quegli stessi dati relativi al fenomeno studiato. Per questa ragione, nella Statistica sono stati introdotti i concetti di popolazione e campione tra i quali vi è una differenza sostanziale: mentre con il primo termine si indica l'insieme di tutte le unità statistiche nelle quali è presente il fenomeno che si vuole studiare, con il secondo termine ci si riferisce solamente ad una parte dell'intero insieme di quelle unità o popolazione, che sia stata selezionata secondo certi criteri di estrazione o metodi di campionamento. (estrazione casuale, campione sistematico, campionamento semplice, a grappolo, a uno o più stadi, ecc.). Le popolazioni da cui sono estratti uno o più campioni possono contenere un numero di elementi finito oppure infinitamente grande. In questi casi si parla di popolazioni finite o di popolazioni infinite. A loro volta, i campioni possono essere formati da un diverso numero di unità statistiche elementari tratte dalla popolazione, dando luogo a grandi campioni o a piccoli campioni. Un campione che contiene meno di 50 elementi (o talvolta anche meno di 30) si considera che sia un "piccolo campione", mentre un campione composto da più di 50 (o 30) elementi è chiamato "grande campione". La distinzione tra campioni grandi e piccoli ha rilevanza, come si vedrà, soprattutto per determinare quale sia la distribuzione specifica da considerare per la scelta del test statistico di significatività delle stime. La selezione delle unità della popolazione che entrano a far parte del campione da studiare può essere casuale o non casuale. Nel primo caso si ammette che l'unica motivazione della eventuale differenziazione tra le caratteristiche del campione e quelle della popolazione o universo di origine sia la accidentalità o casualità della scelta. Nel secondo caso, invece, generalmente si opera una scelta dettata da criteri definiti che nella gran parte dei casi conducono a risultati campionari "distorti" rispetto a quelli "veri" relativi all'intera popolazione di unità statistiche. Nel seguito sarà preso in considerazione solo il campionamento casuale, cioè la selezione degli elementi della popolazione facendo in modo che ogni elemento abbia la stessa probabilità di essere scelto.

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 12


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

13

Un campione di n unità estratte da una data popolazione è un campione casuale quando tutti gli altri campioni possibili formati anch'essi da n unità e provenienti dalla stessa popolazione hanno la stessa probabilità di essere scelti. Dunque, nella maggior parte dei casi, quando si ricerca la media aritmetica, la varianza ed altre misure caratteristiche della distribuzione di un dato fenomeno di solito si utilizzano dati statistici riferiti ad un campione di unità tratto dalla popolazione di dati che caratterizzano il fenomeno che si vuole analizzare. Se vi fosse la capacità di ottenere tutte le singole misure che formano una popolazione di dati, la media o gli altri parametri statistici caratteristici della distribuzione del fenomeno rappresenterebbero la "vera media", la "vera varianza" e così via, dell'intera popolazione di dati. Ma spesso, per ragioni di natura diversa (costo eccessivo, irraggiungibilità di tutte le unità statistiche della popolazione studiata, carenze di tempo per le rilevazioni e così via), è impossibile considerare l'intera popolazione e la maggior parte delle volte ci si deve accontentare di calcolare le misure caratteristiche relative ad un campione di unità statistiche tratto da essa. Queste misure caratteristiche sono chiamate statistiche

campionarie, mentre le vere misure sono chiamate

parametri della popolazione. Le statistiche campionarie sono stime dei parametri della popolazione. L'attendibilità di una misura ottenuta da un campione dipende dall'accuratezza di queste stime. La media o la deviazione standard calcolate su un campione casuale non forniscono elementi di conoscenza sufficienti per trovare i valori della vera media e della vera deviazione standard relative alla popolazione. Tuttavia, con l'aiuto di queste statistiche campionarie ed utilizzando anche certe proprietà dei campioni casuali, si è in condizione di trovare entro quali limiti ci si può attendere che siano contenuti i parametri della popolazione. Tali limiti possono essere determinati solo con un certo grado di confidenza o precisione o accuratezza o attendibilità. Più i limiti sono ristretti, più è elevata la precisione e più è attendibile la stima. E' anche possibile determinare la significatività della differenza tra i valori che una stessa statistica assume in campioni diversi, a condizione di conoscere come varia quella statistica al variare del campione, ossia conoscere in qual modo si distribuiscono le statistiche campionarie. Per trovare, ad esempio, quale percentuale delle medie di tutti i campioni casuali che possono essere estratti da una popolazione, ci si può attendere che cada entro limiti definiti, dobbiamo conoscere quale sia la distribuzione di frequenza delle medie campionarie. Nello stesso modo per essere capaci di giudicare della attendibilità di una deviazione standard campionaria si deve conoscere la distribuzione di frequenza delle deviazioni standard campionarie. E così via anche per le altre statistiche possibili.

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 13


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

14

2. L 'ipotesi statistica Tutto l'insieme delle considerazioni ora svolte costituisce la materia di cui si occupa la teoria dell'inferenza statistica. Ma ora è il caso di considerare come l'insieme degli elementi discussi fino a questo punto possa essere utilizzato per assumere determinate decisioni operative. Per ipotesi è da intendersi un'affermazione che ha come oggetto accadimenti nel mondo reale, che si presta ad essere confermata o smentita dai dati osservazionali. Esempi di ipotesi che possono essere soggette ad una verifica statistica sono i seguenti: 1. Il gruppo di osservazioni in esame è un campione tratto da una popolazione con media uguale a µ. Sono di questo tipo, ad esempio, le affermazioni seguenti: a. Le lampadine elettriche di un certo stock sono di qualità standard (durata media di vita µ uguale ad uno specifico valore µo). b. Il numero medio di batteri uccisi da goccie campione di un germicida è uguale ad un certo numero standard. c. L'intelligenza media di una data classe è uguale a quella media di tutti gli studenti. La decisione se accettare o rigettare una ipotesi si basa sulle informazioni che si ottengono dalle osservazioni fatte e sul livello che si ritiene sostenibile per il rischio che la decisione da prendere sia sbagliata. Anzitutto si deve definire la ipotesi di lavoro (per esempio, stabilire un dato valore per un parametro della popolazione). Quindi si raccoglie un certo numero di osservazioni (il campione) e si esaminano i risultati ottenuti per vedere se essi siano o no simili a quelli della popolazione stabiliti nella ipotesi avanzata a priori. Se vi è una stretta concordanza, si accetta l'ipotesi. Se la concordanza è scarsa, l'ipotesi sarà rigettata. Per decidere se vi sia o no una stretta concordanza, di solito si calcola qualche statistica ed il valore particolare ottenuto dal campione si compara con la distribuzione campionaria di questa statistica supponendo che l'ipotesi sia vera. Per evidenziare con un test l’effetto di un trattamento, nel controllo di un’ipotesi statistica è possibile commettere due tipi di errore: - l'errore di primo tipo o errore α (alfa), se si rifiuta l'ipotesi nulla quando in realtà essa è vera; - l'errore di secondo tipo o errore β (beta), se si accetta l'ipotesi nulla, quando in realtà essa è falsa. La probabilità di commettere l’errore di I tipo è chiamata livello di significatività ed è indicata convenzionalmente con α (alfa). Essa corrisponde alla probabilità che il valore campionario dell’indice statistico cada nella zona di rifiuto, quando l’ipotesi nulla è vera.

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 14


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

15

La probabilità di commettere l’errore di II tipo, indicato convenzionalmente con β (beta), è la probabilità di estrarre dalla popolazione un campione che non permette di rifiutare l’ipotesi nulla, quando in realtà essa è falsa. Da questi concetti derivano direttamente anche quelli di livello di protezione e di potenza di un test, che sono i parametri più importanti per scegliere il test più adatto alle caratteristiche dei dati e al quesito. Sono concetti tra loro legati, secondo lo schema riportato nella tabella precedente, nella quale si confrontano la realtà e la conclusione del test. Un test statistico conduce ad una conclusione esatta in due casi: - se non rifiuta l’ipotesi nulla, quando in realtà è vera; - se rifiuta l’ipotesi nulla, quando in realtà è falsa. Per aumentare - la probabilità (1-α) del primo caso, occorre incrementare la protezione; - per aumentare quella (1-β) del secondo caso, occorre incrementare la potenza. Esiste una sorta di concorrenza tra errori di primo tipo (α) ed errori di secondo tipo (β): - se si abbassa il livello di significatività, cioè la probabilità di commettere errori di I tipo (α), - si accresce quella dell'errore di II tipo (β); e viceversa. Si tratta di vedere quale dei due è più dannoso nella scelta che si deve effettuare. L’unico modo per ridurli entrambi è quello di aumentare il numero dei dati. Tuttavia non sempre è possibile ampliare le dimensioni del campione, perché già raccolto oppure perché i costi ed il tempo necessari diventano eccessivi, per le disponibilità reali del ricercatore. slide professore Torrisi pag.16

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 15


http://unict.myblog.it

Blog degli Studenti della Facoltà di Economia di Catania

16

Ipotesi Nulla (H0) = è l’ipotesi sottoposta a verifica. In genere coincide con lo stato delle cose • si riferisce sempre ad un parametro specifico della popolazione (Es. µ ) e non ad una statistica campionaria (Es.

)

• contiene SEMPRE un segno di “uguale” (=) relativo al valore specificato del parametro della popolazione (Es. Ho : µ = 50) Ipotesi Alternativa (H1) = è l’ipotesi opposta all’Ipotesi Nulla, quindi rappresenta la conclusione quando l’ipotesi nulla è rifiutata • NON contiene MAI un segno di “uguale” (=) relativo al valore specificato del parametro della popolazione (Es. Ho : µ ≠ 50).

slide professore Torrisi pag.15

luogo di scambio di opinioni,materiale didattico e informazioni

http://unict.forumattivo.com 16


http://unict.myblog.it

Blog degli Studenti della FacoltĂ  di Economia di Catania

luogo di scambio di opinioni,materiale didattico e informazioni

17

http://unict.forumattivo.com 17


http://unict.myblog.it

Blog degli Studenti della FacoltĂ  di Economia di Catania

luogo di scambio di opinioni,materiale didattico e informazioni

18

http://unict.forumattivo.com 18


Appunti controllo statistico della qualità  

appunti controllo statistico della qualità, per esame orale

Advertisement
Read more
Read more
Similar to
Popular now
Just for you