Un dato presente nelle elaborazioni statistiche è la media. Secondo il senso comune questo dato dovrebbe rappresentare una buona approssimazione del valore di ciascuna delle osservazioni sulla base delle quali viene calcolato.
Come spesso accade però, il senso comune rivela una verità dimezzata. La media può sì fornire un’idea circa il livello intorno al quale si aggira il valore delle diverse osservazioni, ma non necessariamente. Per esempio, una media pari a cento, può essere il risultato della composizione aritmetica di tre osservazioni tutte di identico valore oppure di tre numeri molto diversi come 40, 80 e 180. In casi come quest’ultimo, la media non rivela in nessun modo quello che il senso comune pretenderebbe: il singolo valore che maggiormente le si avvicina è inferiore del 20%, uno scarto considerato statisticamente enorme.
Nell’esempio riportato è facile rendersi conto, con il semplice esame delle osservazioni, del diverso significato assunto dal valore medio nelle due circostanze; nella realtà tuttavia ciò non è sempre possibile, essendo molto più numerose le osservazioni sulla base delle quali viene calcolata la media (ponderata).
Per valutare se quest’ultima è un buon indicatore del livello intorno al quale si raggruppano le osservazioni è necessario calcolare una misura del grado di diversità delle osservazioni dalla loro media.
In verità non esiste un’unica misura della dispersione, come viene definito tecnicamente nel gergo statistico un simile valore di sintesi, ma se ne possono calcolare diverse. La più nota è detta varianza, denominata in questo modo per rendere immediatamente palese il concetto che sottende.
Essa è la media algebrica delle differenze al quadrato fra ciascuna osservazione e la media. Si calcola determinando per ogni osservazione la differenza dalla media; quindi si moltiplica ciascuna differenza per se stessa (in ciò consiste l’elevazione al quadrato); infine si sommano tutti gli addendi così ottenuti e il risultato si divide per il numero totale di osservazioni.
Quando tutte le osservazioni assumono identico valore, la varianza è pari a zero; il suo valore invece cresce quanto maggiore è la differenza tra un’osservazione e l’altra.
Se per esempio le osservazioni sono tre e pari rispettivamente a 90, 100 e 110, la varianza è pari a 66,66; se invece le osservazioni sono pari a 40, 80 e 180, la varianza balza a 3.466,66, indicando chiaramente un elevato grado di diversità tra le osservazioni del secondo campione.
Poiché la varianza rappresenta una media delle differenze al quadrato, non fornisce un’immagine immediata delle distanze che separano le singole osservazioni dalla media. Per ottenere una tale stima, basta calcolare la sua radice quadrata.
Nei due esempi, tale misura, che tecnicamente viene chiamata scostamento quadratico medio, assume rispettivamente valore di 8,16 e 58,9. Genericamente si potrebbe quindi dire che la differenza fra ciascuna osservazione e la media è di
circa otto nel primo caso e quasi 59 nel secondo.
Si può così accertare in che misura la media si adegui nella singola fattispecie a quella che il senso comune pretenderebbe essere la sua sola immagine.