I forlængelse af gennemsnit og medianer, er man ofte også interesseret i at vide noget om usikkerheden på ens beregninger. Til dette bruger man standardafvigelser, som siger noget om hvor meget variation der er i ens talsæt og confidensintervallet, der siger noget om hvor stor usikkerhed der er på den beregnede gennemsnitsværdi/median.
Standardafvigelser
Standardafvigelser er et mål for hvor stor spredning der naturligt vil forekomme på observationssættet. Man skal være opmærksom på, at der er flere måder at beregne standardafvigelser på, ud fra en række forudsætninger, og man skal være opmærksom på, at ikke alle metoder er tilgængelige for alle filformater. Ligeledes skal man være opmærksom på, at funktionerne ikke hedder helt det samme.
Til MicrosoftExcel har man flg. funktioner:
STDEV.P() som anvendes hvis talsættet er HELE populationen. Ulovlige værdier, f.eks. tekst, bliver ignoreret.
STDEV.S() hvis talsættet er EN DEL af hele populationen. Ulovlige værdier, f.eks. tekst, bliver ignoreret.
STDEVA() hvis talsættet er EN DEL af hele populationen. Ved ulovlige værdier, f.eks. tekst, sættes værdien til 0 og medtages i udregningen.
STDEVPA() hvis talsættet er HELE populationen. Ved ulovlige værdier, f.eks. tekst, sættes værdien til 0 og medtages i udregningen.
I tidligere versioner af bl.a. Excel, hvor man brugte filformatet .xls, havde man kun funktionen STDEV(), som er den der svarer til STDEV.P().
For at illustrere forskellen på de fire typer standardafvigelser, ses her et observationssæt på 5 lovlige værdier + 1 ulovlig værdi (tekst):
Til OpenOfficeCalc har man flg. funktioner:
STDEVP() som anvendes hvis talsættet er HELE populationen. Ulovlige værdier, f.eks. tekst, bliver ignoreret.
STDEV() hvis talsættet er EN DEL af hele populationen. Ulovlige værdier, f.eks. tekst, bliver ignoreret.
STDEVA() hvis talsættet er EN DEL af hele populationen. Ved ulovlige værdier, f.eks. tekst, sættes værdien til 0 og medtages i udregningen.
STDEVPA() hvis talsættet er HELE populationen. Ved ulovlige værdier, f.eks. tekst, sættes værdien til 0 og medtages i udregningen.
For at illustrere forskellen på de fire typer standardafvigelser, ses her et observationssæt på 5 lovlige værdier + 1 ulovlig værdi (tekst):
Konfidensinterval
På sammen måde som man gerne vil kende den naturlige variation i ens observationssæt, vil man også gerne have et mål for hvor meget man kan forvente at ens gennemsnit/median kan variere. Dette kaldes et konfidensinterval. Et interval fra gennemsnittet/medianen, hvor man med en eller anden sandsynlighed kan forvente at finde en nærmere angivet procentdel af observationerne. Reelt er det en kvalificering af ens standardafvigelse, hvor man ser på størrelsen af standardafvigelsen i forhold til antallet af tal den er baseret på.
Ligesom standardafvigelserne, er der forskelle på de tilgængelige funktioner, afhængig af filformaterne.
Til Microsoft Excel har man flg. funktioner:
CONFIDENCE.NORM() som anvendes hvis talsættet er normalfordelt (z-intervaller).
CONFIDENCE.T() som anvendes hvis talsættet IKKE er normalfordelt (t-intervaller).
Funktionerne bruger tre variabler:
Alpha (også skrevet α): Signifikansniveauet. Konfidensniveauet svarer til 100*(1-α), så et 95% konfidensinterval svarer til α=0,05 og et 99% konfidensinterval svarer til α=0,01 osv.
Standardafvigelsen: Sædvanligvis skiver man navet på cellen, hvor denne er beregnet, men man kan sagtens bare skrive en værdi.
Størrelse: Størrelsen på observationssættet. Her skal man lige være skarp på om man har ulovlige værdier med, og om man i så fald bruger en standardafvigelse der tæller den ulovlige observation med eller ej!
I tidligere versioner af bl.a. Excel, hvor man brugte filformatet .xls, havde man kun funktionen CONFIDENCE(), som er den der svarer til CONFIDENCE.NORM().
For at illustrere forskellen på de to typer konfidensinterval, ses her to beregninger af 95% konfidensintervaller, baseret på en STDEV.P()-værdi:
Til OpenOffice Calc har man kun funktionen CONFIDENCE(), som er konfidensintervallet under forudsætning af, at talsættet er normalfordelt.
Funktionen bruger tre variabler:
Alpha (også skrevet α): Signifikansniveauet. Konfidensniveauet svarer til 100*(1-α), så et 95% konfidensinterval svarer til α=0,05 og et 99% konfidensinterval svarer til α=0,01 osv.
Standardafvigelsen: Sædvanligvis skiver man navet på cellen, hvor denne er beregnet, men man kan sagtens bare skrive en værdi.
Størrelse: Størrelsen på observationssættet. Her skal man lige være skarp på om man har ulovlige værdier med, og om man i så fald bruger en standardafvigelse der tæller den ulovlige observation med eller ej!
For at illustrere beregningen af et konfidensinterval, ses her beregningen af et 95% konfidensinterval, baseret på en STDEVP()-værdi: