Hypergeometrisk fordeling

Sandsynlighed funktion af den hypergeometriske fordeling for .RED: ; blå: ; Grøn: .

Den hypergeometriske fordeling er en sandsynlighedsfordeling i stokastik . Det er univariat og er en af ​​de diskrete sandsynlighedsfordelinger . I modsætning til den generelle hypergeometriske fordeling kaldes det også den klassiske hypergeometriske fordeling .

Elementerne er tilfældigt taget fra en todelt population i en prøve uden erstatning . Den hypergeometriske fordeling giver derefter information om sandsynligheden for, at et bestemt antal elementer vil forekomme i prøven, der har den ønskede egenskab. Denne distribution er derfor vigtig for f.eks . Kvalitetskontrol .

Den hypergeometriske fordeling er modelleret på urnemodellen uden udskiftning (se også kombination uden gentagelse ). En urne med to slags bolde betragtes specifikt i denne sammenhæng. Bolde er fjernet uden at erstatte. Den tilfældige variabel er antallet af bolde af den første slags i denne prøve.

Den hypergeometriske fordeling beskriver således sandsynligheden for, at for givne elementer ("population af omkredsen "), som har den ønskede egenskab, nøjagtigt hits opnås, når der vælges prøver ("prøve af omkredsen ") . H. sandsynligheden for succes i eksperimenter.

Eksempel 1: Der er 30 bolde i en urne, hvoraf 20 er blå, så 10 er ikke blå. Hvad er sandsynligheden p for at trække nøjagtigt tretten blå kugler fra en prøve på tyve kugler (uden at erstatte)? Svar: p = 0,3096. Dette svarer til den blå bjælke ved k = 13 i diagrammet "Sandsynlighedsfunktion for den hypergeometriske fordeling for n = 20".

Eksempel 2: Der er 45 kugler i en urne, hvoraf 20 er gule. Hvad er sandsynligheden p for at trække nøjagtigt fire gule kugler fra en prøve på ti kugler? Svar: p = 0,269. Eksemplet beregnes nedenfor .

definition

Den hypergeometriske fordeling afhænger af tre parametre:

  • antallet af elementer i en befolkning .
  • antallet af elementer med en bestemt egenskab i dette basissæt (antallet af mulige succeser).
  • antallet af elementer i en prøve.

Distributionen giver nu oplysninger om, hvor sandsynligt det er, at elementer med egenskaben, der skal kontrolleres (succeser eller hits), er i prøven. Det resultat rum er derfor .

En diskret stokastisk variabel er underlagt den hypergeometriske fordeling med parametrene , og , hvis de er sandsynlighederne

for ejer. Den binomialkoefficienten betegner " i ". Så skriver du eller .

Den fordelingsfunktionen angiver derefter sandsynligheden for, at på de fleste elementer med egenskaben skal afprøves i prøven. Denne kumulative sandsynlighed er summen

.

Alternativ parameterisering

Lejlighedsvis kaldes det også en sandsynlighedsfunktion

Brugt. Dette følger med og ind i ovenstående variant.

Egenskaber for den hypergeometriske fordeling

Symmetrier

Følgende symmetrier gælder:

  • Byt kugler trukket og succeser:
  • Byt succeser og fiaskoer:

Forventet værdi

Den forventede værdi af den hypergeometrisk fordelte tilfældige variabel er

.

mode

Den tilstand af hypergeometriske fordeling er

.

Her er den Gaussiske beslag .

Variation

Den varians den hypergeometrisk stokastisk variabel er

,

Den sidste brøkdel er den såkaldte korrektionsfaktor ( finitetskorrektion ) i modellen uden udskiftning.

Skævhed

Den skævheden af den hypergeometriske fordeling er

.

Karakteristisk funktion

Den karakteristiske funktion har følgende form:

Hvorved betegner den Gaussiske hypergeometriske funktion .

Momentgenererende funktion

Det øjeblik frembringende funktion kan også udtrykkes ved hjælp af hypergeometric funktion:

Sandsynlighedsgenererende funktion

Den sandsynlighedsgenererende funktion er angivet som

Forholdet til andre distributioner

Forholdet til binomialfordelingen

I modsætning til binomialfordelingen med den hypergeometriske fordeling returneres prøverne ikke til reservoiret for yderligere udvælgelse. Hvis størrelsen på prøven er relativt lille (nogenlunde ) sammenlignet med størrelsen af befolkningen , adskiller sandsynlighederne beregnet ved binomialfordelingen og den hypergeometriske fordeling sig ikke væsentligt fra hinanden. I disse tilfælde udføres tilnærmelsen ofte ved hjælp af binomialfordelingen, som er matematisk lettere at håndtere.

Forholdet til Pólya-distributionen

Den hypergeometriske fordeling er et specielt tilfælde af Pólya-fordelingen (vælg ).

Forholdet til urnemodellen

Den hypergeometriske fordeling stammer fra den diskrete ensartede fordeling gennem urnemodellen . Fra en urne med i alt kugler farves og kugler trækkes. Den hypergeometriske fordeling indikerer sandsynligheden for, at farvede kugler tegnes. Ellers kan binomialfordelingen også bruges til modellering i praksis. Se også eksemplet.

Forholdet til den multivariate hypergeometriske fordeling

Den multivariate hypergeometriske fordeling er en generalisering af den hypergeometriske fordeling. Det besvarer spørgsmålet om antallet af kugler i en farve trukket fra en urne, hvis urnen indeholder mere end to skelnelige farver af kugler. For to farver stemmer det overens med den hypergeometriske fordeling.

Eksempler

Forskellige eksempler

Der er 45 kugler i en container, hvoraf 20 er gule. 10 bolde fjernes uden udskiftning.

Den hypergeometriske fordeling angiver sandsynligheden for, at nøjagtigt x = 0, 1, 2, 3, ..., 10 af de fjernede kugler er gule.

Et eksempel på den praktiske anvendelse af hypergeometrisk distribution er lotteriet : I nummerlotteriet er der 49 nummererede bolde; 6 af disse tegnes i lodtrækningen; 6 numre krydses på lotteriet.

angiver sandsynligheden for at opnå nøjagtigt x = 0, 1, 2, 3, ..., 6 "hits".

Detaljeret beregningseksempel for kuglerne

farvede bolde

For eksemplet med de farvede bolde, der er givet ovenfor, er sandsynligheden at bestemme, at der nøjagtigt 4 gule bolde resulterer.

Samlet antal bolde
Nummer med egenskaben "gul"
Prøvestørrelse
Målrettet mod gul

Så .

Sandsynligheden skyldes:

Antal muligheder for at vælge nøjagtigt 4 gule (og derfor nøjagtigt 6 lilla) bolde
divideret med
Antal måder at vælge nøjagtigt 10 bolde i enhver farve

Der er

Måder at vælge nøjagtigt 4 gule bolde.

Der er

Måder at vælge nøjagtigt 6 lilla bolde.

Da hver “gul mulighed” kan kombineres med enhver “lilla mulighed”, resulterer dette

Muligheder for nøjagtigt 4 gule og 6 lilla kugler.

Der er helt

Måder at trække 10 bolde på.

Så vi får sandsynligheden

,

i ca. 27 procent af tilfældene fjernes nøjagtigt 4 gule (og 6 lilla) kugler.

Alternativt kan resultatet også findes ved hjælp af følgende ligning

Der er 4 gule kugler i prøven . De resterende gule kugler (16) er i de 35 resterende kugler, der ikke er en del af prøven.

Numeriske værdier for eksemplerne

h (x | 45; 20; 10)
x Antal mulige
resultater
Sandsynlighed
i%
0 3.268.760 0,1024
1 40.859.500 1.2807
2 205.499.250 6.4416
3 547.998.000 17.1776
4. plads 858.049.500 26,8965
5 823.727.520 25.8207
6. 490.314.000 15.3694
7. 178.296.000 5.5889
8. plads 37.791.000 1.1846
9 4.199.000 0,1316
10 184.756 0,0058
3.190.187.286 100.000
Forventet værdi 4.4444
Variation 1,9641
h (x | 45; 10; 20)
x Antal mulige
resultater
Sandsynlighed
i%
0 3.247.943.160 0,1024
1 40.599.289.500 1.2808
2 204.190.544.250 6.4416
3 544.508.118.000 17.1776
4. plads 852.585.079.500 26,8965
5 818.481.676.320 25.8207
6. 487.191.474.000 15.3694
7. 177.160.536.000 5.5889
8. plads 37.550.331.000 1.1846
9 4.172.259.000 0,1316
10 183.579.396 0,0058
11… 20 0 0
3.169.870.830.126 100.000
Forventet værdi 4.4444
Variation 1,9641
h (x | 49; 6; 6)
x Antal mulige
resultater
Sandsynlighed
i%
0 6.096.454 43,5965
1 5.775.588 41.3019
2 1.851.150 13.2378
3 246.820 1.765
4. plads 13.545 0,0969
5 258 0,0018
6. 1 0,0000072
13.983.816 100.000
Forventet værdi 0,7347
Variation 0,5776

Weblinks

Wikibooks: Hypergeometrisk distribution  - lærings- og undervisningsmaterialer

Individuelle beviser

  1. Hans-Otto Georgii: Stokastik . Introduktion til sandsynlighedsteori og statistik. 4. udgave. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7 , pp. 36 , doi : 10.1515 / 9783110215274 .