Gini-koefficient

Gini-koefficient (i%) af indkomstfordeling (Verdensbanken, 2018)
  • ≤ 30
  • 30-34,9
  • 35-39,9
  • 40-44,9
  • 45-49,9
  • 50-54,9
  • 55-59,9
  • 60-64,9
  • ingen data
  • Lorenz-kurve (rød) for den reelle fordeling til beregning af Gini-koefficienten og den ideelle ensartede fordeling (sort)

    Den Ginikoefficienten eller Gini indeks er en statistisk foranstaltning, der blev udviklet af den italienske statistiker Corrado Gini at repræsentere uligheder . Den skildrer de forskellige befolkningsgruppers indkomstandel og er således beregnet til at være et mål for ulighed i et samfund. Ulighedskoefficienter for distribution kan beregnes for enhver distribution. F.eks. Anvendes Gini-koefficienten i økonomi, men også i geografi, som en målestok for fordeling af indkomst og formue i de enkelte lande og dermed som en hjælp til at klassificere lande og deres tilknyttede udviklingsniveau.

    Gini-koefficienten er afledt af Lorenz-kurven og har en værdi mellem 0 (med en jævn fordeling) og 1 (når kun en person modtager hele indkomsten, dvs. med maksimal ulige fordeling). Med en ensartet fordeling menes ikke ensartet fordeling i den sandsynlige forstand, men en fordeling med en varians på 0. I det mest almindelige anvendelsestilfælde, fordelingen af ​​indkomst i et land, betyder det, at indkomsten for hver voksen er den samme, og ikke at forskellige indkomster (klasser) er lige hyppige.

    Ansøgninger

    Økonomi

    Gini-koefficienten bruges især i velfærdsøkonomi til f.eks. At beskrive graden af ​​lighed eller ulighed i fordelingen af ​​formue eller indkomst. Koefficienten er et alternativ til S80 / S20-indkomstkvintilforholdet, som bruges i EU-statistikker.

    Informationsteori

    I informationsteori bruges det som et mål for "renhed" eller "urenhed" af information.

    Maskinelæring

    Inden for maskinindlæring , når der genereres et beslutningstræ , kan Gini-indekset eller mere præcist ændringen i Gini-indekset, også kaldet "Gini Gain", bruges som et kriterium til at vælge den beslutningsregel, hvor barnet noder er så "rene" som muligt. Tanken er, at træet med en "ren" beslutning er klar, hvorfor ændring af Gini-indekset er egnet som et mål.

    Bankvirksomhed

    I bankvæsen bruges Gini-koefficienten som et mål for, hvor godt et klassificeringssystem kan adskille godt fra dårlige kunder ( selektivitet ).

    Normalisering

    Skalaen for mulige værdier varierer fra 0 til 1, fra 0 til 100, fra 0 til 10000, afhængigt af applikationen. Afhængigt af applikationen står den mindste eller største værdi for en jævn fordeling. Værdien af ​​absolut ulighed kan normalt kun nås asymptotisk. Dette kan undgås ved at renormalisere.

    definition

    Almindelig sag

    For en stigende sorteret, diskret fordelt mængde (eksempel: husstandsindkomst) er Lorenz-kurven givet af

    For positionen i indkomstfordelingen angiver Lorenz-kurven derfor den kumulative andel af den samlede indkomst. betegner det aritmetiske gennemsnit. Med en jævn fordeling svarer området mellem 45 graders linie og Lorenz-kurven til værdien 0 og øges for mere ulige fordelinger. Fra denne overvejelse og målet om at opnå en måling, der er normaliseret til intervallet , resulterer Gini-ulighedskoefficienten som ved geometrisk nedbrydning af området opnår man:

    For en reel fordeling kan man beregne Gini-koefficienten direkte som følger (ved hjælp af ):

    En alternativ formulering, der ikke kræver, at dataene sorteres, er baseret på den såkaldte relative gennemsnitlige absolutte forskel . Den gennemsnitlige absolutte forskel betegner den gennemsnitlige forskel for alle par observationer, der er til stede i en population. Dette er relateret til den gennemsnitlige indkomst. For at Gini-koefficienten antager det ønskede værdiområde, divideres forskellen med 2:

    Beregning baseret på kvantiler

    En bestemt del af et sæt A tildeles en del af et andet sæt B. Dette kan f.eks. B. Penge (A) på mennesker (B) eller elforbrug (A) i byer (B). Det er afgørende, at A repræsenterer et homogent, let deleligt sæt. For eksempel ville det ikke være passende at eje et motorkøretøj, fordi motorkøretøjer hverken er homogene - individuelle typer adskiller sig væsentligt - og de kan heller ikke opdeles i små enheder.

    Gini-koefficienten er det område, der er normaliseret til den ensartede fordeling mellem Lorenz-kurverne for en ensartet fordeling og den observerede fordeling.

    med GUK som Gini-ulighedskoefficient, arealet under Lorenz-kurven for en ensartet fordeling og arealet under Lorenz-kurven for den observerede fordeling.

    eksempel

    A fordeles til B, for eksempel fordeles formuen (A) til befolkningen (B).

    50 Prozent von B (b1) wird  2,5 Prozent von A zugeordnet (v1).
    40 Prozent von B (b2) wird 47,5 Prozent von A zugeordnet (v2).
     9 Prozent von B (b3) wird 27,0 Prozent von A zugeordnet (v3).
     1 Prozent von B (b4) wird 23,0 Prozent von A zugeordnet (v4).
    

    I et første trin vises dataene "normaliserede":

    b1 = 0,50     v1 = 0,025          v1/b1 =  0,05
    b2 = 0,40     v2 = 0,475          v2/b2 =  1,188
    b3 = 0,09     v3 = 0,270          v3/b3 =  3
    b4 = 0,01     v4 = 0,230          v4/b4 = 23
    

    I det andet trin beregnes Gini-koefficienten.

    Gini ulige fordelingskoefficient (GUK) opnås ved at evaluere en Lorenz-kurve .

    For faktisk at producere en Lorenz-kurve kan det være nødvendigt at omarrangere ovenstående værdier. Alle værdipar skal først præ-sorteres på en sådan måde, at:

    I eksemplet ovenfor er sorteringen korrekt, så der ikke er behov for at sortere igen.

    Den Lorenz-kurve, du leder efter, opstår, når du indtaster (x i , y i ) par som punkter i et kartesisk koordinatsystem og derefter forbinder nabopunkter med en lige linje. De -pairs følger af -pairs efter følgende beregning regel:

    I det andet trin bestemmes følgende data ud fra dataene fra det første trin ved summering (med (0, 0) tilføjet som en fast værdi i starten):

    x0 = 0,00     y0 = 0
    x1 = 0,50     y1 = 0,025
    x2 = 0,90     y2 = 0,5    (da 0,5 + 0,4 = 0,9 und 0,025 + 0,475 = 0,5 ist)
    x3 = 0,99     y3 = 0,77
    x4 = 1,00     y4 = 1
    

    Med den samlede lige fordeling af velstand er Lorenz-kurven en lige linje fra punkt (0 | 0) til punkt (1 | 1).

    For at bestemme Gini-koefficienten bestemmes først to størrelser, som er grafisk set områder. Når området under den ensartede fordelingslinje er, lad os kalde denne størrelse, for eksempel A. Det andet område er området under den aktuelle distributionskurve , lad os kalde denne størrelse, for eksempel B. Med disse to størrelser beregnes Gini-ulighedskoefficienten som følger:

    B er det mørkegrå område; A består af de lyse og mørkegrå områder.

    Beregning af y-værdierne for Lorenz-kurven for den faktiske fordeling:

    y0 = 0,000
    y1 = v1 = 0,025
    y2 = v1 + v2 = 0,500
    y3 = v1 + v2 + v3 = 0,770
    y4 = v1 + v2 + v3 + v4 = 1,000
    

    Beregning af arealet B under Lorenz-kurven for den faktiske fordeling (se nedenfor):

    (y1 - 0,5 · v1) · b1 = 0,00625
    (y2 - 0,5 · v2) · b2 = 0,105
    (y3 - 0,5 · v3) · b3 = 0,05715
    (y4 - 0,5 · v4) · b4 = 0,00885
    
    B = 0,17725
    

    Da der anvendes en standard repræsentation, forbinder kurven for den samlede ensartede fordeling hjørnepunkterne (0 | 0) og (1 | 1) med hinanden. Trekanten med område A er derfor 0,5. Derfor gælder følgende for Gini-ulighedskoefficienten:

    Set grafisk er Gini-koefficienten forholdet mellem arealet mellem den ensartede fordelingslinje og Lorenz-kurven (AB) til området under den ensartede fordelingslinje (A).

    Forklaring til beregningen

    Hele Gini-området er et rektangel med siderne gange . Gini-området med en jævn fordeling er halvdelen af ​​det samlede Gini-område. For at beregne arealet under kurven tilføjes alle individuelle områder. Tag for eksempel . Rektanglet med højden og bredden (dvs. fra til ) tages fuldt i betragtning . Kun halvdelen af rektanglet, der går fra højde til højde, skal tages, da den anden halvdel over Gini-linjen ikke hører til Gini-området. Det er det også

    eller

    Alternativ visning af arealberegningen: Det enkelte areal er forskellen mellem det rektangulære areal, der bestemmes af punkterne (x 1 , y 0 = 0), (x 2 , y 0 = 0), (x 2 , y 2 ), (x 1 , y 1 ) er begrænset (indhold :) minus arealet af den retvinklede trekant afgrænset af punkterne (x 1 , y 1 ), (x 2 , y 1 ), (x 1 , y 2 ) (indhold :) med samme resultat.

    Datareduktion

    Gini-koefficienten er et statistisk mål, der bruges til at beregne fordelingen af ​​ulighed. Sådanne foranstaltninger reducerer dybest set et mere eller mindre komplekst datasæt til et simpelt nøgletal. Denne måling kan føre til fejlagtig fortolkning, hvis den ikke bruges korrekt.

    Figur 1: Forskellige Lorenz-kurver - samme Gini-koefficient

    I tilfælde af Gini-koefficienten er der for eksempel mindst en anden Lorenz-kurve med nøjagtig den samme Gini-værdi for næsten alle Lorenz-kurver . Dette opnås ved at spejle den originale Lorenz-kurve på linjen, der løber gennem punkterne (0 | 1) og (1 | 0). Hvis mængderne 10% / 90% skal fordeles over 50% / 50%, resulterer dette i den samme Lorenz-kurve som fordelingen af ​​mængderne fra 50% / 50% til 90% / 10% af funktionsbærerne. Disse to Lorenz-kurver er vist i figur 1. De eneste undtagelser er Lorenz-kurver, som er symmetriske i forhold til denne linje fra starten.

    En fælles Gini-koefficient på 0,4 resulterer for de to forskellige kurver. Faktisk er der endda et uendeligt antal mulige Lorenz-kurver for en Gini-koefficient (undtagen absolut lige eller absolut ulige fordeling). På dette tidspunkt er Gini-koefficienten den samme som ethvert andet mål, der stammer fra akkumulering af en stor mængde data. Ujævne fordelingsindikatorer som Gini-koefficienten stammer fra sammenlægning af data med det formål at reducere kompleksiteten. Det tilknyttede tab af information er derfor ikke en utilsigtet bivirkning. Når det kommer til at reducere kompleksiteten, er det generelt rigtigt, at de kun bliver en ulempe, hvis man glemmer deres oprettelse og deres kortlægningsfunktion.

    Fejlkilde i sammenligninger

    Udsagn, hvor ulighedskoefficienter sammenlignes med hinanden, kræver en særlig kritisk gennemgang af beregningen af ​​de enkelte koefficienter. For en korrekt sammenligning er det nødvendigt, at disse koefficienter er beregnet ensartet i alle tilfælde. For eksempel fører den forskellige granularitet af inputdataene til forskellige resultater ved beregning af den ujævne fordeling. En Gini-koefficient beregnet med et par kvantiler viser normalt en noget mindre ulig fordeling end en koefficient beregnet med flere kvantiler, fordi i sidstnævnte tilfælde takket være den højere måleopløsning kan den ujævne fordeling tages i betragtning, at inden for intervallerne mellem kvantilerne) i den første sag forbliver uevalueret på grund af den grovere måleopløsning.

    Enkelt sagt: En højere opløsning af dataene (næsten altid) giver en lavere ensartet fordeling.

    Se også

    Weblinks

    Individuelle beviser

    1. Eurostats hjemmeside ( Memento af den oprindelige af 4. december 2016 på Internet Archive ) Info: Den arkiv link blev indsat automatisk, og er endnu ikke blevet kontrolleret. Kontroller original- og arkivlinket i henhold til instruktionerne, og fjern derefter denne meddelelse. @ 1@ 2Skabelon: Webachiv / IABot / ec.europa.eu
    2. Breiman, L. og Friedman, JH og Olshen, RA og Stone, CJ: Klassificering og regressionstræer . Chapman and Hall, New York 1984.
    3. Retningslinjer for kreditrisiko: Ratingmodeller og validering, Østrigske Nationalbank og Finansmarkedsautoritet, 2004. Arkivlink ( Memento fra 4. december 2011 i Internetarkivet )
    4. ^ PJ Lambert (2001): Fordeling og omfordeling af indkomst. Manchester University Press, s. 31ff.
    5. ^ Ochmann, R. og A. Peichl (2006): Måling af fordelingseffekter af finanspolitiske reformer. Finansielle videnskabelige diskussionsbidrag nr. 06-9 , finansvidenskabeligt forskningsinstitut ved universitetet i Köln.
    6. Calc On-line lommeregner: ujævn fordeling
    7. Sammenligning: www.umversorgung.de/rechner/?quantiles=50,10|50.90 (blå kurve) og www.umversorgung.de/rechner/?quantiles=90.50|10.50 (rød kurve)