Courbe de Lorenz et coefficient de Gini

Au cas où un moteur ferait atterrir directement sur cette page, il serait peut être préférable de commencer par lire le début de ma présentation, où il y a évidemment un lien pour revenir ici.

 

 Notations

1) La série est constituée de n individus prenant les p valeurs du caractère x1,x2,...,xp avec comme effectifs correspondants n1,n2,...,np.

On suppose 1 £ p, x1 > 0, xi < xi+1 et tous les effectifs sont strictement positifs.

On a évidemment n = n1+n2+...+np.

2) La masse totale de la série est notée m = n1x1+...+npxp.

3) La moyenne de la série est notée moy = m/n.

Phase 1:calcul des effectifs et masses en cumulés croissants

On calcule pour k allant de 1 à n :

ak = (n1+n2+...+nk)/n

bk = (n1x1+n2x2+...+nkxk)/m

Les calculs se font assez facilement de proche en proche sous forme de deux colonnes mises dans le tableau de répartition.

On a toujours ap= bp= 1. Par commodité on pose a0 = b0 = 0.

ak est le pourcentage des individus ayant une valeur du caractère inférieure ou égale à xk : ces individus possèdent une fraction de la masse totale égale à bk.

On peut aussi dire que bk est la masse (en %) possédée par les ak premiers individus (en %), ceux-ci étant classés par valeur croissante du caractère.

Phase 2 construction de la courbe de Lorenz

On reporte les points Mk(ak,bk) pour k=0,1,2,...,p sur un graphique : la courbe de Lorenz est la ligne brisée constituée des segments [MkMk+1].

Voici un exemple dans le cas ou p = 4 (M0=O et M4=A)

                                                 

Cette courbe a une foule de propriétés, en particulier :

la suite des pentes (xi/moy) des segments successifs constituants la courbe est une suite strictement croissante

les points Mk s'éloignent d'abord du segment [OA] puis s'en rapprochent.

Phase 3 calcul du coefficient de Gini

Ce coefficient, qui sera noté g, est égal au rapport entre les deux aires suivantes :

l'aire de la région délimitée par le segment [OA] et la courbe de Lorenz

et l'aire du triangle OAB (qui vaut 0,5 ).

En découpant la région située sous la courbe de Lorenz en trapèzes on montre que

g = 1-somme de i=0 à p-1 de (ni+1/n)*(bi+bi+1)

C'est évidemment ce calcul qui, sans être insurmontable, est le plus pénible en pratique.

Bien entendu on peut se contenter d'une valeur approchée en évaluant approximativement l'aire de la région délimitée par le segment [OA] et la courbe de Lorenz et en la multipliant par 2.

Phase 4 interprétation du résultat

Elle repose sur les 3 propriétés ci-dessous du coefficient de Gini :

1) 0£ g £ 1

2) g = 0 équivaut à ce que la répartition est égalitaire ( donc il n'y a pas d'aspect concentration)

3) g proche de 1 équivaut à ce que beaucoup (les premiers individus) ont peu

                         ce qui revient à dire que peu (les derniers individus) ont beaucoup.

En effet :

1) est évident d'après la définition de g

2) g =0 équivaut évidemment à ce que la courbe de Lorenz soit confondue avec le segment [OA] ; dans ce cas la courbe de Lorenz n'a pas de point anguleux ce qui exige p = 1 et donc la répartition est égalitaire (voir le A 6 de la méthode mse). La réciproque est évidente.

3) Si g proche de 1 alors la courbe de Lorenz est proche de [OB]U[BA] et donc il existe un point Mkavec ak proche de 1 et bk proche de 0, c'est à dire beaucoup (les ak premiers individus) ont peu (bk). Réciproquement si peu ont beaucoup , c'est-à-dire s'il existe un point Mk proche du point B alors les diverses propriétés de la courbe de Lorenz permettent d'affirmer que cette courbe est effectivement proche de [OB]U[BA] et donc g est peu différent de 1.

Remarque : contrairement à ce qui est parfois écrit, il est impossible d'avoir g = 1, tout simplement parce que si g était égal à 1 alors la courbe de Lorenz serait confondue avec [OB]U[BA] , et donc un des segments constituants cette courbe aurait une pente non finie ce qui est impossible, les pentes étant les xi/moy) ; par contre on peut toujours trouver des séries telles que g soit aussi proche que l'on veut de 1.

Cependant il est incontestable que le coefficient de Gini est un indicateur de concentration, puisque g grand traduit le fait qu'il existe un groupe d'individus (les derniers) de faible effectif et ayant beaucoup ; mais à mon avis affirmer que g mesure "la" concentration de la série me parait discutable, puisque la notion de concentration n'a pas été définie de façon quantitative au préalable, mais simplement définie de façon qualitative : il y a concentration si peu ont beaucoup.

D'ailleurs lorsqu'on trouve g = 0,66 (cas de la série des patrimoines de l' exemple 2 de la méthode mse) quelle conclusion en tirer? Tout le monde s'accorde à dire qu'il y a forte concentration alors que 0,66 n'est pas si éloigné que cela de la valeur centrale 0,5! On s'empresse alors de rajouter comme commentaire que les 10% derniers individus ont 53,8% de la masse totale!

Ce qui prouve bien que g à lui seul est insuffisant pour résumer la situation ; le fait que des séries tout à fait différentes (d'un point de vue concentration) peuvent avoir le même coefficient de Gini justifie aussi ce point de vue.

En fait le coefficient de Gini n'a pas de signification précise en terme de concentration, en particulier il n'a aucun lien direct avec les rapports masse sur effectif alors que pour un groupe donné, son rapport masse sur effectif (mse) est une mesure indiscutable de son état de concentration : plus ce rapport mse augmente plus la masse se concentre (au sens habituel du terme) sur ce groupe.

Outre ces inconvénients, le coefficient de Gini est lourd à calculer : je laisse le soin au lecteur d'en faire le calcul pour la série des patrimoines et des revenus (pour les données voir l'exemple 2 de l'exposé sur la méthode mse). Les calculs vont prendre plus de 4 lignes et plus de 4 minutes , cela pour trouver grevenus = 0,37 et gpatrimoines = 0,66 et arriver à des conclusions beaucoup moins précises que celles de la méthode mse (voir toujours l'exemple 2 de la méthode mse ).

Terminons ce petit exposé sur Gini par 2 résultats particuliers :

Effet d'une translation des valeurs du caractère sur le coefficient de Gini :

Si on augmente de k toutes les valeurs du caractère d'une série dont le coefficient de Gini est g, alors son coefficient de Gini devient g'=g/(1+kn/m) ; et donc si k tend vers +infini, g' tend vers 0, ce qui est normal puisque tous les individus vont posséder "relativement " la même chose.

Coefficient de Gini et espérance mathématique :

Soit X la variable aléatoire égale à la valeur absolue de la différence des valeurs du caractère de deux individus choisis au hasard parmi les n. Précisons ce choix : on choisit au hasard un individu parmi les n, puis on rechoisit, indépendamment du choix précédent, au hasard un individu parmi les n ( répétition, avec indépendance, de 2 fois la même épreuve : choisir un individu parmi les n ).

Alors l'espérance de cette variable aléatoire est le double du coefficient de Gini, multiplié par la masse moyenne : E(X)=2gm/n.

Je laisse au lecteur le soin de vérifier que ce résultat entraîne le précédent, puisque une translation des valeurs du caractère laissera invariante l'espérance de X.

On verra sur www.lameta.univ-montp1.fr/online/gini/univfr.html  (puis cliquer sur le lien décomposition) des développements sur cette formule ; ce site concerne les travaux de Camilo Dagum qui a soutenu sa thèse sous la direction de Corrado Gini.

 

 

retour à la méthode mse