Codage disjonctif complet

Un article de Wikipédia, l'encyclopédie libre.

Le codage disjonctif complet est utilisé en analyse de données.

Il permet de transformer des variables qualitatives en des variables de type quantitatif[1] entre lesquelles il est permis de calculer des corrélations.

Exemple :

Température (°) Vanadium (grammes) Fournisseur n° Rigidité
Essai 1 103 21 1 19
Essai 2 115 28 2 25
Essai 3 99 28 3 21
Essai 4 102 23 1 22
Essai 4 97 25 3 24

La colonne Fournisseur ne peut être laissée telle quelle. Les nombres qu’elle contient ne sont pas des mesures dans une unité donnée, mais des numéros arbitraires. Nous n’avons pas le droit de calculer le coefficient de corrélation entre la colonne fournisseur et une autre colonne. Il nous faut d’abord ventiler cette variable « qualitative » en trois variables indicatrices de type présence-absence, comme ci-dessous (codage « disjonctif complet »):

Température (°) Vanadium (grammes) F1 F2 F3 Rigidité
Essai 1 103 21 1 0 0 19
Essai 2 115 28 0 1 0 25
Essai 3 99 28 0 0 1 21
Essai 4 102 23 1 0 0 22
Essai 4 97 25 0 0 1 24

Maintenant il est permis de calculer les corrélations deux à deux entre les colonnes du tableau.

Notes et références[modifier | modifier le code]

  1. Myrtille Moreau, Dynamique des paysages végétaux depuis la fin du petit âge glaciaire au Spitsberg (79° N) : analyse intégrée de la reconquête végétale des marges proglaciaires, Publibook, , 399 p. (ISBN 9782748347418 et 2748347412, lire en ligne), p. 161

Articles connexes[modifier | modifier le code]