I. Les normes de l’interprétation des performances aux tests
A. Concepts statistiques
Les performances sont interprétées en référence aux normes que représentent les performances aux tests de l’échantillon de standardisation : les normes sont établies empiriquement en déterminant les performances d’un échantillon de sujets d’un groupe représentatif.
On compare les performances du sujet à la distribution des performances du groupe : le sujet est-il dans la moyenne ? Est-il en dessus ? Est-il en dessous ?
Pour s’assurer précisément que la position d’une performance d’un individu par rapport la distribution d’un échantillon de référence, le score brut va être converti en mesure relative (score dérivé).
Score dérivé : Utile pour : – connaître la position relative d’un individu par rapport à l’échantillon de standardisation : on évalue les performances des sujets par rapport aux autres personnes.
- Fournir des mesures comparables qui permettent des comparaisons directes à différents tests pour un même individu.
Utile parce que les sous-tests ne s’expriment pas forcément avec la même unité.
Il existe différentes façons de convertir des scores bruts : les scores dérivés sont exprimés en termes de niveaux de développement atteints et de position relative à l’intérieur d’un groupe particulier (groupe de référence ou de standardisation).
L’objectif majeur de la méthode statistique est d’organiser et de résumer des données quantitatives pour faciliter leur compréhension.
Cf. table 1-4 p. 1.
On fournit un ordre en organisant les scores bruts selon une distribution de fréquences.
La distribution de fréquences peut aussi être représentée sous forme de graphique ? Cf. Figure 4-1 p. 1.
Cette distribution a, à quelques irrégularités près, une allure de courbe normale ou de distribution gaussienne ? Cf. Fig. 4-1 p.1.
La distribution gaussienne (ou en cloche) a des propriétés mathématiques importantes et fournit la base de nombreuses analyses statistiques.
L’effectif le plus important est dans la classe du centre.
Plus l’échantillon est petit, plus la distribution gaussienne est difficile à obtenir.
Un groupe de scores peut être décrit en terme de mesure de tendance centrale qui fournit un score typique ou représentatif de la performance de groupe entier.
Moyenne M :
Mode : Score le plus fréquent.
Médiane : Score du milieu de la distribution tel qu’il y ait 50% avant la médiane et 50% après
La description d’un ensemble de scores peut être donnée par des indicateurs de variabilité qui indique l’ampleur des différences individuelles des sujets dans la distribution.
Étendue : Distance entre le score le plus bas et le score le plus haut.
Indice de variabilité grossier et instable.
La différence entre chaque score individuel et la moyenne du groupe sont des indices plus fiables.
Cf. Table 4-2 p. 2.
Score X : Scores bruts originaux
Déviation x = X – M Différence de chaque score brut à la moyenne
Déviation de chaque score brut de la moyenne
Sx = 0
Ecart type ET ou s : Sert à comparer la variabilité de différents groupes
Obtenu avec la racine carrée de la variance
Fournit une base pour exprimer les scores individuels de différents tests en terme de norme.
Variance =
Permet d’expliquer les différences individuelles
B. Les normes développementales
Quand on réfléchit sur le sens des scores à un test, on regarde comment un individu se situe par rapport à une trajectoire ou son évolution : on réfléchit à une norme développementale.
Pré requis : – Le comportement mesuré se développe avec le temps.
- L’uniformité de la séquence développementale chez tous les sujets.
3 systèmes : – En âge mental (échelles de Binet-Simon…)
- En normes de classe scolaires, degrés scolaires, retard scolaire
- En échelles ordinales
1. Système en âge mental
L’âge mental est popularisé depuis les échelles de Binet-Simon. La notion d’âge mental n’a cependant pas été créée par Binet et Simon. “Âge” se rapproche de la notion “d’âge chronologique”, c’est pourquoi Binet préfère le terme de niveau.
Ce système est fondé sur des items ordonnés en fonction de l’âge.
L’âge mental est obtenu avec l’âge de base auquel on ajoute un crédit en mois.
Il existe des normes en âge mental pour des tests qui ne sont pas, a priori, en niveau d’âges : – Les scores bruts sont déterminés empiriquement pour un ensemble d’enfants représentatifs.
- Les scores sont en nombre total d’items corrects, en temps de réponse à une question ou en nombre d’erreurs.
- La moyenne des scores bruts par âge équivaut aux normes de ce test.
Le problème est que le fait que les unité d’âge mental ne restent pas constantes avec l’âge chronologique : ces unités ont tendance à se réduire avec le développement. On sait, par observation, que le développement intellectuel progresse plus rapidement dans les premiers âges alors que le rythme des changements décroît lorsque le sujet s’approche de l’adolescence et de l’âge adulte. Le sens du retard mental n’a pas la même signification à différents moments du développement : un an de retard ou d’avance à 5ans d’âge chronologique représente une plus grande déviation par rapport à la norme qu’à 10ans d’âge chronologique.
2. Les normes de classes scolaires
Ce sont aussi des systèmes équivalents de niveau scolaire. Ces normes sont peu utilisées en France (test d’évaluation d’entrée en 6ème).
On utilise ces normes dans l’objectif d’interpréter les tests de niveau scolaire. Ces normes permettent de décrire la performance d’un sujet en fonction de son niveau scolaire : si le sujet est dans la norme, on s’attend à un score équivalent à celui des autres élèves de la classe (on ne tient pas compte de l’âge chronologique.
Ces normes sont très développées en Grande-Bretagne et aux Etats-Unis.
Elles sont établies en prenant le score moyen d’une classe donnée pour une matière donnée.
Difficultés : – Un enfant peut avoir des progressions différentes en fonction des matières
- Ces normes s’appliquent essentiellement aux matières de base (français…)
- La norme est considérée comme une performance standard et on ne tient pas compte de la dispersion.
3. Les échelles ordinales
Ce type de normes est issu de la psychologie de l’enfant (fin du XIXème et début du XXème siècle) : observations empiriques sur le développement des jeunes enfants en fonction de l’âge. Ces observations amènent à des descriptions de comportements et des descriptions dépendant de l’âge (descriptions de comportements typiques à des âges successifs).
Inventaire de Gesell : Etudes longitudinales importantes.
Il est athéorique.
Il est le premier développementaliste (avec son équipe)
4 grands secteurs de développement : motricité, langage, adaptativité (observation dynamique) et réactions sociales : développement de capacités importantes.
Les niveaux de développement vont être déterminés en comparant le comportement d’un enfant donné avec le comportement typique de 8 âges clés (de 14 semaines à 36 mois). Les inventaires développementaux de Gesell indiquent le niveau développemental en mois que l’enfant devrait atteindre dans quatre grands secteurs : la motricité, l’adaptativité, le langage et les réactions sociales.
Tous les développementalistes utilisent comme grands secteurs la locomotion, la discrimination sensorielle, la communication linguistique et la formation de concepts.
Gesell étudie les apparitions et les successions de comportements. Il en a déduit des modèles séquentiels de la prime enfance. Il a montré qu’il y avait une constance dans les séquences développementales : les progressions étaient ordonnées. Au XXème siècle, tout son travail a été repris par André Thomas et Saint-Anne d’Argassies.
Les échelles construites dans ce domaine sont appelées échelles ordinales, c’est-à-dire que les stades du développement suivent un ordre constant. Chaque stade présuppose la maîtrise du stade antérieur (comportement préalable).
Dans les années 1960, Piaget fait des développements théoriques : développement des processus cognitifs de l’enfance à l’adolescence (développement de concepts).
Les tâches de Piaget ont été transformées par certains psychologues en échelles standardisées (peu utilisées en France). Ces échelles, en accord avec l’approche de Piaget, signifient qu’un stade n’est envisageable que si le développement précoce du concept est atteint.
Les tâches sont déterminées afin de révéler les aspects dominants. Ensuite, les données empiriques sont rassemblées afin que le psychologue puisse déterminer les âges auxquels ce comportement doit être atteint.
Les échelles ordinales sont construites pour identifier un stade atteint pour des fonctions comportementales spécifiques. Les scores peuvent être rapportés en terme de niveaux d’âge approximatif. Ces scores sont secondaires à la description qualitative du comportement.
C. Les normes intragroupes
Unités : percentiles, scores standard, QI en terme de déviation.
Il y des inter relations entre les scores intragroupes.
Une grande majorité des tests recourent à ces normes.
La performance individuelle d’un sujet est interprétée en terme de performance la plus étroitement comparable à celle du groupe de standardisation, c’est-à-dire que la performance d’un sujet donné est comparée à la performance de groupe de standardisation.
Les scores intragroupes ont un sens quantitatif clairement défini. L’intérêt de ces scores est qu’ils peuvent se prêter à toutes les analyses statistiques.
1. Les percentiles
Par aphérèse, le percentile est aussi appelé centile.
C’est la standardisation qui tombe en dessous d’un score brut donné. Par exemple, si 28% des personnes résolvent 15 problèmes dans un test de raisonnement arithmétique, alors le score brut de 15 correspond au 28ème percentile et il aura le rang percentile P28.
Un rang percentile indique la position relative d’un individu dans l’échantillon de standardisation.
La différence entre percentile et rang percentile réside dans l’attribution du rang de la personne ayant la meilleure performance.
Avec les percentiles, on commence à compter à partir du score le plus bas.
Exemple : – Le 50ème percentile P50 est le médian
- Un percentile au dessus de P50 signifie que la performance est supérieure à la moyenne.
- Un percentile au dessous de P50 signifie que la performance est inférieure à la moyenne.
- Le 25ème percentile est équivalent au 1er quartile Q1 : c’est le quart le plus bas.
- Le 75ème percentile est équivalent au 3ème quartile Q3 : c’est le quart le + haut
Les quartiles sont utiles pour décrire une distribution.
Les percentiles ne doivent pas être confondus avec les scores en pourcentage.
Les percentiles sont des scores dérivés (transformés) exprimés en pourcentage de personnes.
Dans une distribution en percentiles, le score brut le plus bas aura un rang percentile P0 et le score brut le plus haut aura un rang percentile P100 : les percentiles n’impliquent pas un score brut de 0 ni un score brut parfait.
Avantages : – Facilité de calcul
- Compréhension facile
- Applicables à de nombreuses situations
- Pertinents quelque soit l’aptitude mesurée
Inconvénients : Leur unité montre une certaine inégalité, particulièrement aux extrêmes de la distribution. Si la distribution des scores bruts est proche d’une distribution normale, alors, la différence entre les scores bruts près du médian est exagérée par la transformation en percentiles. Les différences des scores bruts aux extrêmes sont réduites par le percentilage.
Cf. Fig. 4.4 : Beaucoup de personnes ont des scores analogues autour du médian. Entre P10 et P20, les scores sont beaucoup plus différents.
En conséquence, tout pourcentage de cas près du centre couvre une plus petite distance sur la ligne de base que le même pourcentage proche des extrêmes de la distribution. Les percentiles indiquent la position relative des sujets dans un échantillon normatif, ils n’indiquent pas l’ampleur de la différence entre les scores.
2. Les scores standard dérivés/transformés
Ils sont utilisés dans la plupart des tests d’intelligence. Ce sont les scores considérés comme les plus satisfaisants. Ces scores expriment les différences individuelles dans les scores par rapport à la moyenne. Ils sont en unités d’écart type.
Ils sont transformés : – soit par une transformation linéaire.
- soit par une transformation non linéaire.
a. Scores obtenus par transformation linéaire
Dans ce cas, les scores transformés conservent les mêmes relations numériques que les scores bruts. Cela veut dire que les distances entre les individus pour les scores transformés correspondent exactement aux distances observées dans les scores bruts.
Estimation du score Z d’un sujet :
Différence entre le score brut du sujet et la moyenne des sujets du groupe de référence sur l’écart type du groupe de référence.
Tout score brut est égal à la moyenne. Son score standard sera égal à 0. Au dessus de la moyenne, le score standard est positif, au dessous, il est négatif.
La distribution des scores Z a pour moyenne 0 et pour écart type 1.
Désavantages : – Scores négatifs
- Etendue des scores faible (entre -3 et 3 écarts types, d’où l’utilisation de décimales).
Il faut appliquer d’autres transformations linéaires. On choisit arbitrairement une nouvelle moyenne différente de 0 et un nouvel écart type.
Exemple du SAT : Test à l’entrée de l’université aux Etats-Unis
Transformation du score brut en score z :
On décide par construction que M = 500 et ET = 100.
Score standard :
ET et M sont choisis.
Exemple des sous-tests : l’échelle de Weschsler : Quelque soit l’échelle de départ, M = 10 et ET = 3 par construction.
Score standard : ? score transformé linéairement
Ces transformations permettent de rendre comparables des scores issus de tests différents. Ces scores sont comparables s’ils sont issus de distributions de scores bruts ayant à approximativement la même forme. Il est nécessaire qu’un score d’un ET au dessus de la moyenne correspondent à la même place du sujet dans la distribution.
Il n’est pas toujours vrai que les scores bruts se distribuent de la même manière. Les courbes (distributions) peuvent présenter des asymétries : ces distributions sont différentes. Dans ce cas, pour rendre les scores comparables, on peut employer une transformation non linéaire. On rend deux distributions, qui n’étaient pas comparables au départ, comparables.
b. Scores obtenus par transformation non linéaire
Dans la majorité des cas en psychologie, les traits qui nous intéressent ont une distribution normale. Mais, il y a des cas en psychologie où la distribution n’est pas gaussienne. On va transformer les scores standard en les normalisant. Les scores normalisés sont exprimés en référence aux tables donnant le pourcentage de cas tombant à différentes distances de la moyenne et ces distances sont en terme d’ET.
Stratégie utilisée : – Le pourcentage de personnes dans l’échantillon de standardisation tombant à un score brut donné ou au dessous est déterminé.
- Le pourcentage est alors situé sur la table des fréquences des distributions normales.
- Le score standard normalisé est alors obtenu.
Les scores standard normalisés sont exprimés sous la même forme que les scores standard transformés linéairement.
Un score standard normalisé de 0 va indiquer que le score du sujet tombe à la moyenne de la courbe normale dépassant ainsi 50% des sujets.
Un score de -1 signifie que le sujet dépasse approximativement 84% du groupe de standardisation. Ces distances correspondent à la distance entre deux ET correspondent à une distribution normale.
Les scores standard normalisés peuvent être convertis en unités plus pratiques.
Scores T : M = 50 et ET = 10 ? T = 10 x 2 + 50
Scores dont la distribution n’était pas tout à fait normale.
Echelle
Stanine : Pour le standard nine -9
L’échelle est en neuf points
M = 5 et ET ? 2
Les scores standard normalisés sont les plus utiles, mais si on décide de normaliser une distribution de scores bruts qui ne l’était pas, on doit prendre certaines précautions :
? L’échantillon de départ doit être d’une taille importante parce qu’on doit avoir suffisamment de différences individuelles.
? Cet échantillon doit être représentatif de la population étudiée.
? La normalisation doit être envisagée uniquement lorsque la déviation qu’on observe entre notre distribution et la distribution normale est un défaut dans le test et non un défaut d’échantillonnage.
D. Le QI en terme de déviation (QI dérivé ou transformé)
Ce rapport pose un gros problème théorique car ça suppose que les ET des distributions des QI en fonction de l’âge soient très proches ou équivalentes à différents âges.
Si on veut qu’un QI de 115 à 10 ans indique la même place pour un sujet qu’un QI de 125 à 12 ans, ça suppose que 115 et 125 tombent à un même ET de la moyenne.
Il est difficile de construire des tests qui soient équivalents à tous les âges.
On utilise des QI dérivés ou transformés. Ce sont des scores standardisés par construction : M = 100 et ET ? 16, car ET = 16 est celui qui a été retenu historiquement car Terman avait fait en sorte que les ET soient de 16 en modifiant les tests.
QI ? QI dérivé.
On garde le terme de QI par référence historique.
? Toutes les échelles de Wechsler sont des QI dérivés. Ces QI, par construction, ont une moyenne de 100 et un écart-type de 15.
? On peut comparer un même QI dérivé si leur ET est proche.
? Il faut toujours tenir compte de l’ET lors de l’interprétation du QI (en fonction de l’ET, la place du sujet dans la distribution diffère).
Cf. Table 4-5 p.2
Ex : un sujet a un QI < 70. Si ET = 12, il fera parti des 0,7% de la population qui a un QI < 70. Si l’ET est de 18, il fait partie des 5,1% de la population.
Cf. p.3 Relationship of normal curve to various types of standard scores
La relativité des normes est la comparaison entre les tests.
Le QI doit toujours être accompagné du nom du test dont il est issu, car le contenu des tests peut être différent, l’ET par construction peut être différent ainsi que les caractéristiques de l’échantillon de référence.
L’échantillon de standardisation (normatif) indique qu’une norme est limitée à la population particulière de référence représentée par l’échantillon de standardisation. Tout score obtenu à un test est interprétable en référence à cet échantillon.
Exemple : On veut établir la norme d’un test de logique pour la population française de garçons de 10 ans, vivant dans une région urbaine, scolarisés dans le public. Ce test doit être passé à au moins 500 enfants de 10 ans, sélectionnés dans des écoles publiques de différentes villes françaises. De plus, cet échantillon devra être constitué en tenant compte de la distribution géographique, de la représentation des différents niveaux socio-économiques, de la composition ethnique et de toutes les variables qui peuvent jouer sur la performance. L’échantillon doit avoir une taille assez grande pour être stable.