Un vocabulaire orthographique de base (V.O.B) déterminé par les fréquences (probabilité d’apparition des mots) n’est qu’un référentiel au service d’une fin, l’expression par écrit d’un message. Il permet de dégager les priorités en matière d’ « enseignement / apprentissage / remédiation » pour viser à l’essentiel avant l’accessoire, le fréquent avant le rare (« apercevoir », 30 fois plus courant qu’ « apaiser » ; « maison » avant « villa » ; « bleu » avant « violet » ; « casser » avant « briser » ; « trois » avant « treize »). Cette base indispensable se révèle suffisante puisque les 3.000 mots du corpus assurent à 93% environ nos besoins orthographiques dans des situations courantes de communication écrite. Ce vocabulaire de l’écriture, beaucoup plus restreint que celui de la lecture, ce petit nombre de mots très répétés ne doit pas nous faire sous-estimer le bagage lexical bien plus important de mots peu fréquents (de 10.000 pour un enfant de 6 ans à 50.000 pour un adulte moyennement cultivé). Ce vocabulaire de base n’est pas à l’abri de tout reproche. Les premières listes (celles de Louvain-programme Pirenne) datent de 1936 et des enquêtes statistiques et scientifiques récentes pour actualiser leur contenu nous manquent cruellement. Comme nous pouvons le constater, le plupart des mots concrets (bouchon, casserole, fourchette, frigo, garage) échappent à ces relevés. Des mots bien connus, comme « aboiement, atomique, tapisser », ne s’y retrouvent pas. D’où l’idée d’affiner les résultats en procédant à des comptages par centres d’intérêt pour la recherche de ces mots disponibles qui ne seront utilisés que dans des circonstances particulières et relèvent plus de l’oral que de l’écrit. Encore faudrait-il connaître le « poids » de ce vocabulaire thématique par rapport au lexique total. D’autres chercheurs ont proposé des coefficients de dispersion et de répartition, des notions de familiarité ou d’âge d’emploi. Ces éléments fort utiles peuvent apporter des informations complémentaires mais ils ne remettent pas en cause le rôle déterminant de la fréquence, d’autant plus que des études récentes sur les formes fléchies les plus courantes complètent heureusement ces résultats globaux (« cheveu », une forme singulier pour 57 formes pluriel ; 50% de la fréquence totale d’ « être » et d’ « avoir » se résument à 4 priorités « est, était, a avait »). Dans le même ordre d’idées, les fréquences peuvent nous éclairer quant à distinguer la nature des mots tels que « frais », adjectif ou nom, « boucher », verbe ou nom, « rose », adjectif ou nom ou l’emploi des mots en fonction du sens : « café », boisson ou lieu public, « souper », le repas ou manger tard). Et que signifient « clin » et « grappe » découpés en unités, en l’absence de clin d’œil et de grappe de raisins. Toujours à ce sujet, notons une tentative récente de Christian LACHAUD de l’Université de Genève qu vient de mettre en ligne une enquête visant à recueillir pour 10.000 mots de la langue française l’âge d’acquisition et la familiarité (une première étude sur 875 mots peut être téléchargée gratuitement). En définitive, une échelle de fréquence constitue un guide sûr et pratique, un référentiel indispensable pour une étude rationnelle, scientifique, progressive et individualisée d’un vocabulaire orthographique de base. Cet apprentissage sera grandement facilité par le fait que les mots appartiennent au vécu de l’enfant, qu’ils ne seront pas étudiés isolément mais dans des contextes signifiants. Le recours à des didacticiels pour une appropriation plus rapide des automatismes pourrait contribuer à faciliter grandement la tâche des maîtres et des apprenants. En l’absence de toute grande réforme de l’orthographe une fixation solide des mots les plus fréquents est une voie à privilégier aux fins de dégager les grands principes de régularités orthographiques.
L’enquête DUBOIS-BUYSE sur la difficulté orthographique des 3.724 mors de la liste, d’ARISTIZABAL a permis de classer tous les mots en 43 groupes ou échelons d’égale difficulté moyenne également distante de celle des deux échelons voisins. Le but était de fournir non seulement un classement des mots par degré de difficulté mais de permettre aussi d’élaborer rapidement des tests d’orthographe usuelle pour mesurer le niveau de l’acquis des élèves. Cette première approche statistique du problème a été complétée par une analyse plus précise des données qui a permis de mettre en évidence les points critiques des parties du mot pour proposer une classification en 6 grandes catégories de l’ensemble des erreurs commises. Ce coefficient de difficulté doit être utilisé avec prudence, il n’a qu’une valeur relative, il ne permet de juger que l’ensemble des résultats d’une classe, il ne se révèle pas suffisamment précis pour l’interprétation de cas particuliers. Ainsi la difficulté d’un mot ne peut être détachée du contexte dans lequel il s’inscrit : la « gelée » en hiver n’est pas une « gelée » de groseilles, « boucher » peut être utilisé comme nom ou verbe, « rose » comme adjectif ou nom, « cheveu », une forme singulier pour 57 formes pluriel ; « jolie » plus fréquent que «joli », les infinitifs « sembler » et « falloir » rares par rapport à « il semble » et « il faut ». Ne soyons pas surpris que « venir » soit plus difficile à orthographier que « revenir », « maison » plus facile que « saison » et « raison », n’en déplaise à THIMONNIER qui se fonde davantage sur les rapports de structure alors que la difficulté d’un mot n’est pas simplement fonction de sa complexité. Des facteurs de fréquence, de motivation, d’affectivité, d’environnement interviennent également dans une mesure dont le poids est difficile à déterminer. (le mot « crème » est mieux orthographié dans l’expression « une tarte à la crème » que lors de la dictée du mot isolé ; s’appeler « Alexandre » ne facilite pas l’acquisition de rendre, vendre, apprendre, reprendre ; quelle est la difficulté de la chaussée par rapport à rez-de-chaussée ?) En définitive, un coefficient de difficulté n’est qu’un simple référentiel. Même s’il ne permet qu’un classement approximatif en fonction de l’indice moyen de difficulté d’un texte, c’est un garde-fou qui évite bien des dérives. Il suffit de constater l’anarchie qui règne en matière de dictées proposées (le plus souvent, on ne sait ce qu’on enseigne, on ne présente que peu, rarement ou pas du tout les mots que l’élève peut et a besoin d’apprendre en priorité). Pour préciser davantage le degré de difficulté des mots du corpus de base, j’envisage de ne faire dicter que les mots qui concernent les classes d’âge du V.O.B., (par exemple, uniquement les 500 premiers mots pour les élèves de fin niveau 2 c’est à dire de 7 à 8 ans). Cela devrait permettre d’affiner les résultats.
HTML Creator