Note de QSF sur l’évaluation : Pour une autre réforme de l’évaluation de la recherche et de l’enseignement supérieur

http://www.qsf.fr/2013/01/20/note-de-qsf-sur-levaluation-pour-une-autre-reforme-de-levaluation-de-la-recherche-et-de-lenseignement-superieur/

À l’occasion de la refonte de la loi LRU par le gouvernement Ayrault, une réflexion s’est engagée sur l’avenir de l’Agence d’évaluation de la recherche et de l’enseignement supérieur (AERES) et sur les formes que pourrait prendre un nouveau dispositif d’évaluation. Pour une claire vision des enjeux du débat, quelques remarques préalables s’imposent concernant l’historique de l’évaluation en France et l’origine de l’AERES. On verra seulement par la suite de quelle manière le système d’évaluation aujourd’hui en vigueur pourrait être amélioré. D’abord, une évidence : l’évaluation appartient au quotidien du métier de chercheur et d’universitaire. Qu’il s’agisse de proposer un article à une revue scientifique ou un livre à un éditeur, de répondre à un appel d’offre, de demander une prime, un congé sabbatique, une promotion ou une mutation, le monde de l’université et de la recherche est soumis à une évaluation constante par les pairs. Que l’État, qui subventionne la plus grande partie de ces activités, veuille de temps à autre avoir en outre une perspective d’ensemble sur l’utilisation des moyens qu’il met à disposition, il n’y a pas lieu de s’en scandaliser, à l’instar de tel universitaire qu’on se souvient avoir entendu s’écrier en 2012 qu’il avait choisi ce métier précisément pour échapper aux évaluations et aux contrôles. Ensuite, il convient de rappeler que, contrairement à la croyance commune, l’AERES n’est pas une création de la LRU, mais lui est antérieure : elle a été fondée à l’extrême fin du gouvernement Villepin en 2007, et c’est uniquement parce qu’elle a commencé de fonctionner au moment de la mise en place de la loi LRU que s’est produite une confusion entre cette loi et la nouvelle agence d’évaluation. Enfin, les détracteurs de l’AERES ont souvent tendance à oublier que l’évaluation de la recherche et de l’enseignement supérieur était déjà pratiquée en France bien avant l’AERES, en particulier par la MSTP (Mission scientifique, technologie et pédagogique) du ministère de la Recherche et de l’Enseignement supérieur. La création de l’AERES a amélioré de façon considérable l’évaluation à laquelle les universités étaient soumises depuis de nombreuses années : alors qu’auparavant l’évaluation se pratiquait de manière presque occulte, l’AERES a imposé des critères de transparence et une clarté dans les objectifs dont il serait absurde de se plaindre. Des moyens considérables ont été mis à sa disposition : en 2010, 15,4 millions d’euros de budget, 71 emplois administratifs permanents, 108 emplois scientifiques (chercheurs et enseignants-chercheurs) à temps partiel, 4 717 experts sollicités. Avant de nous demander si toutes ces ressources sont employées au mieux, reconnaissons malgré tout que cette augmentation des moyens a permis de mettre en place un protocole d’évaluation contraignant et transparent, du moins en théorie, qui a rompu avec les habitudes opaques de la MSTP : le nom des experts est rendu public ; leur nombre est augmenté ; au lieu de se contenter d’un simple examen de dossier, ils visitent l’unité de recherche sur place et rencontrent ses membres ; l’évaluation donne lieu à la production non pas de quelques lignes griffonnées au coin d’un bureau, mais d’un rapport substantiel – même si l’on peut regretter la pratique du « lissage » faite lors des réunions dites de « restitution » – publié sur le site de l’AERES. Les unités de recherche universitaires bénéficient enfin d’un traitement identique à celui auquel n’avaient droit auparavant que les laboratoires d’établissements de recherche tels que le CNRS (UMR, UPR). Quiconque prend au sérieux la recherche menée dans les universités françaises ne peut que s’en féliciter.

L’évaluation des établissements, ou la rengaine de l’autoévaluation Maintenant, quel est le bilan de tout ce déploiement d’énergie et de moyens et d’une réforme structurelle aussi lourde ? Il est contrasté selon les trois domaines d’évaluation concernés, correspondant aux trois sections constitutives de l’agence : les établissements, les unités de recherche et les formations. Quant aux établissements, il faut d’abord rappeler que leur évaluation n’est pas une innovation due à l’AERES ; le Comité national d’évaluation (CNE), réclamé par le fondateur de QSF, Laurent Schwartz, en 1984, était déjà en charge de leur évaluation. On ne saurait contester l’utilité de l’évaluation régulière des établissements par des experts extérieurs, à même d’en mesurer les forces et les faiblesses, d’en apprécier la politique, de détecter leurs éventuels dysfonctionnements et d’assurer par là une mission de conseil. Si, sans doute, des améliorations ponctuelles peuvent être apportées, il faut surtout changer la perspective dans laquelle ces évaluations sont menées, correspondant à l’idéologie dominante de l’AERES, celle de la LRU, à savoir une conception entrepreneuriale, managériale et concurrentielle de l’université publique. On peut également s’interroger sur l’insistance des discours de l’AERES quant à la nécessité d’une autoévaluation des universités à tous les niveaux de leur fonctionnement : en soi, l’autoévaluation n’est sans doute pas une mauvaise chose, mais ne risque-t-elle pas d’alourdir démesurément les procédures administratives existantes ? Une véritable autoévaluation coûte fort cher en temps et en ressources humaines et financières, et fort peu d’établissements français ont aujourd’hui les moyens et le personnel administratif suffisants pour s’y consacrer, sauf à réduire encore davantage le temps de recherche des universitaires. Toutefois, ce n’est pas là que le bât blesse principalement : l’essentiel des critiques porte sur l’évaluation de la recherche et des formations. L’évaluation de la recherche, ou comment contourner la recherche Il faut reconnaître qu’un certain nombre d’universitaires ont mal vécu l’expérience de comités de visite composés sans tenir toujours compte des compétences de leurs membres ou selon des logiques de réseau. Il faut préciser cependant : le fonctionnement de l’évaluation de la recherche a considérablement évolué entre 2007 et 2013, une bonne part des critiques habituellement adressées à l’AERES ayant été prises en compte de façon constructive et devenant par là caduques. Ainsi en 2007, à la demande du ministère, l’AERES avait mis en place une notation globale de l’unité évaluée (A+, A, B, C), sur la base d’une grille remplie par les comités d’experts ; en 2008, cette notation globale s’est complétée d’une notation multicritères ; en 2009, cette notation multicritères a été précisée ; en 2012, la notation globale a été abandonnée au profit d’une brève appréciation d’ensemble exprimée de manière explicite, et la notation multicritère est restée [1]. Par ailleurs, le « référentiel de l’AERES » de mai 2012 souligne que ces critères ne sont pas applicables également à toutes les unités de recherche, en fonction notamment des disciplines concernées, et recommande aux experts de tenir compte de cette variabilité. En particulier, une section du référentiel est dévolue au cas des sciences humaines et sociales, dont la pluralité et les singularités sont reconnues sans toutefois conduire à l’utilisation d’un référentiel spécifique. Une bonne part des critiques adressées à l’AERES tombe donc, en particulier toutes celles qui portaient sur la notation globale des unités de recherche, laquelle avait l’inconvénient de résumer en une seule note des éléments hétéroclites et d’importance diverse. La notation globale ayant été maintenant abandonnée, tout est-il parfait pour autant ? Ce n’est pas du tout certain, car l’évaluation des unités de recherche produite par l’AERES continue de souffrir d’un défaut majeur, qui n’a été corrigé en rien : si étrange que cela paraisse, et en dépit de tous les discours qui l’accompagnent, cette évaluation ne s’appuie pas sur la recherche proprement dite, à savoir sur les productions de recherche (livres, articles, réalisations diverses) ; elle ne prend en compte qu’un discours second sur la recherche, à savoir les dossiers produits par les unités de recherche à l’intention des experts, qui proposent le bilan des activités passées ainsi qu’un projet pour les années à venir. À aucun moment du processus d’évaluation les livres et articles ne sont lus ou examinés par les experts : cela n’est pas prévu dans le protocole. Certes, les unités envoient parfois aux experts ou leur proposent lors de la visite quelques exemplaires de leurs travaux, mais ce n’est une obligation ni pour les unités de les fournir ni pour les experts de les lire ; le plus souvent, l’exhibition de ces ouvrages joue un rôle purement décoratif. Avec un peu de chance, bien sûr, les experts, qui connaissent la discipline, peuvent avoir lu telle ou telle de ces productions ; ils sont censés par ailleurs avoir une connaissance globale du champ susceptible de leur donner une idée de la valeur globale et de l’intérêt de la recherche produite dans l’unité ; enfin, dans certaines disciplines, un classement des revues permet par une extrapolation hasardeuse d’estimer la valeur des articles qu’elles publient. Or, cette connaissance très indirecte a des défauts évidents : elle survalorise les réputations établies ; elle ignore les marges du champ et les microterritoires disciplinaires qui le constituent ; elle sous-estime systématiquement la portée des travaux des jeunes chercheurs encore peu connus, en particulier (mais pas seulement) les maîtres de conférences fraîchement recrutés. Une telle évaluation par ouï-dire ou par connaissance parcellaire reste en grande partie aveugle à l’émergence d’objets de recherche nouveaux, aux mobilités disciplinaires et aux prises de risque. Elle reste fondamentalement une évaluation de type administratif, qui ne mesure que la qualité du dossier compilé par l’unité et le talent rhétorique de son directeur. Le plus consternant est qu’aucun dispositif au niveau national ne vienne compenser ce manque en évaluant la recherche proprement dite de façon systématique, soit au niveau individuel (Conseil national des universités ; le Comité national de la recherche scientifique évalue en revanche la production scientifique des chercheurs), soit au niveau collectif : on en reste toujours à une évaluation indirecte, celle de dossiers fournis par les chercheurs individuels ou par les unités, et l’on évalue en fait pour une bonne part la capacité à remplir et présenter ces dossiers. En France, l’évaluation de la recherche contourne délibérément les travaux de recherche. Dans ces conditions, organiser une visite d’évaluation sur place alors que les experts n’ont pas lu en premier lieu les publications concernées, c’est construire un château sur du sable, et un château qui coûte fort cher : l’évaluation d’une unité de recherche de taille modeste, mobilisant 4 experts, coûte en moyenne près de 2 000 euros simplement en frais de mission et indemnités d’expertise, hors coûts administratifs, qui sont considérables. S’ajoutent à cela les coût afférents aux deux membres représentant le CNU et le CoNRS (du moins pour les UMR), ce qui augmente de 50 % le coût global. Est-ce une gestion efficace de l’argent public ? Est-ce vraiment ce dont la nation a besoin ? D’autres pays ont fait des choix différents. En Suisse l’évaluation porte sur les départements et non pas sur les chercheurs individuels, mais se fait par un comité composé uniquement d’experts internationaux. Au Royaume-Uni, leResearch Assessment Exercise demande aux experts de lire intégralement au moins une partie des travaux soumis. En Italie, la nouvelle Agenzia nazionale di valutazione del sistema universitario e della ricerca (ANVUR) inaugure un système d’évaluation qui part de la base pour remonter jusqu’au sommet : chaque chercheur propose trois publications qui sont évaluées chacune par deux experts (italiens et internationaux) ; les évaluations rassemblées de tous les membres d’un département permettent ensuite l’évaluation globale de ce département ; l’assemblage des évaluations des départements permet enfin l’évaluation générale de la recherche dans l’université. L’ANVUR, organise aussi, comme l’on sait, un classement des revues nationales et internationales, partiellement basé sur celui de l’European Reference Index for the Humanities (ERIH), mais elle a constitué des sections soumises à une évaluation bibliométrique, et d’autres qui n’en relèvent pas. L’unité de recherche, c’est le chercheur Ces différents systèmes ont l’avantage de ne rien laisser de côté : les chercheurs sont pris en compte, les productions soumises sont lues ; c’est bien la recherche elle-même qui est évaluée, et non pas d’abord son organisation administrative, comme c’est le cas en France. L’un des effets pervers du système en vigueur dans notre pays est sa tendance à sous-estimer l’importance des travaux individuels, en particulier dans les disciplines où ces travaux constituent l’essentiel de la production scientifique. Comme les dossiers d’évaluation sont montés par les unités de recherche, ils visent à valoriser de façon prioritaire les travaux collectifs censés justifier l’existence de l’unité, et minorent corrélativement la place des travaux individuels. Dans les disciplines scientifiques où les publications collectives sont la règle (physique, chimie, biologie, par exemple), un tel système fonctionne à peu près correctement ; mais dans celles où la recherche avance principalement par les travaux individuels (histoire, littérature, philosophie, droit, mathématiques théoriques, etc.), l’effet de déformation est considérable : trop souvent, les dossiers d’évaluation ne rendent pas compte de l’état réel de la recherche dans les unités, faute de donner une place aux travaux individuels quand ces derniers ne rentrent pas dans les orientations définies collectivement. L’origine de cette situation est bien connue : elle remonte aux années 1970 et 1980, quand, sur le modèle des laboratoires de physique et de biologie, mais aussi pour rattacher les chercheurs du CNRS à un lieu institutionnel qui justifie davantage leur statut particulier, l’organisation en unités de recherche a été imposée en France aux universitaires de toutes les disciplines, y compris celles où la recherche collective avait peu cours, notamment dans les humanités. L’imposition d’un modèle de recherche collective, qui ne fonctionne ainsi dans presque aucun autre pays (et surtout pas aux États-Unis), a eu de graves conséquences, bien connues de tous : à côté de quelques rares unités qui ont su développer de véritables axes communs pour la recherche (mais ces axes fonctionnent surtout en réseau entre plusieurs chercheurs de plusieurs universités, et non pas à l’intérieur d’un même établissement), la plupart multiplient des activités collectives à faible rendement scientifique mais à fort coût financier, comme les colloques, qui 1) accaparent les forces et le temps des chercheurs, 2) abaissent le niveau général de la recherche, 3) empêchent les travaux individuels approfondis et de longue haleine, 4) mettent en péril les revues scientifiques de qualité, lesquelles ne reçoivent plus assez d’articles de valeur pour se maintenir à leur niveau, 5) dévorent les budgets de recherche des universités pour des résultats médiocres, 6) entravent le financement individuel des chercheurs. Résultat : un universitaire standard en sciences humaines doit se procurer sur ses propres deniers ses outils de travail, à savoir ordinateur et documentation ; cette situation est sans équivalent ou presque dans l’ensemble des pays développés, et le gâchis humain et financier est considérable. Idéalement, il conviendrait de supprimer ces unités de recherche (notons que le rôle assumé par les Écoles doctorales dans les dernières années tient en partie à un lien artificiel avec ces mêmes laboratoires, les uns justifiant l’existence des autres) dans les disciplines qui n’en ont pas besoin : dans les humanités et en mathématiques, la véritable unité de recherche, c’est le chercheur. En laissant aux universitaires la liberté de ne pas inscrire leurs recherches dans des laboratoires, comme c’est le cas dans la plupart des autres systèmes universitaires, on obtiendrait un double résultat : on renforcerait les équipes constituées autour de projets collectifs durables, en leur conférant par là même une plus grande visibilité, et on aurait une évaluation de leur activité réellement efficace. Les universitaires et les chercheurs qui souhaiteraient développer des projets collectifs à court ou moyen terme pourraient les héberger dans les Maison des Sciences de l’Homme et de la Société. Enfin des dotations individuelles pourraient être accordées aux universitaires qui ne seraient pas dans des unités. Ces universitaires, en contrepartie de ces dotations, accepteraient d’être évalués. Une telle solution aurait en partie pour avantage de donner une incitation forte aux universitaires qui font de la recherche, et de les distinguer clairement de ceux qui n’en font plus, n’honorant pas leur statut d’enseignants-chercheurs. À défaut, une évaluation de la recherche bottom up, c’est-à-dire en partant des productions de recherche elles-mêmes, permettrait à terme de pallier un certain nombre des dysfonctionnements de cette organisation, en diminuant le nombre de pseudo-travaux collectifs et en retrouvant une marge de financement pour les recherches individuelles sans coût supplémentaire pour la collectivité. Il faudrait pour cela décloisonner évaluation individuelle et évaluation collective de la recherche, à l’inverse du système actuel qui fonctionne absurdement comme si le collectif n’était pas formé d’individus. Pour autant, l’AERES (ou le successeur dont parle le rapport Le Déaut, l’AUTEURE) n’aurait pas nécessairement à proposer elle-même une évaluation individuelle, ce qui ne serait pas souhaitable ; en revanche, elle pourrait s’appuyer dans un premier temps sur l’évaluation individuelle des chercheurs faite par le CoNRS. Dans un deuxième temps, et lorsque le décret statutaire de 2009, qui prévoit la possibilité d’une modulation des services à la hausse pour des enseignants-chercheurs non publiants, aura été opportunément modifié, le CNU pourra procéder à une évaluation quadriennale ou quinquennale des publications des universitaires, en introduisant une procédure d’alerte pour ceux qui ne sont pas considérés comme des publiants, comme celle qui existe déjà pour les chercheurs CoNRS. Pour qu’une telle évaluation individuelle puisse se faire – et qu’elle puisse concerner également les primes dites d’excellence scientifique (PES) – il faudrait en premier lieu que le mode d’élection du CNU soit modifié (scrutin plurinominal avec panachage), que le périmètre des sections soit élargi, le rapprochant du CoNRS, et que les compétences de ses membres soit indiscutables. L’évaluation devrait se fonder sur des critères d’évaluation transparents, préétablis et stables ; ils devraient être différents selon les secteurs disciplinaires (l’importance des livres par rapport aux articles varie de manière considérable selon les disciplines). Telle est la principale réforme que l’AERES pourrait et devrait apporter à son évaluation de la recherche. Il est également souhaitable un ralentissement du rythme de l’évaluation. Une évaluation tous les cinq ou six ans respecterait davantage l’autonomie des chercheurs et éviterait que l’évaluation n’empiète trop sur le temps de la recherche (évaluateurs et évalués sont ici concernés semblablement). Évaluation des formations ou triomphe de la bureaucratie ? À bien des égards, l’évaluation des formations souffre du même problème que celle de la recherche ; elle n’examine pas les formations elles-mêmes, mais les dossiers qui les présentent : maquettes horaires, liste des enseignants, statistiques sur les réussites et les débouchés, discours d’accompagnement et déclarations d’intention, etc. C’est donc une évaluation purement bureaucratique dans un domaine où la bureaucratie a moins qu’ailleurs la capacité de juger : aucun expert ne peut juger de la qualité d’un enseignement à partir d’un simple dossier papier. Or, l’AERES se permet à partir de ces éléments succincts d’attribuer des notes aux différentes formations, de A+ à C. Ces notes, conformément au décret fondateur de l’AERES, sont publiées, comme l’étaient déjà celles du CNE (mais pas celles des bureaux ministériels en charge de la formation), et parfois reprises dans la presse. La publication est assurément un pas vers la transparence du système, à condition que les critères sur lesquels se fonde l’évaluation ne soient pas exclusivement formels ou bureaucratiques. La section des formations doit donc, elle aussi, remettre en question ses pratiques : faute de pouvoir envoyer des experts dans toutes les salles de cours, elle n’a pas d’autre choix que de restreindre ses ambitions. Se trouvant dans l’incapacité pratique d’évaluer finement la qualité des enseignements, elle doit se contenter de prononcer un simple avis sur l’habilitation des diplômes qui lui sont soumis. Toute autre évaluation excède ses compétences. En Suisse, aux États-Unis, en Angleterre et en Allemagne l’évaluation des formations repose sur l’évaluation des enseignements par les étudiants eux-mêmes, sur des bases trimestrielles et pour chaque enseignement particulier. Cette question est cependant délicate. D’une part, l’évaluation des professeurs allemands par leurs étudiants n’est pas centrale ; d’autre part, aux États-Unis les étudiants sont des customers qui paient cher et ont des droits vis-à-vis d’enseignants eux-mêmes globalement bien mieux rémunérés. Ce fonctionnement bureaucratique de l’évaluation, en France, explique pourquoi tant d’universitaires ont l’impression de vivre dans un univers kafkaïen ou si l’on veut, dans un univers « à la Zinoviev » qui fait parfois de l’université française quelque chose de soviétique, une sorte de « kolkhoze à la française ». Ce sentiment peut expliquer le rejet brutal de toute évaluation. * Il ressort de toutes ces considérations que, si l’AERES a moins démérité qu’on ne le dit en général, si elle a su parfois remettre utilement ses pratiques en question, elle doit encore accomplir des réformes en profondeur pour permettre une évaluation juste et objective de la recherche et de l’enseignement supérieur : une vraie réforme, c’est autre chose qu’un toilettage et un changement de nom. De ce point de vue, on ne peut qu’être sceptique, voire réservé, à l’égard de la solution proposée par le rapport Le Déaut (14 janvier 2013, p. 99-103). Ce dernier propose, comme on l’a dit, le remplacement de l’AERES par l’AUTEURE – acronyme maladroit inspiré du mot d’auteur au féminin –, dont la mission ne serait plus directement l’évaluation, mais la « validation des évaluations ». Il s’agirait d’une sorte de méta-évaluation qui validerait les évaluations faites par les établissements (universités) et organismes (CNRS, INSERM, etc.). Une telle solution, qui est le résultat d’un compromis entre syndicats, administration et organismes, ne répond pas aux questions de principe que QSF entend soulever dans cette Note. Il ne faut surtout pas que l’AERES soit l’arbre qui cache la forêt : encore plus que l’agence d’évaluation, c’est l’organisation même de la recherche qu’il faut transformer pour donner aux chercheurs individuels la place légitime qui leur revient dans les domaines scientifiques où le travail collectif n’est pas la norme. [1] Les six critères actuels sont les suivants, appuyés sur des faits observables : production et qualité scientifiques ; rayonnement et attractivité académiques ; interactions avec l’environnement social, économique et culturel ; organisation et vie de l’unité de recherche ; implication dans la formation par la recherche ; stratégie et projet à cinq ans. [2] Cette note, approuvée par le bureau de QSF, a été rédigée par William Marx, avec la collaboration d’Olivier Beaud, Joël Biard, Antoine Compagnon, Pascal Engel, Claudio Galderisi et Thierry Gontier.