97889 64456 72312 47532 85224 72311 99738 05314 18822 88877 83701 91188 72106 98803 83485 70762 67561 00923 55229 06479 57972 59061 74949 93171 14807 03728 86417 14924 55271 76483 09709 80826 48003 69756 41326 33857 90179 16007 50123 74390 32549 30315 44217 63317 75601 80709 41762 62320 18455 61834 28274 17965 11564 40730 97515 38882 00045 18375 34435 87730 65633 86354 42635 03181 37624 00288 29224 98754 64198 42645 13159 80277 57942 84214 09885 11406 37363 27238 16160 82824 82750 03902 45252 98749 86602 85405 74120 11069 70749 63642 54482 33973 81058 25338 11638 53184 38067 75862 58160 05931 81160 94118 63131 11678 37627 13358 15577 41533 20376 02073 54475 97260 40548 91470 84971 47067 00960 20371 54295 32383 70544 08125 72446 96640 07075 16165 30869 08344 20223 85830 11652 84248 58240 18720 83640 74865 63798 26432 11368 91553 98930 40390 63732 07578 52004 83379 91665 87295 27594 70342 33614 00445 56766 74846 32119 67664 51801 34739 44392 32414 80290 43295 50949 32938 59188 82226 64963 12065 07486 96473 17151 41690 05059 80565 72757 89563 68610 87113 78719 74762 26213 13426 23716 54025 70952 73308 30338 98371 80443 39662 15506 33308 53719 47268 57523 71539 98084 43052 68615 92226 35372 86296 82533 08533 12606 77475 19780 50069 42332 94775 84463 97795 86712 89454 36026 27730 87899 25252 69813 38682 MLCommons annonce son premier benchmark pour la sécurité de l’IA – MJRBJC

L’une des formules les plus souvent citées du gourou du management Peter Drucker est « ce qui est mesuré est amélioré ». Mais c’est surestimé pour une raison : c’est vrai.

Cela n’est nulle part plus vrai que dans le domaine de la technologie au cours des 50 dernières années. La loi de Moore, qui prédit que le nombre de transistors (et donc la capacité de calcul) dans une puce doublerait tous les 24 mois, est devenue une prophétie auto-réalisatrice et une étoile polaire pour tout un écosystème. Parce que les ingénieurs ont soigneusement mesuré chaque génération de technologie de fabrication pour les nouvelles puces, ils ont pu sélectionner les techniques qui permettraient d’atteindre les objectifs d’une informatique plus rapide et plus performante. Et cela a fonctionné : la puissance de calcul, et plus encore la puissance de calcul par watt ou par dollar, a connu une croissance exponentielle au cours des cinq dernières décennies. Les derniers smartphones sont plus puissants que les superordinateurs les plus rapides des années 2000.

Cependant, la mesure des performances ne se limite pas aux puces. Aujourd’hui, toutes les parties de nos systèmes informatiques sont comparées à des composants similaires, de manière contrôlée, avec des évaluations quantitatives. Ces références contribuent à stimuler l’innovation.

Et nous le saurions.

En tant que leader dans le domaine de l’IA, tant dans l’industrie que dans le monde universitaire, nous construisons et fournissons les références de performances les plus largement utilisées pour les systèmes d’IA dans le monde. MLCommons est un consortium qui s’est réuni avec la conviction qu’une meilleure mesure des systèmes d’IA entraînerait des améliorations. Depuis 2018, nous avons développé des références de performances pour des systèmes qui ont montré une multiplication par 50 de la vitesse de formation de l’IA. En 2023, nous avons lancé notre premier benchmark de performances pour les grands modèles de langage (LLM), mesurant le temps nécessaire pour entraîner un modèle à un niveau de qualité particulier ; en 5 mois, nous avons constaté des résultats reproductibles des LLM améliorant leurs performances presque par trois. En termes simples, de bons benchmarks ouverts peuvent propulser l’ensemble du secteur vers l’avant.

Nous avons besoin de références pour progresser en matière de sécurité de l’IA

Même si les performances des systèmes d’IA ont progressé, nous avons constaté des inquiétudes croissantes concernant la sécurité de l’IA. Bien que la sécurité de l’IA signifie différentes choses pour différentes personnes, nous la définissons comme empêchant les systèmes d’IA de mal fonctionner ou d’être utilisés à mauvais escient de manière nuisible. Par exemple, les systèmes d’IA sans garanties pourraient être utilisés à mauvais escient pour soutenir des activités criminelles telles que le phishing ou la création de matériel pédopornographique, ou pourraient intensifier la propagation de fausses informations ou de contenus haineux. Afin de tirer parti des avantages potentiels de l’IA tout en minimisant ces dommages, nous devons améliorer la sécurité parallèlement à l’amélioration des capacités.

Nous pensons que si les systèmes d’IA sont évalués par rapport à des objectifs de sécurité communs, ces systèmes d’IA deviendront plus sûrs au fil du temps. Cependant, la manière d’évaluer de manière robuste et exhaustive les risques de sécurité de l’IA, ainsi que de les suivre et de les atténuer, constitue un problème ouvert pour la communauté de l’IA.

La mesure de la sécurité est un défi en raison des nombreuses façons différentes dont les modèles d’IA sont utilisés et des nombreux aspects qui doivent être évalués. Et la sécurité est par nature subjective, contextuelle et contestée : contrairement à la mesure objective de la vitesse du matériel, il n’existe pas de mesure unique sur laquelle toutes les parties prenantes s’accordent pour tous les cas d’utilisation. Souvent, les tests et les métriques nécessaires dépendent du cas d’utilisation. Par exemple, les risques associés à un adulte demandant des conseils financiers sont très différents des risques associés à un enfant demandant de l’aide pour écrire une histoire. Définir des « concepts de sécurité » constitue le principal défi dans la conception de critères de référence fiables dans toutes les régions et cultures, et nous avons déjà fait les premiers pas vers la définition d’une taxonomie standardisée des dommages.

Un autre problème est que les références peuvent rapidement devenir inutiles si elles ne sont pas mises à jour, ce qui constitue un défi pour la sécurité de l’IA étant donné la rapidité avec laquelle de nouveaux risques apparaissent et les capacités des modèles s’améliorent. Les modèles peuvent également être « surajustés » : ils obtiennent de bons résultats avec les données de référence qu’ils utilisent pour la formation, mais fonctionnent mal lorsqu’ils sont présentés avec des données différentes, comme celles qu’ils rencontrent lors d’un déploiement réel. Les données de référence peuvent même finir (souvent accidentellement) par faire partie des données d’entraînement des modèles, compromettant ainsi la validité de la référence.

Notre premier benchmark de sécurité de l’IA : les détails

Pour aider à résoudre ces problèmes, nous avons décidé de créer un ensemble de références pour la sécurité de l’IA. Heureusement, nous ne partons pas de zéro : nous pouvons nous appuyer sur les connaissances d’autres efforts universitaires et privés antérieurs. En combinant les meilleures pratiques dans le contexte d’une vaste communauté et d’une organisation à but non lucratif d’analyse comparative éprouvée, nous espérons créer une approche standard largement fiable, entretenue et améliorée de manière fiable pour suivre le rythme du domaine.

Notre premier benchmark de sécurité de l’IA se concentre sur les grands modèles de langage. Nous avons publié une preuve de concept (POC) v0.5 aujourd’hui, 16 avril 2024. Ce POC valide l’approche que nous adoptons pour créer la suite de référence v1.0 AI Safety, qui sera lancée plus tard cette année.

Que couvre le benchmark ? Nous avons décidé de créer d’abord une référence en matière de sécurité de l’IA pour les LLM, car le langage est la modalité la plus largement utilisée pour les modèles d’IA. Notre approche est ancrée dans le travail des praticiens et s’inspire directement des sciences sociales. Pour chaque benchmark, nous préciserons la portée, le cas d’utilisation, la ou les personnes et les catégories de danger pertinentes. Pour commencer, nous utilisons un cas d’utilisation générique d’un utilisateur interagissant avec un assistant de chat généraliste, parlant anglais et vivant en Europe occidentale ou en Amérique du Nord.

Il existe trois personnages : les utilisateurs malveillants, les utilisateurs vulnérables tels que les enfants et les utilisateurs typiques, qui ne sont ni malveillants ni vulnérables. Même si nous reconnaissons que de nombreuses personnes parlent d’autres langues et vivent dans d’autres parties du monde, nous avons choisi ce cas d’utilisation de manière pragmatique en raison de la prédominance du matériel existant. Cette approche signifie que nous pouvons procéder à des évaluations fondées des risques pour la sécurité, reflétant les manières probables dont les modèles sont réellement utilisés dans le monde réel. Au fil du temps, nous augmenterons le nombre de cas d’utilisation, de langues et de personnages, ainsi que les catégories de danger et le nombre d’invites.

À quoi sert le test de référence ? Le critère de référence couvre une gamme de catégories de danger, notamment les crimes violents, la maltraitance et l’exploitation des enfants et la haine. Pour chaque catégorie de danger, nous testons différents types d’interactions où les réponses des modèles peuvent créer un risque de préjudice. Par exemple, nous testons la façon dont les modèles réagissent aux utilisateurs qui leur disent qu’ils vont fabriquer une bombe, ainsi qu’aux utilisateurs qui demandent des conseils sur la façon de fabriquer une bombe, s’ils doivent fabriquer une bombe ou des excuses au cas où ils se feraient prendre. Cette approche structurée signifie que nous pouvons tester plus largement comment les modèles peuvent créer ou augmenter le risque de préjudice.

Comment testons-nous réellement les modèles ? D’un point de vue pratique, nous testons les modèles en leur fournissant des invites ciblées, en collectant leurs réponses, puis en évaluant s’ils sont sûrs ou non. Les évaluations humaines de qualité sont coûteuses, coûtant souvent des dizaines de dollars par réponse, et un ensemble de tests complet peut contenir des dizaines de milliers d’invites ! Un simple système de notation basé sur des mots-clés ou des règles pour évaluer les réponses est abordable et évolutif, mais n’est pas adéquat lorsque les réponses des modèles sont complexes, ambiguës ou inhabituelles. Au lieu de cela, nous développons un système qui combine des « modèles d’évaluateur » (des modèles d’IA spécialisés qui évaluent les réponses) avec une évaluation humaine ciblée pour vérifier et augmenter la fiabilité de ces modèles.

Comment avons-nous créé les invites ? Pour la version 0.5, nous avons construit des invites simples et claires qui correspondent aux catégories de danger du benchmark. Cette approche facilite les tests de dangers et permet d’exposer les risques critiques pour la sécurité dans les modèles. Nous travaillons avec des experts, des groupes de la société civile et des praticiens pour créer des invites plus stimulantes, nuancées et spécialisées, ainsi que pour explorer des méthodologies qui permettraient une évaluation plus contextuelle parallèlement aux notations. Nous intégrons également des invites contradictoires générées par l’IA pour compléter celles générées par l’homme.

Comment évaluer les modèles ? Dès le départ, nous avons convenu que les résultats de nos tests de sécurité devaient être compréhensibles pour tous. Cela signifie que nos résultats doivent à la fois fournir un signal utile aux experts non techniques tels que les décideurs politiques, les régulateurs, les chercheurs et les groupes de la société civile qui ont besoin d’évaluer les risques de sécurité des modèles, et également aider les experts techniques à prendre des décisions éclairées concernant les modèles. ‘ risques et prendre des mesures pour les atténuer. Nous produisons donc des rapports d’évaluation qui contiennent des « pyramides d’informations ». En haut se trouve une note unique qui fournit une indication simple de la sécurité globale du système, comme une classification de film ou un score de sécurité automobile. Le niveau suivant fournit les notes du système pour des catégories de danger particulières. Le niveau inférieur donne des informations détaillées sur les tests, la provenance des ensembles de tests, ainsi que des invites et réponses représentatives.

La sécurité de l’IA nécessite un écosystème

Le groupe de travail MLCommons AI sur la sécurité est une réunion ouverte d’experts, de praticiens et de chercheurs. Nous invitons toutes les personnes travaillant dans le domaine à rejoindre notre communauté grandissante. Nous visons à prendre des décisions par consensus et accueillons diverses perspectives sur la sécurité de l’IA.

Nous sommes convaincus que pour que les outils d’IA atteignent leur pleine maturité et soient largement adoptés, nous avons besoin de moyens évolutifs et fiables pour garantir leur sécurité. Nous avons besoin d’un écosystème de sécurité de l’IA, comprenant des chercheurs qui découvrent de nouveaux problèmes et de nouvelles solutions, des experts en tests internes et pour compte d’autrui pour étendre les références pour des cas d’utilisation spécialisés, des auditeurs pour vérifier la conformité, et des organismes de normalisation et des décideurs politiques pour définir les orientations générales. Des mécanismes soigneusement mis en œuvre, tels que les modèles de certification que l’on trouve dans d’autres secteurs matures, contribueront à éclairer les décisions des consommateurs d’IA. En fin de compte, nous espérons que les références que nous construisons constitueront la base de l’épanouissement de l’écosystème de sécurité de l’IA.

Les membres suivants du groupe de travail sur la sécurité MLCommons AI ont contribué à cet article :

  • Ahmed M. Ahmed, Université de StanfordElie Alhajjar, RAND
  • Kurt Bollacker, MLCommons
  • Siméon Campos, une IA plus sûre
  • Canyu Chen, Institut de technologie de l’Illinois
  • Ramesh Chukka, Intel
  • Zacharie Delpierre Coudert, Méta
  • Tran Dzung, Intel
  • Ian Eisenberg, Credo AI
  • Murali Emani, Laboratoire National d’Argonne
  • James Ezick, Qualcomm Technologies, Inc.
  • Marisa Ferrara Boston, Rênes AI
  • Heather Frase, CSET (Centre pour la sécurité et les technologies émergentes)
  • Kenneth Fricklas, stratégie Turaco
  • Brian Fuller, méta
  • Grigori Fursin, cConnaissance, cTuning
  • Agasthya Gangavarapu, Ethriva
  • James Gealy, IA plus sûre
  • James Goel, Qualcomm Technologies, Inc.
  • Roman Gold, Association israélienne pour l’éthique de l’intelligence artificielle
  • Wiebke Hutiri, Sony IA
  • Bhavya Kailkhura, Laboratoire national Lawrence Livermore
  • David Kanter, MLCommons
  • Chris Knotz, Commn Ground
  • Barbara Korycki, MLCommons
  • Shachi Kumar, Intel
  • Srijan Kumar, Lighthouz AI
  • Wei Li, Intel
  • Bo Li, Université de Chicago
  • Percy Liang, Université de Stanford
  • Zeyi Liao, Université d’État de l’Ohio
  • Richard Liu, Laboratoires Haize
  • Sarah Luger, Rapports sur les consommateurs
  • Kelvin Manyeki, Bestech Systèmes
  • Joseph Marvin Imperial, Université de Bath, Université nationale des Philippines
  • Peter Mattson, coprésident du groupe de travail Google, MLCommons et AI Safety
  • Virendra Mehta, Université de Trente
  • Shafee Mohammed, Projet Humanit.ai
  • Protik Mukhopadhyay, Protecto.ai
  • Lama Nachman, Intel
  • Besmira Nushi, Recherche Microsoft
  • Luis Oala, Dotphoton
  • Eda Okur, Intel
  • Praveen Paritosh
  • Forough Poursabzi, Microsoft
  • Eleonora Presani, Méta
  • Paul Röttger, Université Bocconi
  • Damian Ruck, Advaï
  • Saurav Sahay, Intel
  • Tim Santos, Graphcore
  • Alice Schoenauer Sebag, Cohere
  • Vamsi Sistla, Nike
  • Leonard Tang, Haize Labs
  • Ganesh Tyagali, NStarx AI
  • Joaquin Vanschoren, TU Eindhoven, coprésident du groupe de travail sur la sécurité de l’IA
  • Bertie Vidgen, MLCommons
  • Rebecca Weiss, MLCommons
  • Adina Williams, FAIR, Méta
  • Carole-Jean Wu, FAIR, Méta
  • Poonam Yadav, Université de York, Royaume-Uni
  • Wenhui Zhang, LFAI et données
  • Fedor Jdanov, Nebius AI

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *

Failed to fetch data from the URL.