Il serait facile de penser qu’Apple est en retard dans le jeu de l’IA. Depuis fin 2022, lorsque ChatGPT a pris d’assaut le monde, la plupart des concurrents d’Apple se sont démenés pour rattraper leur retard. Bien qu’Apple ait certainement parlé de l’IA et ait même lancé certains produits en pensant à l’IA, il semblait s’y plonger plutôt que de plonger tête première.

Mais au cours des derniers mois, des rumeurs et des rapports ont suggéré qu’Apple attendait en fait son heure, en attendant de passer à l’action. Il y a eu des rapports ces dernières semaines selon lesquels Apple discutait à la fois avec OpenAI et Google pour alimenter certaines de ses fonctionnalités d’IA, et la société travaillait également sur son propre modèle, appelé Ajax.

Si vous parcourez les recherches publiées par Apple sur l’IA, vous commencez à avoir une idée de la façon dont l’approche d’Apple en matière d’IA pourrait prendre vie. De toute évidence, formuler des hypothèses sur les produits basées sur des documents de recherche est une science profondément inexacte : la frontière entre la recherche et les étagères des magasins est venteuse et pleine de nids-de-poule. Mais vous pouvez au moins avoir une idée de ce qu’est l’entreprise pensée à propos – et comment ses fonctionnalités d’IA pourraient fonctionner lorsque Apple commencera à en parler lors de sa conférence annuelle des développeurs, la WWDC, en juin.

Des modèles plus petits et plus efficaces

Je soupçonne que vous et moi espérons la même chose ici : un meilleur Siri. Et il semblerait que Better Siri arrive ! De nombreuses recherches menées par Apple (et dans une grande partie de l’industrie technologique, dans le monde et partout) supposent que les grands modèles de langage rendront immédiatement les assistants virtuels meilleurs et plus intelligents. Pour Apple, accéder à Better Siri signifie fabriquer ces modèles aussi rapidement que possible et s’assurer qu’ils sont partout.

Dans iOS 18, Apple prévoit de faire fonctionner toutes ses fonctionnalités d’IA sur un modèle intégré et entièrement hors ligne, Bloomberg récemment signalé. Il est difficile de créer un bon modèle polyvalent, même lorsque vous disposez d’un réseau de centres de données et de milliers de GPU de pointe. Il est considérablement plus difficile de le faire avec uniquement les tripes de votre smartphone. Apple doit donc faire preuve de créativité.

Dans un article intitulé « LLM in a flash : Efficient Large Language Model Inference with Limited Memory » (tous ces articles ont des titres vraiment ennuyeux mais sont vraiment intéressants, je le promets !), les chercheurs ont conçu un système pour stocker les données d’un modèle, qui est généralement stocké sur la RAM de votre appareil, sur le SSD à la place. « Nous avons démontré notre capacité à exécuter des LLM jusqu’à deux fois la taille de la DRAM disponible. [on the SSD]”, ont écrit les chercheurs, ” obtenant une accélération de la vitesse d’inférence de 4 à 5 fois par rapport aux méthodes de chargement traditionnelles dans le CPU et de 20 à 25 fois dans le GPU. En profitant du stockage le moins cher et le plus disponible sur votre appareil, ont-ils découvert, les modèles peuvent fonctionner plus rapidement et plus efficacement.

Les chercheurs d’Apple ont également créé un système appelé EELBERT qui peut essentiellement compresser un LLM dans une taille beaucoup plus petite sans l’aggraver de manière significative. Leur version compressée du modèle Bert de Google était 15 fois plus petite (seulement 1,2 mégaoctets) et n’entraînait qu’une réduction de qualité de 4 %. Cela s’est cependant accompagné de quelques compromis en matière de latence.

De manière générale, Apple s’efforce de résoudre une tension fondamentale dans le monde des modèles : plus un modèle est grand, plus il peut être performant et utile, mais aussi plus il peut devenir lourd, gourmand en énergie et lent. Comme tant d’autres, l’entreprise essaie de trouver le bon équilibre entre toutes ces choses tout en cherchant un moyen de tout avoir.

Siri, mais bon

Une grande partie de ce dont nous parlons lorsque nous parlons de produits d’IA, ce sont des assistants virtuels – des assistants qui savent des choses, qui peuvent nous rappeler des choses, qui peuvent répondre à des questions et faire des choses en notre nom. Il n’est donc pas vraiment choquant qu’une grande partie des recherches d’Apple sur l’IA se résument à une seule question : et si Siri était vraiment, vraiment, vraiment bon ?

Un groupe de chercheurs Apple a travaillé sur un moyen d’utiliser Siri sans avoir besoin d’utiliser un mot d’activation ; au lieu d’écouter « Hey Siri » ou « Siri », l’appareil pourrait simplement deviner si vous lui parlez. “Ce problème est bien plus complexe que la détection des déclencheurs vocaux”, ont reconnu les chercheurs, “puisqu’il se peut qu’il n’y ait pas de phrase déclencheur marquant le début d’une commande vocale.” C’est peut-être la raison pour laquelle un autre groupe de chercheurs a développé un système permettant de détecter plus précisément les mots d’éveil. Un autre article a formé un modèle pour mieux comprendre les mots rares, qui sont souvent mal compris par les assistants.

Dans les deux cas, l’intérêt d’un LLM est qu’il peut, en théorie, traiter beaucoup plus d’informations et beaucoup plus rapidement. Dans l’article Wake-Word, par exemple, les chercheurs ont découvert qu’en pas en essayant de supprimer tous les sons inutiles mais, au lieu de cela, en les transmettant au modèle et en le laissant traiter ce qui compte ou non, le mot de réveil a fonctionné de manière beaucoup plus fiable.

Une fois que Siri vous entend, Apple fait beaucoup de travail pour s’assurer qu’il comprend et communique mieux. Dans un article, il a développé un système appelé STEER (qui signifie Semantic Turn Extension-Expansion Recognition, nous allons donc choisir STEER) qui vise à améliorer votre communication aller-retour avec un assistant en essayant de déterminer quand vous lorsque vous posez une question complémentaire et lorsque vous en posez une nouvelle. Dans un autre, il utilise des LLM pour mieux comprendre les « requêtes ambiguës » afin de comprendre ce que vous voulez dire, quelle que soit la façon dont vous le dites. “Dans des circonstances incertaines”, écrivent-ils, “les agents conversationnels intelligents peuvent avoir besoin de prendre l’initiative de réduire leur incertitude en posant de bonnes questions de manière proactive, résolvant ainsi les problèmes plus efficacement”. Un autre article vise également à y contribuer : les chercheurs ont utilisé les LLM pour rendre les assistants moins verbeux et plus compréhensibles lorsqu’ils génèrent des réponses.

Bientôt, vous pourrez peut-être modifier vos photos simplement en demandant les modifications.
Image : Pomme

L’IA en santé, les éditeurs d’images, dans vos Memojis

Chaque fois qu’Apple parle publiquement de l’IA, elle a tendance à se concentrer moins sur la puissance technologique brute et davantage sur les choses quotidiennes que l’IA peut réellement faire pour vous. Ainsi, bien que l’accent soit mis sur Siri – d’autant plus qu’Apple cherche à rivaliser avec des appareils tels que le Humane AI Pin, le Rabbit R1 et l’écrasement continu de Gemini par Google sur tout Android – il existe de nombreuses autres façons dont Apple semble voir L’IA étant utile.

Un domaine évident sur lequel Apple doit se concentrer est la santé : les LLM pourraient, en théorie, vous aider à parcourir les océans de données biométriques collectées par vos différents appareils et vous aider à tout comprendre. Ainsi, Apple a étudié comment collecter et rassembler toutes vos données de mouvement, comment utiliser la reconnaissance de la démarche et vos écouteurs pour vous identifier, et comment suivre et comprendre vos données de fréquence cardiaque. Apple a également créé et publié « le plus grand ensemble de données sur l’activité humaine basé sur des capteurs multi-appareils et multi-emplacements » disponible après avoir collecté les données de 50 participants avec plusieurs capteurs corporels.

Apple semble également imaginer l’IA comme un outil créatif. Dans un article, les chercheurs ont interrogé un groupe d’animateurs, de concepteurs et d’ingénieurs et ont construit un système appelé Keyframer qui « permet[s] les utilisateurs peuvent construire et affiner de manière itérative les conceptions générées. Au lieu de taper une invite et d’obtenir une image, puis de taper une autre invite pour obtenir une autre image, vous commencez par une invite, puis obtenez une boîte à outils pour modifier et affiner certaines parties de l’image à votre guise. Vous pouvez imaginer ce genre de processus artistique allant et retour, allant du créateur Memoji à certains des outils artistiques les plus professionnels d’Apple.

Dans un autre article, Apple décrit un outil appelé MGIE qui vous permet de modifier une image simplement en décrivant les modifications que vous souhaitez apporter. (« Rendre le ciel plus bleu », « rendre mon visage moins bizarre », « ajouter des pierres », ce genre de choses.) « Au lieu de conseils brefs mais ambigus, MGIE dérive une intention visuelle explicite et conduit à une retouche d’image raisonnable. », ont écrit les chercheurs. Ses premières expériences n’étaient pas parfaites, mais elles étaient impressionnantes.

Nous pourrions même avoir un peu d’IA dans Apple Music : pour un article intitulé “Annulation de la voix stéréo avec contraintes de ressources”, les chercheurs ont exploré les moyens de séparer les voix des instruments dans les chansons – ce qui pourrait s’avérer utile si Apple souhaite donner aux gens des outils, par exemple. , remixez des chansons comme vous le pouvez sur TikTok ou Instagram.

À l’avenir, Siri pourra peut-être comprendre et utiliser votre téléphone à votre place.
Image : Pomme

Au fil du temps, je parierais que c’est le genre de choses sur lesquelles Apple s’appuiera, en particulier sur iOS. Apple en intégrera une partie dans ses propres applications ; certains seront proposés aux développeurs tiers sous forme d’API. (La récente fonctionnalité Suggestions de journalisation est probablement un bon guide sur la façon dont cela pourrait fonctionner.) Apple a toujours vanté ses capacités matérielles, en particulier par rapport à votre appareil Android moyen ; Associer toute cette puissance à une IA intégrée à l’appareil et axée sur la confidentialité pourrait être un facteur de différenciation important.

Mais si vous voulez voir le projet d’IA le plus important et le plus ambitieux chez Apple, vous devez connaître Ferret. Ferret est un grand modèle de langage multimodal qui peut prendre des instructions, se concentrer sur quelque chose de spécifique que vous avez encerclé ou sélectionné d’une autre manière et comprendre le monde qui l’entoure. Il est conçu pour le cas d’utilisation désormais normal de l’IA consistant à interroger un appareil sur le monde qui vous entoure, mais il pourrait également être capable de comprendre ce qui se trouve sur votre écran. Dans l’article de Ferret, les chercheurs montrent que cela pourrait vous aider à naviguer dans les applications, à répondre aux questions sur les évaluations de l’App Store, à décrire ce que vous regardez, et bien plus encore. Cela a des implications vraiment intéressantes pour l’accessibilité, mais pourrait également changer complètement la façon dont vous utilisez votre téléphone – et votre Vision Pro et/ou vos lunettes intelligentes un jour.

Nous sommes en avance sur nous-mêmes ici, mais vous pouvez imaginer comment cela fonctionnerait avec certains des autres éléments sur lesquels Apple travaille. Un Siri capable de comprendre ce que vous voulez, associé à un appareil capable de voir et de comprendre tout ce qui se passe sur votre écran, est un téléphone qui peut littéralement s’utiliser tout seul. Apple n’aurait pas besoin d’intégrations approfondies avec tout ; il pourrait simplement exécuter les applications et appuyer automatiquement sur les bons boutons.

Encore une fois, tout cela n’est que de la recherche, et que tout cela fonctionne bien à partir de ce printemps serait une prouesse technique légitimement inouïe. (Je veux dire, vous avez essayé les chatbots – vous savez qu’ils ne sont pas géniaux.) Mais je vous parie n’importe quoi, nous aurons de grandes annonces sur l’IA à la WWDC. Le PDG d’Apple, Tim Cook, l’a même taquiné en février et l’a essentiellement promis lors de l’appel aux résultats de cette semaine. Et deux choses sont très claires : Apple est très engagé dans la course à l’IA, et cela pourrait équivaloir à une refonte totale de l’iPhone. Bon sang, vous pourriez même commencer volontairement à utiliser Siri ! Et ce serait tout un exploit.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *