TECH ACTUS – Les commandes en langage naturel peuvent être utilisées pour manipuler des images. Cela semble assez révolutionnaire !
Bien qu’Apple soit à la traîne par rapport à ChatGPT d’OpenAI et à Gemini de Google, le géant américain de la technologie a investi beaucoup d’argent dans l’IA pour garantir que l’iPhone 16 disposera de nombreuses fonctionnalités d’IA avec la sortie d’iOS 18. Maintenant, cependant, nous entendons dire qu’Apple les chercheurs ont créé un modèle capable d’éditer des images afin que l’utilisateur puisse faire fonctionner le modèle, appelé MGIE, avec des commandes simples et faciles à comprendre. La technologie sera certainement vue lors de la WWDC 2024 en juin.
MGIE est l’abréviation de MLLM-Guided Image Editing, et MLLM signifie multimodal grand langage modèle. Nous parlons donc d’une édition d’image multimodale guidée par un grand modèle de langage qui peut interpréter et exécuter des commandes utilisateur au niveau des pixels. L’outil peut modifier la luminosité, la netteté, le contraste, mais aussi la forme, la couleur ou la texture de l’objet sélectionné. Des outils de type Photoshop sont également inclus (recadrage, redimensionnement, rotation, filtres), et même la modification de l’arrière-plan est possible.
Le nouveau modèle d’IA d’Apple tient également compte du contexte et du bon sens. Par exemple, si vous avez une photo d’une pizza et que vous lui donnez une commande pour la rendre plus saine, il mettra des légumes dessus car c’est ce que MGIE finira par comprendre à partir du contexte.
Le modèle a été créé par Apple en collaboration avec des chercheurs de l’Université de Californie et apparaîtra dans plusieurs applications lorsque la technologie sera prête. La recherche a été présentée à l’ICLR (International Conference on Learning Representations). Le code et les modèles pré-entraînés du modèle sont disponibles sur Github, donc avec un peu de savoir-faire, vous pouvez déjà essayer ce que la technologie peut faire sur l’iPhone, l’iPad et même l’Apple Vision Pro à l’avenir, car le Cupertino- Le géant de la technologie basé est vraiment sérieux.
Avec Siri en retard sur Alexa et Google Assistant d’Amazon, ce sera bien de traduire à partir d’ici.
Source: WCCFTech, VentureBeat, GitHub