Apple lance une IA open source pour éditer des images en langage naturel
Les efforts de Manzana dans le domaine de intelligence artificielle Ils progressent à un rythme soutenu, même si beaucoup pensent le contraire. Des chercheurs de la firme de Cupertino se sont associés à l’Université de Californie à Santa Barbara (UCSB) pour créer MGIEun nouveau modèle open source qui permet modifier des images en langage naturel.
Il est vrai que le web regorge aujourd’hui d’outils qui permettent de créer des images à partir de l’intelligence artificielle générative. Cependant, les efforts d’Apple et des experts de l’Université susmentionnée se sont concentrés sur « l’édition guidée », en profitant de la modèles de langage multimodaux grande échelle (MLLM, pour ses adeptes anglais).
Selon les développeurs de cet outil, MGIE interprète l’image et l’ordre que l’utilisateur saisit et procède à l’édition, même sans autre contexte sur le matériel ou la demande elle-même. Ainsi, par exemple, l’un des cas présentés est celui d’une photographie d’une pizza. En utilisant uniquement la description « le rendre plus sain », l’intelligence artificielle d’Apple a modifié l’image pour y inclure des tomates et des herbes.
« MGIE se compose d’un MLLM et d’un modèle de diffusion. Le MLLM apprend à dériver des instructions expressives concises et fournit des conseils visuels explicites. Le modèle de diffusion est mis à jour conjointement et effectue l’édition d’images avec l’imagination latente de la cible prévue grâce à la formation de bout en bout. fin. De cette façon, MGIE tire parti de la dérivation visuelle inhérente et répond aux commandes humaines ambiguës pour obtenir un montage raisonnable. Par exemple (…), il est difficile de comprendre ce que signifie « sain » sans contexte supplémentaire. « Notre MGIE peut relier précisément les « ingrédients végétaux » à la pizza et conduire au montage correspondant en fonction des attentes humaines. »
Des chercheurs d’Apple et de l’Université de Californie à Santa Barbara.
En collaboration avec MGIE, des chercheurs d’Apple et de l’UCSB souhaitent démontrer que des modèles de langage multimodaux à grande échelle peuvent faciliter l’édition d’images avec l’intelligence artificielle. Spécialement, fournir les instructions nécessaires pour obtenir les résultats souhaités.
La nouvelle intelligence artificielle d’Apple peut éditer des images en langage naturel
Les responsables du projet indiquent que les instructions humaines sont souvent trop brèves pour que les méthodes d’édition actuelles de l’IA puissent les comprendre et les traiter correctement. Ainsi, ils affirment que l’utilisation d’un MLLM pour cette tâche « améliore le contrôle et la flexibilité » lors de l’édition d’images, sans avoir besoin de masques régionaux ou de descriptions trop élaborées.
Les exemples qu’ils ont présentés permettent de mieux comprendre de quoi parle toute cette histoire. En plus de ce que nous avons déjà évoqué à propos de la pizza, l’intelligence artificielle d’Apple peut apporter des modifications de style Photoshop. Sur une image, on peut voir un homme au premier plan et une femme derrière lui, au loin, assise dans un fauteuil. Avec la commande « supprimer la femme en arrière-plan », MGIE modifie la photo pour que seul le sujet du premier plan soit visible. Mais cela ne se limite pas à effacer les femmes ; Cela déplace également l’attention sur l’expression du visage de l’homme.
Les experts de l’UCSB et d’Apple ont également réussi à faire fonctionner l’intelligence artificielle éditions locales. Par exemple, modifiez ce qui apparaît sur l’écran d’une photo d’ordinateur, sans toucher au reste de l’image. En plus de cela, il peut préciser optimisations globalescomme augmenter la luminosité ou ajuster la définition du matériau, entre autres possibilités.
S’agissant d’un projet de recherche, on ne sait pas encore si Apple envisage d’intégrer cette intelligence artificielle dans ses logiciels accessibles au public. Cependant, comme nous l’avons indiqué au début, il est clair que ceux de Cupertino accordent de plus en plus d’attention à ce type de technologie. N’oublions pas qu’Apple a récemment introduit MLX, un outil qui permet de créer des modèles d’apprentissage automatique.
Si vous souhaitez essayer MGIE, vous pouvez le faire directement depuis cette version d’essai dans Hugging Face Spaces. Bien qu’il s’agisse d’un projet Open sourcevous pouvez télécharger des informations, du code et des modèles pré-entraînés à partir de ce référentiel sur GitHub et l’essayer par vous-même.