Intelligence artificielle: ChatGPT peut désormais voir, entendre et parler

L’interface qui a rendu populaire l’IA générative (capable de produire du texte, des images et d’autres contenus sur simple demande en langage courant) va ainsi bientôt pouvoir traiter des requêtes contenant des images et aussi discuter oralement avec ses utilisateurs.

Ils pourront, par exemple, prendre une photo d’un monument et «avoir une conversation avec ChatGPT» sur l’histoire du bâtiment, ou encore montrer au logiciel ce qu’il y a dans leur frigo pour qu’il leur propose une recette, suggère OpenAI dans un communiqué.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Autres cas d’usages possibles selon la start-up: aider ses enfants à faire leurs devoirs (en prenant une photo d’un problème de maths par exemple) ou encore demander au chatbot de leur raconter une histoire avant de dormir.

Ces nouveaux outils seront déployés dans les deux prochaines semaines pour les abonnés à ChatGPT Plus, la version payante du chatbot, ou les organisations clientes du service.

voice mode and vision for chatgpt! really worth a try. https://t.co/g8uA4QxXMb
— Sam Altman (@sama) September 25, 2023

L’entreprise avait annoncé l’ajout à venir de telles fonctionnalités en mars dernier, au moment de la présentation de GPT-4, la dernière version de son modèle de langage, la technologie qui sous-tend chatGPT.

GPT-4 est multimédia, au sens où il peut traiter des données autres que du texte ou du code informatique.

Le succès de ChatGPT depuis la fin 2022 a entraîné une course majeure à l’IA générative entre les géants des technologies, Google et Microsoft en tête.

Today, we’re announcing that @Amazon will invest up to $4 billion in Anthropic. The agreement is part of a broader collaboration to develop reliable and high-performing foundation models. pic.twitter.com/lPJ03oqr6C
— Anthropic (@AnthropicAI) September 25, 2023

Mais le déploiement à toute vitesse de ces programmes encore très peu régulés suscite aussi beaucoup d’inquiétudes, d’autant qu’ils ont tendance à «halluciner», c’est-à-dire à inventer des réponses de toutes pièces.

«Les modèles dotés de la vision présentent de nouveaux défis, des hallucinations au fait que des personnes puissent se fonder sur l’interprétation des images par le programme dans des domaines à enjeux élevés», reconnaît OpenAI dans son communiqué lundi.

.@OpenAI donne une voix à ChatGPT

🗨️ "C'est enfin la promesse qu'avait faite les Alexa, Siri ou Google Assistant" @Salime

🎙️ @Fsorel pic.twitter.com/jKubGPEAtz
— Tech & Co (@techandco) September 25, 2023

La start-up assure avoir «testé le modèle» sur des sujets tels que l’extrémisme et les connaissances scientifiques et compte sur les usages dans la vie réelle et les retours des utilisateurs pour s’améliorer.

Elle a en outre limité les capacités de ChatGPT à «analyser les personnes», car l’interface «n’est pas toujours précise et ces systèmes doivent respecter la confidentialité des individus».

La plateforme de streaming Spotify a par ailleurs annoncé lundi un partenariat avec OpenAI pour traduire les podcasts directement avec de l’IA.

Spotify $SPOT and OpenAI are partnering on Spotify’s new AI-powered voice translation feature, which reproduces podcasts in other languages using the podcaster’s own voice - The Verge pic.twitter.com/oFiH8lCg2w
— Evan (@StockMKTNewz) September 25, 2023

Des émission enregistrées en anglais seront désormais disponibles dans d’autres langues «tout en conservant les caractéristiques vocales distinctives du locuteur», a indiqué le service dans un communiqué.

L’entreprise suédoise assure que la nouvelle technologie de génération de voix d’OpenAI «reproduit le style de l’orateur d’origine, ce qui permet une expérience d’écoute plus authentique, plus personnelle et plus naturelle que le doublage traditionnel».

Par Le360 (avec AFP)

Le 26/09/2023 à 07h00

Intelligence artificielle: ChatGPT peut désormais voir, entendre et parler

OpenAI a indiqué lundi qu’elle avait doté son programme d’intelligence artificielle (IA) ChatGPT de la parole et de la vision pour le rendre «plus intuitif».

Voir plus

Le360 en un clic

À propos de nous

Nous contacter

Conditions d'utilisation