OpenAI dévoile GPT-Realtime et parie sur la révolution vocale de l’IA

Orlene Briard
Lecture en 5 min
design-sans-titre-13-68b7ff2701e26435514934
L'essentiel

OpenAI a lancé GPT-Realtime, un nouveau modèle vocal intégré à son API Realtime, transformant fondamentalement les interactions avec l'. Ce système unifié allie transcription, raisonnement et synthèse vocale, offrant une performance améliorée et une parole plus naturelle. Évalué sur le benchmark Big Bench Audio, GPT-Realtime affiche une précision de 82,8 %, surpassant l'ancien modèle. Sa capacité à comprendre des séquences alphanumériques complexes en plusieurs langues, dont le français et l'espagnol, le rend particulièrement adapté aux entreprises internationales. OpenAI a également réduit ses tarifs, visant les entreprises telles qu'Orange et Bouygues, et la France est un marché clé, avec une forte adoption de ses technologies.

GPT-Realtime : un bond technologique majeur

OpenAI a récemment présenté GPT-Realtime, un modèle vocal unifié intégré à son API Realtime, qui réinvente complètement l'interaction avec l'intelligence artificielle. Cette intègre en un unique système la transcription, le raisonnement ainsi que la synthèse vocale, garantissant des performances nettement supérieures dans l'exécution d'instructions complexes et la production d'une parole à la fois plus naturelle et expressive.

 

Le modèle se caractérise par sa faculté à percevoir des indices non verbaux tels que les rires, à alterner de langue en cours de phrase et à moduler son ton en fonction du contexte, oscillant entre un registre « vif et professionnel » et un registre « bienveillant et empathique ». Sur le benchmark Big Bench Audio, qui évalue les aptitudes au raisonnement, GPT-Realtime obtient un résultat remarquable de 82,8 % de précision, dépassant nettement les 65,6 % enregistrés par le modèle antérieur publié en décembre 2024.

Précision accrue et prise en charge multilingue

Les analyses internes menées par OpenAI mettent en évidence une progression significative de la précision dans l'identification des séquences alphanumériques complexes telles que les numéros de téléphone ou les codes VIN. Cette performance se déploie désormais dans plusieurs langues, notamment l'espagnol, le chinois, le japonais et le français, conférant à GPT-Realtime le statut d'une solution véritablement internationale.

 

Cette aptitude multilingue accrue constitue un avantage considérable pour les entreprises évoluant sur des marchés internationaux, leur offrant la possibilité de déployer des agents vocaux efficaces dans diverses régions géographiques sans compromettre la qualité du service.

Fonctionnalités inédites destinées aux développeurs

OpenAI procède simultanément à l'enrichissement de son API Realtime par l'intégration de deux nouvelles voix, Marin et Cedar, qui viennent s'ajouter aux huit voix déjà disponibles. L'API inclut dorénavant la prise en charge des serveurs MCP distants, des flux d'images ainsi que des appels téléphoniques effectués par le biais du protocole SIP (Session Initiation Protocol).

 

Ces fonctionnalités intégrées ont pour objectif de simplifier la conception d'agents vocaux fiables et opérationnels, répondant ainsi aux exigences croissantes des développeurs et des entreprises en matière d'automatisation vocale avancée.

- Advertisement -

Stratégie tarifaire ambitieuse visant à s'imposer auprès des entreprises

Afin de garantir une adoption rapide, OpenAI a pris la décision de diminuer ses tarifs de 20 à 25 % par rapport à la version antérieure. L'exploitation de l'API GPT-Realtime est désormais facturée à 32 dollars par million de jetons d'entrée audio (seulement 0,40 dollar pour les jetons mis en cache) et à 64 dollars par million de jetons de sortie.

 

Cette politique tarifaire ambitieuse cible spécifiquement les entreprises de télécommunications telles qu'Orange, Bouygues et SFR en France, ainsi que Zillow et T-Mobile, qui procèdent déjà à l'expérimentation de cette solution. L'objectif consiste à rendre accessible à un large public l'utilisation des agents vocaux avancés destinés aux applications de support client, d'assistance et d'éducation.

La France constitue un marché stratégique pour OpenAI

La France constitue un territoire stratégique pour OpenAI, se classant parmi les dix premiers pays au monde en termes de nombre de développeurs exploitant activement leur API. La France figure également parmi les deux premiers pays utilisateurs payants de ChatGPT au sein de l'Union européenne, ainsi que dans le top 10 mondial, ce qui atteste d'un marché particulièrement réceptif aux innovations en matière d'intelligence artificielle.

 

Le nombre d'utilisateurs actifs hebdomadaires en France a triplé au cours de l'année écoulée, attestant ainsi de l'engouement marqué des Français pour les solutions proposées par OpenAI. Cette dynamique favorable, conjuguée à la diminution des tarifs, pourrait inciter un grand nombre d'entreprises françaises à adopter les solutions vocales avancées, bien que les États-Unis restent le principal marché, avec 92 % des entreprises du Fortune 500 recourant aux services d'OpenAI.

Partager cet article
Passionnée par l’IA, j’aide les marques à comprendre et utiliser cette technologie pour créer des stratégies marketing innovantes, tout en restant centrée sur l’humain.