Gemini intègre l’analyse de fichiers audio

Orlene Briard
Lecture en 4 min
design-sans-titre-37-68c01951a255e560086915
L'essentiel

a lancé une fonction tant attendue pour son assistant IA Gemini, permettant d'analyser et de transcrire des fichiers audio en formats MP3, M4A ou WAV. Cette mise à jour, saluée par de nombreux utilisateurs, transforme des enregistrements vocaux en documents structurés, comportant des transcriptions complètes et des résumés. Accessible via mobile et web, l'application est intuitive, permettant de traiter jusqu'à dix fichiers simultanément. Les utilisateurs peuvent bénéficier d'une version gratuite, limitée à 10 minutes par fichier et 5 requêtes par jour, tandis que les abonnements Google AI Pro et Ultra offrent des capacités étendues pour les professionnels. Cette évolution fait partie de la stratégie de Google pour développer l'écosystème Gemini et s'affirmer face à la concurrence.

Google a récemment mis en œuvre une fonctionnalité très attendue pour son assistant IA Gemini : la faculté d'analyser et de transcrire des fichiers audio. Accessible sur Android, iOS et le Web, cette mise à jour offre la possibilité de traiter des enregistrements aux formats MP3, M4A ou WAV, convertissant ainsi réunions, entretiens et mémos vocaux en documents structurés et exploitables.

Une requête émanant de l'utilisateur enfin comblée

Comme l'a attesté Josh Woodward sur Twitter : « Papercut fixed : You can now upload any file to @GeminiApp. » Including the #1 request: audio files are now supported!”. Cette communication satisfait l'une des requêtes les plus urgentes formulées par les utilisateurs de Gemini depuis sa mise en service.

 

La fonctionnalité modifie profondément la méthodologie du traitement audio en . Désormais, un enregistrement vocal basique peut être transformé en document structuré, intégrant une transcription littérale, l'identification de plusieurs locuteurs, des résumés concis ainsi que l'extraction automatique des tâches ou citations majeures.

Un procédé d'utilisation simplifié

L'emploi de cette nouvelle fonctionnalité s'avère particulièrement intuitif. Sur mobile, il convient d'ouvrir l'application Gemini puis de choisir le menu « + », tandis que sur la plateforme Web, l'option « Uploader des fichiers » offre un accès direct au service.

 

L'intelligence artificielle intervient ensuite afin de procéder à une analyse exhaustive : transcription intégrale, identification des divers intervenants, élaboration de résumés synthétiques ainsi qu'extraction des éléments essentiels. La plateforme offre la possibilité de traiter simultanément jusqu'à dix fichiers, qu'il s'agisse d'enregistrements individuels ou d'archives ZIP renfermant jusqu'à dix éléments.

Une proposition tarifaire ajustée aux divers modes d'utilisation

Google a défini une politique tarifaire explicite pour cette nouvelle fonctionnalité. La version gratuite autorise la transcription de fichiers audio d'une durée maximale de 10 minutes, avec une limite fixée à 5 requêtes quotidiennes — un quota demeurant néanmoins généreux en comparaison des services gratuits concurrents.

 

- Advertisement -

Les abonnements Google AI Pro et Ultra, proposés au tarif de 21,99 euros par mois, permettent d'étendre cette capacité à trois heures d'audio par fichier. Cette formule s'adresse tout particulièrement aux professionnels tels que les podcasteurs, journalistes ou étudiants, qui sont amenés à analyser de longues conférences ou interviews sans avoir à procéder à un découpage préalable.

Un écosystème Gemini en pleine expansion

Cette actualisation s'intègre dans une stratégie plus étendue visant le développement de l'écosystème Gemini. Parallèlement, la recherche Google en mode IA étend son champ linguistique en intégrant le support de cinq langues supplémentaires : le hindi, l'indonésien, le japonais, le coréen ainsi que le portugais brésilien.

 

Parallèlement, NotebookLM étoffe son offre de rapports automatiques en intégrant désormais des fiches de révision, des articles de blog, des briefings, des quiz ainsi que des flashcards disponibles en plus de 80 langues. Ces avancées attestent de l'intention manifeste de Google d'incorporer Gemini au sein de l'intégralité de ses services, allant du moteur de recherche aux outils de productivité.

Un positionnement stratégique face à la concurrence

Grâce à cette fonctionnalité, Gemini s'affirme comme une alternative crédible aux logiciels de transcription classiques, généralement plus onéreux et moins intégrés. L'approche adoptée par Google ne se limite pas à la simple transcription, mais offre une analyse véritablement intelligente du contenu audio.

 

La restriction à dix minutes pour les comptes gratuits, bien qu'elle puisse s'avérer contraignante dans certains cas d'utilisation, demeure néanmoins adéquate pour permettre aux utilisateurs d'évaluer le service. Cette stratégie freemium pourrait encourager une adoption à grande échelle, notamment dans le secteur professionnel où les exigences en matière de traitement audio sont en constante augmentation.

Partager cet article
Passionnée par l’IA, j’aide les marques à comprendre et utiliser cette technologie pour créer des stratégies marketing innovantes, tout en restant centrée sur l’humain.