Google Gemini se met (enfin) à l’écoute : l’audio devient réalité
Google Gemini permet désormais d’importer et transcrire des fichiers audio (MP3, WAV), comblant un manque crucial pour les professionnels du son. Les comptes gratuits sont limités à 10 minutes par requête, tandis que les abonnés Pro/Ultra bénéficient de 3 heures, idéal pour les podcasts ou conférences. Cette mise à jour, annoncée début septembre 2025, répond à une demande forte des utilisateurs et positionne Gemini face à des outils comme Whisper d’OpenAI. Une avancée majeure pour les journalistes, créateurs de contenu et étudiants, même si la qualité dépendra des conditions d’enregistrement. Reste à tester sa fiabilité en situation réelle.
Je bosse dans l’audiovisuel et je passe mes journées à enregistrer des interviews. ChatGPT est déjà devenu un super outil pour exploiter ces échanges et produire du contenu de qualité à partir des réponses de mes interlocuteurs. Mais soyons honnêtes : jusqu’ici, la solution la plus pratique que j’avais trouvée pour retranscrire mes interviews en texte, c’était la fonction de sous-titrage automatique de Premiere Pro. Pas terrible, certes, mais largement suffisant pour servir de base. J’ai bien testé Whisper d’OpenAI, qui donnait d’excellents résultats, mais son intégration dans mon flux de production n’était pas idéale.
Et malgré tout ce que propose ChatGPT, impossible d’envoyer directement un fichier audio pour qu’il en sorte une transcription. Frustrant, surtout quand on sait que c’est la même maison qui a développé Whisper. Une fonction comme ça me ferait gagner un temps dingue. J’imagine qu’il existe d’autres outils efficaces, mais je n’avais pas encore creusé.
Alors forcément, quand j’ai vu hier les titres annonçant « la fonctionnalité que tout le monde attendait » dans Gemini, j’ai tiqué. Honnêtement, je ne suis pas sûr que ce soit “tout le monde” qui attendait ça… mais moi, oui ! Et si la promesse est tenue, ça va sérieusement me simplifier la vie. Je reviens vers vous dès que j’ai pu tester en conditions réelles.
Les fichiers audio débarquent enfin dans Gemini
Depuis son lancement, l’application Google Gemini permettait déjà d’analyser du texte, des images et même des vidéos. Mais il manquait un chaînon essentiel : l’audio. C’est désormais réparé. Josh Woodward, vice-président de Google Labs, a confirmé début septembre que l’app acceptait maintenant l’upload de fichiers son (formats classiques comme MP3 ou WAV). Concrètement, il suffit de cliquer sur le fameux « + » sur mobile, ou « Importer des fichiers » sur la version web, pour ajouter vos enregistrements (The Verge, 01net).
La nouveauté répond à l’une des demandes les plus fréquentes des utilisateurs. Comme quoi, je n’étais pas seul à pester devant l’impossibilité de faire avaler mes fichiers audio à Gemini. Reste à savoir dans quelles limites on peut en profiter.
Des quotas selon l’abonnement
Évidemment, Google ne fait pas de cadeau illimité. Les conditions d’utilisation varient selon que vous utilisiez Gemini gratuitement ou via un abonnement Pro/Ultra.
-
Comptes gratuits : jusqu’à 10 fichiers par requête, mais la durée totale des fichiers audio est limitée à 10 minutes. Autant dire suffisant pour une note vocale ou une courte interview, mais frustrant si vous travaillez sur un podcast complet. De plus, la version gratuite limite le nombre de requêtes quotidiennes à environ 5 prompts (The Verge).
-
Abonnés Pro et Ultra : là, c’est une autre histoire. La durée maximale passe à 3 heures d’audio par requête, ce qui couvre sans problème des conférences, des cours magistraux ou des épisodes entiers de podcast. La limite de 10 fichiers reste en place, mais Google accepte aussi les fichiers compressés ZIP (à condition qu’ils contiennent 10 éléments maximum).
Si l’on compare aux vidéos, c’est assez généreux : les utilisateurs gratuits sont limités à 5 minutes par vidéo, contre une heure pour les comptes Pro. En clair, l’audio profite d’un traitement plutôt royal.
Concrètement, ça change quoi ?
Pour quelqu’un comme moi qui passe sa vie à enregistrer des interviews, cette nouveauté peut transformer le quotidien. Plus besoin de passer par des solutions externes, bricolées ou payantes, pour obtenir une transcription correcte. Quelques usages concrets :
- Retranscrire une interview : pratique pour relire calmement les propos d’un invité sans repasser 50 fois l’enregistrement.
- Résumer un cours ou une conférence : Gemini peut digérer plusieurs heures de contenu et vous sortir l’essentiel.
- Découper une réunion : les “to-do lists” générées automatiquement à partir des échanges audio, ça fait gagner du temps à tout le monde.
Évidemment, la qualité dépendra des conditions d’enregistrement (bruits de fond, micro pas terrible, etc.). Mais si l’IA fait aussi bien que Whisper, et mieux que Premiere Pro, je tiens peut-être un nouvel allié pour alléger mes flux de production.
Une réponse à la concurrence
Soyons honnêtes : Google ne fait que rattraper son retard. ChatGPT et d’autres solutions permettaient déjà de traiter des fichiers audio depuis plusieurs mois. Mais l’arrivée de cette fonction dans Gemini marque une étape importante : l’écosystème Google se met enfin au diapason de ses concurrents. Et comme Gemini est multimodal (texte, image, vidéo, audio), l’intégration reste fluide et unifiée : un seul outil pour gérer tous vos contenus.
Il faudra encore tester pour vérifier la précision et la rapidité du traitement. Mais en théorie, les conditions offertes aux abonnés Pro/Ultra laissent entrevoir des usages professionnels solides. Pour le créateur de contenus, le journaliste ou l’étudiant, c’est une petite révolution pratique.
Et maintenant ?
Je ne vais pas vous mentir : je suis impatient de mettre Gemini à l’épreuve avec mes propres rushs. Les titres tapageurs disaient que c’était “la fonctionnalité que tout le monde attendait”. Peut-être pas tout le monde, mais pour ceux qui vivent dans le son et la voix, c’est un vrai game changer.
Alors, rendez-vous dans quelques jours : si Gemini s’avère fiable pour mes interviews, je pourrai peut-être enfin dire adieu aux sous-titres hésitants de Premiere Pro. Et si ce n’est pas le cas… eh bien, il restera toujours Whisper en plan B.
Signé Zed pour Znotes.fr