Bonne nouvelle pour les fans de FFmpeg ! L’outil incontournable du traitement vidéo et audio s’offre une mise à jour qui va faire des vagues : l’intégration native de Whisper, l’IA de transcription vocale d’OpenAI. Fini les acrobaties entre plusieurs logiciels pour sous-titrer vos vidéos. Désormais, une seule ligne de commande suffit pour transformer l’audio en texte, directement dans FFmpeg. On vous explique.
Le commit, signé Vittorio Palmisano et validé le 8 août 2025 par Michael Niedermayer, repose sur whisper.cpp, une version optimisée de Whisper qui exploite CPU et GPU pour des performances au top. Ce filtre audio permet de transcrire des vidéos ou flux en direct avec une flexibilité impressionnante. Vous pouvez ajuster le paramètre “queue” (3 secondes par défaut) pour privilégier la rapidité ou la précision. Besoin de sous-titres ultra-précis ? Poussez jusqu’à 10-20 secondes pour une qualité optimale.
L’intégration est pensée pour tous les usages. Elle prend en charge la détection d’activité vocale (VAD) pour segmenter intelligemment les dialogues, et sort les transcriptions en SRT pour les sous-titres ou en JSON pour les pipelines automatisés. Mieux encore, le support GPU accélère le traitement des gros fichiers, un atout pour les créateurs de contenu ou les plateformes de streaming. Que vous bossiez sur un podcast, une vidéo YouTube ou un flux live, tout devient plus simple.
Pour en profiter, il faut compiler FFmpeg avec l’option --enable-whisper
et installer whisper.cpp. Pas de panique, les habitués de la compilation s’en sortiront sans souci, même si ça peut demander un peu de patience.
Exemple de commande :
./ffmpeg -i video.mp4 -vn -af "whisper=model=ggml-large-v3.bin:language=auto:queue=3:destination=sortie.srt:format=srt" -f null -
.
Testé et approuvé, ça marche aussi bien sur fichiers locaux que sur streams.
Vous pouvez télécharger le code source de FFMPEG par ici.
Cette nouveauté marque un tournant pour FFmpeg, qui s’ouvre à l’IA tout en restant fidèle à sa réputation de outil polyvalent. Dans une région comme le MENA, où les créateurs vidéo et les médias numériques explosent, cette intégration pourrait booster la production de contenus multilingues. Alors, prêts à tester la transcription automatique ? Partagez vos retours en commentaires !