FFmpeg - la vidÃ©o expliquÃ©e

Le 10 décembre 2021

8879 visiteurs

C’est pourtant simple !

Introduction :

– Une vidÃ©o est habituellement un conteneur comportant plusieurs "flux".
– Un flux peut Ãªtre de type audio ou video (voire sous-titre).
– Un flux est caracterise par son type de compression, par exemple cinepak ou divx ou mpeg4 pour la video, et mp3, ogg, aiff pour le son.
– Un flux est aussi caracterise par sa qualite qui est fonction de plusieurs facteurs.

A - L’AUDIO

Pour un flux audio, la qualitÃ© est fonction de 3 paramÃ¨tres : la frÃ©quence d’Ã©chantillonage (en Hz ou kHz), le bitrate, la polyphonie. Tu vas me dire que le bitrate est fonction de l’Ã©chantillonage. C’est vrai sans l’Ãªtre. Tout dÃ©pend de la compression utilisÃ©e.

A1 - La frÃ©quence d’Ã©chantillonnage

La frÃ©quence d’Ã©chantillonnage c’est en gros la mÃªme chose que le nombre de pixels dans une image. On aura plus de dÃ©tail dans une image avec beaucoup de pixels que dans une image avec peu de pixels. Donc la frÃ©quence d’Ã©chantillonnage c’est le nombre de nuance sonore que l’on restitue par seconde. Sur un CD, c’est 44100 nuances par seconde.

A2 - Le bitrate

Le bitrate, c’est un peu plus complexe, mais pas tant que Ã§a. Il s’agit de la taille en octets d’une seconde de son. Cette taille va Ãªtre fonction de la frÃ©quence d’Ã©chantillonnage Ã©videmment, mais aussi de la compression utilisÃ©e. Sans compression, sur un CD par exemple, on a 44100 nuances par seconde. Chaque nuance est codÃ©e sur 2 caractÃ¨res (soit 2 octets) et en stÃ©rÃ©o, soit 2 caractÃ¨res x 2 pistes (droite et gauche) x 44100 = 176 400 octets par seconde = 176 ko/s. Cool, soit 1 minute de musique sur CD pÃ¨se 10584000 octets soit 10 Mo. Bref sur un CD, le bitrate est de 176ko/s, non compressÃ©.
Le bitrate associÃ© Ã de la compression (destructive la plupart du temps) permet de rÃ©gler la taille du fichier de sortie. Par exemple en compression mp3, 1 minute de musique pÃ¨se environ 1,4 Mo (environ 10 fois moins). Par contre, le bitrate mp3 pour obtenir une telle taille est de 128 ko/s. Mince, pourtant 128 ko/s x 60 secondes, Ã§a fait plus de 1,4 Mo... Mais le bitrate, c’est la quantitÃ© de son en sortie des haut-parleurs. _ Donc le mp3 considÃ¨re une quantitÃ© de son en sortie des haut-parleurs (par exemple 128ko/s) et compresse dans son fichier la quantitÃ© de son nÃ©cessaire Ã l’obtention de cette qualitÃ©. Ouf !

A3 - La polyphonie

Enfin, la polyphonie, c’est mono, stÃ©rÃ©o, joint stÃ©rÃ©o, 3.1, 4.1, 5.1, 6.1, 7.1. Mono, c’est un son en mono, normalement sur une seule enceinte (sauf que les ordinateurs font sortir le mÃªme sur les 2 enceintes). StÃ©rÃ©o, c’est un son qui est potentiellement diffÃ©rent entre l’enceinte de gauche et celle de droite. Joint stÃ©rÃ©o, c’est le son mono rÃ©pÃ©tÃ© sur les 2 pistes. 3.1 C’est 3+1=4 pistes une droite, une gauche, une centrale et une piste pour les basses. etc.

B - LA VIDEO

Ben pour la vidÃ©o, c’est Ã peu prÃ¨s la mÃªme chose que pour l’audio, sauf que l’on ajoute un peu de sel et de poivre parce qu’un flux d’images, c’est un chouias plus gros et complexe.

B1 - Le framerate

Ici la frÃ©quence d’Ã©chantillonnage n’existe pas, c’est non pas le nombre d’Ã©chantillon de son par seconde, mais le nombre d’images par seconde (en anglais FrameRate). Habituellement dans nos contrÃ©es, on est Ã 25 images par seconde. Pourquoi 25 ? C’est le seuil de ce que l’on appelle la persistance rÃ©tinienne. A cette vitesse, le cerveau Ã l’impression d’un mouvement fluide. Si on diminue ce frametrate, on a l’impression d’une image saccadÃ©e, mais la taille de la vidÃ©o s’en ressent.

B2 - L’entrelacement

Mais la persistance rÃ©tinienne Ã 25 img/s, c’est une moyenne. Il semble que certaines personnes aient l’impression d’un battement dans l’image. donc les gens par cheux nous on mis en place un procÃ©dÃ© pour limiter cet effet de battement. C’est l’entrelacement.
Etant donnÃ© qu’il n’Ã©tait pas possible d’envoyer plus d’informations que 25 images par seconde, il a Ã©tÃ© dÃ©cidÃ© d’entrelacer les images, c’est-Ã -dire d’envoyer en premier lieu les lignes paires, puis les lignes impaires. La "demi-image" est formÃ©e soit par les lignes paires, soit par les lignes impaires. L’ensemble constituÃ© par deux images (ou champs) est appelÃ© trame entrelacÃ©. Lorsqu’il n’y a pas d’entrelacement le terme de trame progressive est utilisÃ©. GrÃ¢ce Ã ce procÃ©dÃ© appelÃ© "entrelacement", le tÃ©lÃ©viseur PAL/SECAM affiche 50 champs par seconde (Ã une frÃ©quence de 50 Hz), soit 2x25 images en deux secondes. Cool !

B3 - La taille de la vidÃ©o

Une vidÃ©o c’est en gros une succession d’images. Une image a une taille en pixel. Donc une vidÃ©o a une taille en pixels. Plus la taille en pixel d’une image est grande, plus le fichier sera gros. Les tailles habituelles sont 720x576 chez nous. Pour le web, 320x256 c’est bien.

B4 - Le bitrate

C’est la qualitÃ© de l’image de sortie souhaitÃ©e en fonction du mode de compression utilisÃ©. C’est vraiment pareil que pour l’audio.

Ca c’est nouveau ! Les modes de compression utilisÃ©s se basent sur la diffÃ©rence entre des images de rÃ©fÃ©rence successives. Les images de rÃ©fÃ©rence son comprises dans la vidÃ©o. Plus il y a d’images de rÃ©fÃ©rence, plus la vidÃ©o grossit. Entre 2 images de rÃ©fÃ©rence, le module de compression/dÃ©compression (d’oÃ¹ le nom de CoDec) va simplement travailler sur les diffÃ©rences entre les images. Ce qui donne par exemple, si on Ã©loigne trop les images de rÃ©fÃ©rence dans le temps des fichiers vidÃ©o dans lesquels il est difficile de se dÃ©placer. T’as pas compris grand chose ? Tout ce qu’il faut se rappeler c’est que plus il y a d’images de rÃ©fÃ©rence, plus le fichier est lourd, mais plus il est pratique et les transitions entre les images fluides.

Conclusion :

Alors maintenant que tu as tout compris, un exemple avec ffmpeg :

ffmpeg -i test.avi -ar 22050 -r 25 -s 320x256 -keyint_min 1 -b 500000 test.flv

– ffmpeg : c’est l’outil
– -i test.avi : c’est le fichier initial.
– -ar 22050 : c’est la frÃ©quence d’Ã©chantillonnage audio de sortie.
– -r 25 : c’est le nombre d’images de sortie par seconde, Ã savoir 25.
– -s 320x256 : c’est la taille de la vidÃ©o de sortie, soit 320 pixels par 256 pixels.
– -keyint_min 1 : c’est le nombre d’images clÃ©s : 1 image clÃ© toutes les 1 images clÃ©s
– -b 500000 : c’est le bitrate vidÃ©o (si l’on veut spÃ©cifier un bitrate audio, on ajoute -ab XXX avec XXX pour le bitrate en octets), soit 500 ko/s
– test.flv : C’est le nom du fichier de sortie.

VoilÃ !