Personal tools
Se connecter
Vous êtes ici : Accueil Technique Technologie Formats audio Le format MP3
Actions sur le document

Le format MP3

Description du format MP3

Introduction

Compte tenu des contraintes théoriques de restitution d'un signal analogique de bonne qualité (pour l'oreille humaine) à partir d'un signal échantillonné (théorème de Shannon), on a imposé aux CD audio un format de stockage du son ayant les données suivantes :
Fréquence d'échantillonnage = 44,1 kHz
Données codées sur 16 bits
Son stéréo


Ceci signifie que les échantillons prélevés sur le morceau de musique à numériser sont prélevés à la cadence de 44,1 kHz, qu'ils sont codés sur 16 bits (soit 65536 niveaux différents possibles) et que le son est stéréo, soit pour un échantillon donné, la nécessité de stocker les voies droite et gauche.
Avec ce standard, combien de place prend une minute de musique ?
On a 44100 échantillons en 1 seconde (44,1 kHz). Chaque échantillon est codé sur 16 bits, soit 2 octets, et le son est stéréo. On a donc ((44100*2)*2*60) octets pour une minute de musique stéréo soit 10,584x10 6 octets !

 

Il faut environ 10 Mo pour stocker une minute de musique.
On voit qu'un signal audio stocké sur un support numérique prend beaucoup de place d'où l'idée de chercher à le compresser et l'apparition de la norme MP3.


Le MP3 est une technique de compression des formats numériques audio.
Le brevet en a été déposé par l'institut allemand de recherche Fraunhofer. Au départ, les chercheurs de cet institut travaillaient sur la compression de séquences vidéo en vue de la diffusion de la TV numérique. Le projet Eureka EU147 en 1987 a commencé à bien faire bouger les choses. Les chercheurs de l'institut Fraunhofer ont travaillé, dès le départ, en accord avec les normes établies par le MPEG (Moving Pictures Experts Group), un groupe d'experts au sein de l'ISO définissant le standard international pour la compression vidéo. La 1ère norme à voir le jour fut la norme MPEG-1 Layer 1. La 3ème version de cette technique est la MPEG-1 Layer 3 dont la variante spécifiquement audio est la MPEG-1 Audio Layer 3. Ce format a été standardisé par l'ISO fin 1992. En novembre 1996, un brevet est déposé aux USA. Quand il a fallu donner une extension aux fichiers audio enregistrés à l'aide de ce format (comme un fichier Word a l'extension .doc), on a choisi .mp3. Depuis, cette dénomination est communément adoptée : on parle d'un MP3 pour un fichier audio numérique comprimé à l'aide du format MPEG-1 Audio Layer 3. L'institut allemand Fraunhofer détient 10 de 18 brevets MP3, Thomson Multimedia détient les 8 autres et gère les licences.

 

La compression MP3

Quelle est la technique de compression MP3 ?
En fait, on devrait plutôt parler d'un ensemble de techniques utilisées pour arriver au résultat final. Parmi ces techniques, certaines sont dites destructrices, d'autres non.


Une compression destructrice, c'est une compression qui est réalisée en perdant de l'information. Cela signifie que si l'on décompresse le signal compressé à l'aide d'une telle technique, on ne retrouvera pas le signal de départ.


Parmi les techniques de compression destructrices, on a essentiellement des méthodes qui exploitent les propriétés de l'oreille humaine. Cette dernière entend les fréquences situées dans la gamme 20Hz à 20kHz. Si un morceau contient des fréquences hors de cette gamme, on peut donc purement et simplement les supprimer sans perte de qualité audio puisque l'oreille ne les entend pas. En fait, on entend surtout correctement les fréquences situées dans la gamme 2kHz à 5kHz. En effet, il faut moins de 5dB pour entendre les fréquences de cette bande alors qu'il faut plus de 20dB pour entendre les fréquences situées en dessous de 100Hz ou au dessus de 10kHZ. Ces constatations peuvent être exploitées pour réduire la taille des fichiers. On peut par exemple décider que toutes les fréquences au dessus de 15kHz seront supprimées.


Le MP3 utilise aussi le principe des fréquences masquées. Si dans un groupe de fréquences, certaines ont un niveau sonore beaucoup plus élevé que d'autres, il n'est pas nécessaire de conserver les fréquences de niveau sonore faible : on ne les entendra pas. Pour utiliser une comparaison plus marquante, imaginez que vous êtes dans votre jardin et que vous entendez le pépiement des oiseaux. Le concorde passe au dessus de votre tête (même très haut). Vous n'entendrez plus les oiseaux car le son qu'ils produisent est beaucoup plus faible que celui généré par l'avion. C'est comme si les oiseaux n'existaient plus ou avaient arrêté de chanter. On voit bien qu'il n'est pas nécessaire de coder toutes les fréquences présentes dans un morceau pour que l'oreille humaine le perçoive correctement quand même. Enfin, si les deux voies d'un son stéréo présentent des séquences semblables, au lieu de dupliquer ces séquences, on en stocke évidemment qu'une et l'information qu'à ce moment là, voie droite et voie gauche sont identiques.


Au rang des techniques non destructrices, que trouve-t-on ?
Principalement des techniques de codage.
Expliquons nous. Un son, c'est une fréquence. Une seconde de musique c'est donc une succession de fréquences. Imaginons que dans la suite d'échantillons composant une seconde de musique (rappelons qu'il y en a 44100) on ait plusieurs fois de suite la même fréquence, par exemple 10 fois. Si au lieu de stocker ces 10 points, on en stocke 1 seul et le nombre de fois où il se répète, on a besoin de coder 2 nombres et non 10. Si, de plus, on applique cette méthode à des fréquences non plus identiques mais très proches les unes des autres (si proches que l'oreille humaine moyenne ne puisse les distinguer), on peut encore gagner en place. Cette fois, la compression est destructrice puisque l'on remplace une fréquence par une autre (presque identique).


Le MP3 utilise également l'algorithme de Huffman (1952) comme méthode de codage des informations. Cette méthode est utilisée dans tous les algorithmes de compression (compression de fichiers texte, compression d'images, compression de sons). Elle repose sur l'utilisation d'un code de longueur variable et la probabilité d'apparition d'un événement (en l'occurrence ici d'une fréquence). Plus une fréquence apparaît souvent, plus son code sera court (nombre de bits faible pour la représenter). Le fichier est lu une 1ère fois et on dresse un tableau des fréquences apparaissant et le nombre de fois où elles apparaissent. On en déduit le code approprié. Ce codage est utilisé en dernier lieu. C'est la phase finale de la compression. C'est un codage non destructeur.


Le MP3 exploite en 1er lieu les propriétés de l'oreille pour réduire la taille d'un morceau, puis on traite l'aspect stéréo et enfin on applique des codages en terminant par le codage de Huffman.


L'utilisation de toutes les possibilités de réduction évoquées dépend de la place que l'on souhaite accorder à 1 minute de son compressé et donc du taux de compression que l'on va devoir appliquer.
Pour l'encodage de fichiers son en MP3 on parle plutôt en terme de bitrate que de taux de compression.
Le bitrate est le nombre de bits autorisés en 1 seconde.
On aura donc la relation suivante : plus on veut compresser un morceau (pour qu'il prenne le moins de place possible) plus le bitrate à choisir devra être faible.


Le choix du taux de compression (bitrate)

Evidemment, plus on compresse et moins la qualité audio est bonne.
Il faut faire un compromis taille du fichier/qualité audio.
Ce compromis peut être dicté par vos exigences mais aussi par l'utilisation que vous voulez faire de vos fichiers MP3. En effet, vous pouvez être peu exigeant si vos MP3 sont destinés à votre baladeur et être très exigeant pour une écoute sur chaîne Hifi ! Le tableau ci-dessous vous aidera peut-être à faire un choix.

 

Précisons qu'un signal compressé avec un bitrate de 64 kbits/s a une bande passante de 11 kHz (toutes les fréquences situées entre 11 et 20 kHz sont supprimées !).
Pour obtenir un tel taux de compression, outre la suppression des fréquences, on a également transformé les HF en signal mono au lieu de leur conserver leur caractère stéréo. Le son MP3 des fichiers compressés avec un bitrate de 64kbits/s n'a plus rien à voir avec l'original d'où notre conseil de n'utiliser un tel bitrate que pour une écoute sur baladeur et encore.
Un bon compromis consiste à utiliser un bitrate de 128 kbits/s.


On peut encore ajouter qu'il faut aussi faire attention à la technologie de compression utilisée par l'encodeur. Il existe en effet trois grandes familles d'encodeurs qui se distinguent par leurs algorithme de codage. Il y a les encodeurs développés par l'institut Fraunhofer, les encodeurs à base de routines développées par Xing Technologie et ceux à base de routines ISO. Grossièrement, on peut dire que Fraunhofer privilégie la qualité du signal compressé tandis que Xing privilégie la rapidité de ses algorithmes. Pour les autre cela dépend des créateurs.


En résumé, disons que si vous désirez des fichiers MP3 d'une bonne qualité musicale écoutables partout même sur votre chaîne Hifi, utilisez un bitrate de 128kbits/s si vous avez un encodeur Fraunhofer ou à base de routines ISO ou un bitrate de 192kbits/s si vous utilisez un encodeur Xing.


Utilisation du bitrate en MP3
 

Bitrate
Qualité
Compression
1 min de son occupe
Utilisation
 
Référence
CD audio
Aucune
10,094MB
Toutes
(chaîne Hifi, baladeur ou PC)
192 kb/s
ou plus
CD audio conversée
1 :7 ou moins
1,373MB ou plus
Toutes
(chaîne Hifi, baladeur ou PC)
128 kb/s
CD audio conservée (limite)
1 :11
0,915MB
Toutes (limité pour une bonne chaîne Hifi)
96 kb/s
Supportable
1 :15
703KB
PC ou baladeur
64 kb/s
Limite
1 :22
469KB
Baladeur
Moins de 64kb/s
Non supportable
1 :22 ou plus
Moins de 469KB
Non conseillé