Lien de la note Hackmd
Onde sonore
Le briques de base de la compression du son sont un peu differentes de celle de la video.
Perception du son
Qu’est-ce que c’est le son ?
Onde sonore Variations de pressions convoyees par un milieu gazeux
Pour la perception:
- Oreille humaine
- Transducteur sonore $\Rightarrow$ signaux electriques
- Trois parties:
- Oreille externe: captation
- Oreille moyenne: amplification
- Oreille interne: transducteur
Oreille externe
- Collecte et amplifie les sons
- Localise les sons (pavillon, phase)
- L’envoie dans le conduit auditif
- Protege le tympa (cerumen)
Oreille moyenne
- Vibration aerienne $\to$ solidienne (tympan)
- Transformer les vibrations accoustiques en vibrations solides
- Amplification: marteau / enclume / etrier
- Protection niveaux forts (80dB): reflexe stapedien
Oreille interne
- Transforme le signal en signal electrique
- Vestibule: centre de l’equilibre
- Cochlee: transforme les vibrations en signaux electriques
- Recouverte de cellules cillees
- Hautes Frequences en bas (debut)
- Basses Frequences en haut (fin)
- Membrane basilaire: filtre special parole meme en environnement bruyant
Accouphenes: cellules cillees petees qui envoient n’importe quoi Lie aux problemes de circulation du sang Aussi l’usure: on a ecoute des trucs trop forts
Specifications
- Spectre: $20 HZ \to 20 KHz$
- Perception d’intensite logarithmique
- $dB = 3\times\log_2(ratio)$
- $3 dB: \times2, 20 dB:\times 100$
- Jusqu’a $120dB$ pour l’oreille
- Seuils de perception minimale variables
Enregistrement du son
Objectif Capter les variations acoustique dans un materiau
Analogique:
- Transduction solide
- Transduction magnetique
Numeriques:
- Representations binaires
- Nombreuses
- Fete du string pour les formats
Transduction solide du son
Principe
- Amplifier l’onde avec un pavillon
- Graver l’onde dnas un materiau par un mobile
Pionnier: phonographe, Thomas Edison, 1877
En verite, c’est un francais, Edouard-Leon Scott de Martinville, 1860 le pionner avec le Phonautographe
On ne pouvait que ecrire, relire detruisais le charbon qu’il utilisait pour graver
On a reussi a reconstruire un de ses enregistrements ou il chante au clair de la lune
a̷̙͔̳̹̱̭͔̲̺̳͉̪̰̼͂̀̈́͑̓̆͂͌̓̀̈́͐̒͐̂͛͑͒̑͑̕͝ų̸̨̼̼̫̙͔̳̺̖̯̳̼̳͓̪̪̫͔͖̘̤̜̒̅̉̾̈́͌̍́̚̕͜͜͝ ̴̹̥̝̺̫̘̬̩͓̣͈̔͑c̶̲̠̥̫͓̠̋͜͜͜ļ̶̡̧̨̛͔̟̥̜͚͚̗̪̱͍͈͎͖̪̣̣͕̩͕̩͔̭͖̟͚͗̉̇̆̃̇̊̀̓́̔̈͆̾̅̏̍̀̑́̔̍̐̿̆̕̕̚͜͠ͅͅą̸̡̢̧̟͇͚̣̲̜͉͓̺̫̭̟̖̘̝̞̼̙̞̭̭͎͚̤̙̺̠͒́͑͛̅̀̓͗̽̑̆͑̀͂͂͂î̴̢̨̨̡͉̞̘̘͕̖̤̮̱͚̝̘̺̅́̄̿͂͜͜ř̷̛̛͈͚̥̭̖̭͉̺͓̰͚͎̳̹̟̜͔̭̖̰̥̖̈́̈́̆̿̂̽̂̔̾̈́̃͂͛̓̑͋̒͋̎̆̈́́̓̓̀̆͋͜͜͠͝ ̴̢̧̡̡̛̪̯̞̞͈̖̜̻̺͓̥̭̝̥̘̝̖̰̠̩̱̬̼͙̗͈̳̳̝͉̗̩͒͆̿̇̓̌͌̅̈̒̑̽̈̎̈̅̾̓̒̀̄̓̊͗̂̈́͆͌̚̕͜͝͝͝͝ͅd̸̢̺̞̦͇̘̙̪͖̻͎͚̺͕̼͓̦̲͖̩̝̫̠͑̈̔́̀̒̂̀͋̐̈́̓̈́̔̽̓̏̅̐͊̑͜͝ͅe̶̳͉̼͎͉̯͍̿̍͛́͂̑̓̑͒̀̏̈́̚͝ ̶̢̪̻̘͓̹̰̬̥͚̟̻̝͚͍͎͍̗̲̩̦̪̣̦͉͈̩̯̤͕̟͙̝̙͒̈́̍̒̔̍̈́̄̌͋̑͋̄͗͐̽̅͑̋͗̏̈́͊̾̏̒̈́̈́̎̿̍̄̚̚̕͜͜͝͝͝͝ͅl̵̡̖̹̟͚̞͈̙̘̗͈̭͍̲͉̩̥̙͖̻͓̼͚̱͎͖̤̝̺̱̺͍̲̰̯̥̊̆̉́̔͐̒̋͒̂̌̈́̒̄̄̚̚̚ā̶̢̢̨̡̭̝̺̙͖͎͖̣̘̯̤͓̺̞̠͇͙͈̦̻̘͔̭̮̝͓̪̘́̃̀̀̊̓͂̓̐͐́̎̽ͅ ̴̨̧̢̭̳̗̮͔͈͎̘͙̣̠̝̙͋̔̑́́͒̓͂̑̈̈̌̆̏͒̑͋̔̂͑̈́͂̕̚͝͠͝l̵̛̛̬̥͓͇͇͖̈̾͗́̍̊̆̅̏̄̓̐̍̉̐͛͂͛͋̓͂̋͐͑̑́̅̍͒̆̕̚̕̚͠͠͝ū̸̡̡̨͙̱͙̩͖̠̼̳̮͎̞̪͉̮̩̮̭̝̝̦̬̹̳͍̰̙̟̪͕̥̰̬̠̙̰̉͊ͅͅn̶̨̡̢̛̬͓͕͙̳̘̣̗͍̲̣̮̬̞͔̞̬̣͙͕̘̦͐́̒̂̀̓͒̊̈́̿̑̈́̐̏͛͋̚͝͝ͅȩ̵̙̬̜͔̳͍̹̣̪̦̮̮̰̮̫̤̻̳̗̦͕̰̝̪̣͎̄̿̅̏̉͋̽́̐͝͝͝
Thomas Edison avait compris que ca devait etre reproductible
Gramophone, Emile Berliner, 1886
- Meme principe qe le Phonographe
- Disque rotatif industrialisable
- Carton (fragile)
- Celluloid (inflammable)
- Vinyle (compromis)
- Vitesse angulaire constante: $78$ a $100$ rpm
- Du bord vers le centre
- Perte de qualite au centre
- Perte de bande passante
Les microsillons reconstruisant le son:
En faisant les reflets qu’on voit sur un disque
Transduction magnetique du son
Principe
- Onde accoustique $\to$ signal electrique
- Signal electrique $\to$ champ magnetique
- Polariser un substrat magnetisable
- Assez coercitif
- Coercitivite magnetique: resistance d’un milieu magnetique a se faire remagnetiser
- Plus un milieu est coercitif, plus il est resistant
Comment ca se passe ?
- Tete en anneau, magentisation horizontale
- On a une bande magnetique qui defile
- On induit ce champ magnetique qui polarise les particules
- On a un signal accoustique qu’on a electrise et magnetise
Ecrite: Courant electrique $\to$ Champ magnetique Lecture: Champ magnetique $\to$ Courant electrique
Pionnier: Telegraphone a fil, Valdemar Poulsen (neerlandais), 1898
- Magnetisation d’un fil de fer
- Bande quelques minutes
- $1^{er}$ enregistrement: Empereur Franz Josef d’Autriche, 1900
- Evolution immediate: fil de fer $\to$ lame d’acier
- Plus robuste, plus dangereux
Magnetophone a bande, BASF/AEG (allemands), 1930
Cassete 8 pistes, Ampex/RCA/MOTOROLA (US), 1963
On dirait une bobine mais elle s’enroule sur elle-meme
Lecture sans fin !
Quand on le mettais dans l’auto-radio (c’etait fait pour les voitures), ca rembobinait et ca jouait en boucle
Pourquoi 8 pistes ?
C’est en stereo en 4 voie, des qu’on arrive a la fin d’une piste, on saute 2 voies Il y a ~1h30 de musique
Compact Cassette, Philips (Neerlandais), 1963
Enregistrement numerique du son
Onde sinusoidale
Une onde sinusoidale est:
- continue dans le temps
- continue en intensite
- Discretiser un signal continu periodiquement
- $\Rightarrow$ Choix d’une frequence $F_e$
Theoreme de Shannon
Un signal est une somme de sinusoides:
- La frequence la plus elevee est $f_{max}$
- Echantillonner a $F_e$ est valide si
En dessous: aliasing
- $=$ repliement de spectre
- $=$ frequences parasites
Echantillonage
Signal echantillone en intervalles reguliers
Quid de l’intensite ?
- Sous-ensemble discret de valeur d’un espace contine ${0\to V_{max}}$
- Idealement les valeurs quantifiees appartiennent a la courbe
Sauf que non
Pas de quantification
Espace discret a $N$ valeurs $[0\dots V_{max}/N]$
- En numerique: $N=2^M$ aec $M$: nombre de bits
Erreur de quantification $e$
\(0\lt e\lt V_{max} / 2^M\)
Erreur de quantification inevitable
- $N$ petit $\to$ $\color{red}{e}$ eleve
- $\color{orange}{Visible}$
- $\color{red}{Audible}$
$\color{red}{e}$ d’un signal triangulaire
$\color{red}{e}$ d’un signal sinusoidal
Format PCM
Pulse Coded Modulation
- Signal continu discretise en temps et en intensite
- Via circuits CNA/ADC
- Echantillonnage temporel a $F_e$
- $F_e\ge 2f_{max}$
- Sinon aliasing
- Quantification d’intensite sur $N$ bits: $2^{N}$ valeurs
- Erreur de quantification $e$
- Dynamique $\simeq 6dB$ par bit ($16bits\simeq96 dB$)
- Reconstruction
- Via circuits CNA/DAC
- Filtre passe-bas fort a $F_e/2$
Audio numerique non compresse
CD
- Sony + Philips, 1982
- Diametre: $12 cm$
- PCM: $44.1KHz$, $16$ bits, stereoo
- Debit: $2\times44100\times2=176.4Ko/s (1.411 Mb/s)$
- Lecture:
- Du centre vers le bord
- Laser infrarouge
- Vitesse lineaire constante $500\to200 rpm$
- $74$ minutes de son $\Rightarrow 783Mo$
- Peu de correction d’erreur
- Pas grave…
- Avec correction d’erreur: $650Mo$
- $\Rightarrow$ CD-ROM (Read Only Memory)
DAT
- Sony, 1987
- 2 canaux PCM, $48KHz$, $16$ bites
- Debit: $2\times 48000\times 2 = 192Ko/s (1.536 Mb/s)$
- Lecture:
- Bande magnetique
- $\sim 50cm/min (8.15mm/s)$
- $4mm$ d’epaisseur
- Jusqu’a 3h par bande
Comment ?
- $\Rightarrow$ Lecture hellicoidale
- Tete rotative $2000rpm$
- Inclinee
- $\Rightarrow 3.15m/s$
- Comme VHS
- Et streamers (DDS, AIT, LTO, …)
DVD-A
Un DVD contient bien plus de donnees
On etait dans l’infrarouge pour les CDs, on est dans les rouges pour les DVD-A D’ou le nom blu-ray
- DVD Forum, 2000
- 2 a 6 canaux
- $44.1 KHz$ a $192KHz$
- $16$, $20$, $24$ bits
- Majoritairement non compresse
- Cas extremes: Meridian Lossless Packing
- $\color{green}{\text{Sans perte}}$
- Lecture:
- Laser rouge
- Simple couche/double couche ($8.5Go$)
Incompatible DVD-VIDEO, CD AUDIO, CD-ROM
Super Audio CD
- Sony + Philips, 1999
- “Successeur du CD”
- 2 a 6 canaux
- $\color{red}{2.8224MHZ !?}$
- $\color{orange}{1\text{ bit ??}}$
LISIBLE PAR LA PS3 ???
Format DSD
Format PWM
- Approximation d’un signal analogique par des pulses
- Bruit de quantification $=V_{max}/2^N$
- Rappel PCM:
- Densite constante $=$
- Largeur pulses constante
- Amplitude variable
- Bruit audible (8 bits, 16 bits…)
- Reconstruction du signal
- Filtrage BF a $F_e/2$
- Densite constante $=$
- $\color{red}{\text{PMW: Pulse With Moderation}}$
- Densite variable $=$
- Largeur pulses variable
- Amplitude constante
- Reconstruction du signal:
- Integration
- +Filtrage BF
- Densite variable $=$
Inconvenients
- Electronique rapide
- Bruit max de quantification fort $[0\dots V_{max} / 2]$ !
Avantages
- Bruits de quantification tres haute frequence ($MHz$)
- Personne n’est capable de l’entendre
Inaudible !
- Qualite $++$
Filtrage BF simple
- Cout $–$
Compression numerique du son
L’audio non compresse,
Qualite CD
- 2 canaux, $44.1KHz$, $16$ bits
- Non compresse: $2\times 44.K * 2$
- $\color{red}{176.4 Ko/s = 1.411 Mb/s}$
- CD: 650 Mo data, $\sim 780 Mo$ audio
- $\Rightarrow 74$ min
- ADSL de 2000:
- $64 Kb/s$ a $45$ euros par mois: non
- $128 Kb/s$ a $90$ euros par mois: non
- $2 Mbits$ a $200$ euros par mois:
- $100\%$ du debit en audio
- “et mon internet ?”
- Aujourd’hui (fibre, 4G, 5G)
- Toujours pas mainstream
- Reste un service Premium (Deezer HiFi, Spotify HD, …)
Qualite “Home Cinema”
- $\ge 6$ canaux, $48KHz$, $16$ bits
- Non compresse: $6\times 48K* 2$
- $\color{red}{576 Ko/s = 4Mbit/s = 2Go/h}$
- Dvd: $4.9 Go$
- $\Rightarrow 2.5h$ de son
- pas de video !
- ADSL, mauvaise 4G: 8 Mbits
- 50\% du debit juste en audio
- Et le debit video ?
Injouable sans compresseur
Algorithmes temporels
Differential PCM (DPCM)
Hypothese: signal source stationnaire
- $=$ proprietes independantes dans le temps (esperance, variance)
- Ok avec des basses frequences
- (Pas sur en hautes frequences)
Principe: pas le sample PCM courant depend du precedent
- Codage des differences $\Rightarrow$ Differential PCM
Encodeur
- Memoriser les 2 valeurs consecutives
- Calcule la difference $\Rightarrow$ dynamique reduite
- Encodage du residu avec moins de bits
- Compression de $25\%$
Decodeur
- Accumule la valeur reconstruite courante
- Dequantifie le residu
- Signal reconstruit $=$ d’origine ?
- $\color{red}{NON!}$
- La quantification des differences induit de l’erreur $\color{red}{\text{qui s’accumule a la reconstruction}}$
DPCM in-loop
Encodeur ameliore
- Memorise deux valeurs consecutives
- Calcule la difference $\Rightarrow$ dynamique reduite
- Encodage sur moins de bits !
- Compression de $25\%$
- Calcule la valeur reconstruite en prevision du decodeur
Erreur de construction contenue
Decodeur
- Idem decodeur simple
Adaptive DPCM
Codage differentiel adaptatif
Encodeur
- Minimise l’erreur differentielle adaptativement:
- Prediction du signal courant avec les valeurs passees
- Polynome ordre $\sim 8$
- Quantification variable du residu
- 4 a 6 bits
- Compression de 75\%
- Prediction du signal courant avec les valeurs passees
Usages
- Multimedia (MS/IMA ADPCM, 44.1KHz, 4 bits)
- Telephonie ($G.721$ $8KHz$, $5-6$ bits)
Dans les DS et GBA, le son est exclusivement en ADPCM On se mange l’erreur de la compression
Raffinement: deux bandes de frequences
- Deux residus, deux debits
- Bande passante plus grande ($7KHz\Leftrightarrow F_e = 14 KHz$)
- $\Rightarrow G.722$ (VolP HQ, DECT HQ)
NICAM
Nearly Instantaneous Companded Audio Multiplex
- BBC, $\sim1986 \to 2012$, France $1995\to 2011$
- $32kHz$, $14$ bits stereo, $728Kbits/s$
- Codec multiplexe avec signal video analogique (QPSK)
Exemple: signal SECAM + NICAM @ 5.85 MHz
Filtrage BF luma: image plus floue :(
On ne peut pas faire rentrer plus que ce qui est possible dans un meme tuyau
Parenthese perceptuelle
Comment on percois le son ? Qu’entend l’oreille ?
Le son peut etre masque par d’autres sons
- Phenomene de masquage sonore temporel
Posterieur
Si on son $\color{red}{faible}$ suit un son $\color{green}{fort}$, l’oreille n’entend $\color{red}{\text{pas}}$ le son $\color{red}{faible}$
Est-ce qu’il y a un masquage anterieur ?
Oui !
Anterieur
Si on son $\color{green}{fort}$ suit un son $\color{red}{faible}$, l’oreille n’entend $\color{red}{\text{pas}}$ le son $\color{red}{faible}$ (non causal !)
Autant qu’on le deteste, notre cerveau un bien un temps de latence de traitement
$\Rightarrow$ Latence de perception des transitoires de dynamique
NICAM: Principe de fonctionnement
- Echantillonnage PCM 32 KHz 14 bits
- Decoupage en tranches de $1ms=32$ samples
- Pour chaque tranche:
- Prendre le plus grand sample $\Rightarrow$ sert de facteur d’echelle
- Quantifier a $10$ bits tous les samples
- Selon le facteur d’echelle (“Compand”)
- $\color{red}{Faible}$: enlever les bits de poids $\color{green}{forts}$ vides (petits signaux, pas de perte)
- $\color{green}{Fort}$: enlever les bits de poids $\color{red}{faibles}$ (signaux fortsm pertes “negligeable”)
Au pire: quantification forte et breve de petits signaux $\to$ RSB eleve
- Variations dynamiques et masquage temporels cachent la misere
Decodeur
- Dequantifier selon le facteur d’echelle
- CNA avec $1ms$ de latence (“Nearly instantaneous”)
Schematisation
Quantification Compand
Quantification non-lineaire : A-LAW
Contexte
- Proprietes temporelles de la voix:
- Peu de niveaux $\color{green}{forts}$
- Beaucoup de niveaux $\color{red}{faibles}$, silences
- Voix numerique: typiquement $8KHz/8$ bits
- Rappel numerisation PCM:
- Bruit de quantification uniforme
- Fort dans les niveaux $\color{red}{faibles}$, faible dans les niveaux $\color{green}{forts}$
- Autrement dit:
- PCM 8 bits degrade souvent la voix
- Quelles alternatives ?
Principe
Modifier la dynamique
- Augmenter les niveaux $\color{red}{faibles}$
- Baisser les niveaux $\color{green}{forts}$
Bruit de quantification remodele
Quelle fonction fait cela ?
\[F(x)=\text{sgn}(x)\begin{cases} \frac{A\vert x\vert}{1+\ln(A)}, &\vert x\vert\lt \frac{1}{A}\\ \frac{1+\ln(A\vert x\vert)}{1+\ln(A)}, &\frac{1}{A}\lt \vert x\vert \lt1 \end{cases}\]Loi logarithmique
En pratique
Analogiquement:
- Avant CAN + apres CNA
- Paquets numeriques: PCM 8 bits classiques
Numeriquement:
- Apres CAN PCM $\color{green}{HQ}$ (12 bits) + avant CNA PCM HQ
- Paquets numeriques: traitement A-Law $12\leftrightarrow 8$ bits
Resultat
On a inverse la tendance des erreurs
Erreur de quantification:
- Forte sur les signaux $\color{green}{forts}$
- Faible sur les signaux $\color{red}{faibles}$
Standard telephone $G.711$