Home TVID: L'audio numerique en pratique
Post
Cancel

TVID: L'audio numerique en pratique

Lien de la note Hackmd

Onde sonore

Le briques de base de la compression du son sont un peu differentes de celle de la video.

Perception du son

Qu’est-ce que c’est le son ?

Pour la perception:

  • Oreille humaine
  • Transducteur sonore $\Rightarrow$ signaux electriques
  • Trois parties:
    • Oreille externe: captation
    • Oreille moyenne: amplification
    • Oreille interne: transducteur

Oreille externe

  • Collecte et amplifie les sons
  • Localise les sons (pavillon, phase)
  • L’envoie dans le conduit auditif
  • Protege le tympa (cerumen)

Oreille moyenne

  • Vibration aerienne $\to$ solidienne (tympan)
    • Transformer les vibrations accoustiques en vibrations solides
  • Amplification: marteau / enclume / etrier
  • Protection niveaux forts (80dB): reflexe stapedien

Oreille interne

  • Transforme le signal en signal electrique
  • Vestibule: centre de l’equilibre
  • Cochlee: transforme les vibrations en signaux electriques
    • Recouverte de cellules cillees
    • Hautes Frequences en bas (debut)
    • Basses Frequences en haut (fin)
  • Membrane basilaire: filtre special parole meme en environnement bruyant

Accouphenes: cellules cillees petees qui envoient n’importe quoi Lie aux problemes de circulation du sang Aussi l’usure: on a ecoute des trucs trop forts

Specifications

  • Spectre: $20 HZ \to 20 KHz$
  • Perception d’intensite logarithmique
    • $dB = 3\times\log_2(ratio)$
    • $3 dB: \times2, 20 dB:\times 100$
    • Jusqu’a $120dB$ pour l’oreille
  • Seuils de perception minimale variables

Enregistrement du son

Analogique:

  • Transduction solide
  • Transduction magnetique

Numeriques:

  • Representations binaires
  • Nombreuses
    • Fete du string pour les formats

Transduction solide du son

Pionnier: phonographe, Thomas Edison, 1877

Thomas Edison avait compris que ca devait etre reproductible

Gramophone, Emile Berliner, 1886

  • Meme principe qe le Phonographe
  • Disque rotatif industrialisable
    • Carton (fragile)
    • Celluloid (inflammable)
    • Vinyle (compromis)
  • Vitesse angulaire constante: $78$ a $100$ rpm
  • Du bord vers le centre
  • Perte de qualite au centre
    • Perte de bande passante

Les microsillons reconstruisant le son:

En faisant les reflets qu’on voit sur un disque

Transduction magnetique du son

  • Assez coercitif
    • Coercitivite magnetique: resistance d’un milieu magnetique a se faire remagnetiser
    • Plus un milieu est coercitif, plus il est resistant

Comment ca se passe ?

  • Tete en anneau, magentisation horizontale
  • On a une bande magnetique qui defile
  • On induit ce champ magnetique qui polarise les particules
  • On a un signal accoustique qu’on a electrise et magnetise

Ecrite: Courant electrique $\to$ Champ magnetique Lecture: Champ magnetique $\to$ Courant electrique

Pionnier: Telegraphone a fil, Valdemar Poulsen (neerlandais), 1898

  • Magnetisation d’un fil de fer
  • Bande quelques minutes
  • $1^{er}$ enregistrement: Empereur Franz Josef d’Autriche, 1900
  • Evolution immediate: fil de fer $\to$ lame d’acier
  • Plus robuste, plus dangereux

Magnetophone a bande, BASF/AEG (allemands), 1930

Cassete 8 pistes, Ampex/RCA/MOTOROLA (US), 1963

On dirait une bobine mais elle s’enroule sur elle-meme

Quand on le mettais dans l’auto-radio (c’etait fait pour les voitures), ca rembobinait et ca jouait en boucle

Pourquoi 8 pistes ?

C’est en stereo en 4 voie, des qu’on arrive a la fin d’une piste, on saute 2 voies Il y a ~1h30 de musique

Compact Cassette, Philips (Neerlandais), 1963

Enregistrement numerique du son

Onde sinusoidale

  • Discretiser un signal continu periodiquement
  • $\Rightarrow$ Choix d’une frequence $F_e$

Theoreme de Shannon

Un signal est une somme de sinusoides:

  • La frequence la plus elevee est $f_{max}$
  • Echantillonner a $F_e$ est valide si
\[F_e\gt 2\times f_{max}\]

En dessous: aliasing

  • $=$ repliement de spectre
  • $=$ frequences parasites

Echantillonage

Quid de l’intensite ?

  • Sous-ensemble discret de valeur d’un espace contine ${0\to V_{max}}$
  • Idealement les valeurs quantifiees appartiennent a la courbe

Pas de quantification

Espace discret a $N$ valeurs $[0\dots V_{max}/N]$

  • En numerique: $N=2^M$ aec $M$: nombre de bits

  • $N$ petit $\to$ $\color{red}{e}$ eleve
  • $\color{orange}{Visible}$
  • $\color{red}{Audible}$

$\color{red}{e}$ d’un signal triangulaire

$\color{red}{e}$ d’un signal sinusoidal

Format PCM

  • Signal continu discretise en temps et en intensite
  • Via circuits CNA/ADC
  • Echantillonnage temporel a $F_e$
    • $F_e\ge 2f_{max}$
    • Sinon aliasing
  • Quantification d’intensite sur $N$ bits: $2^{N}$ valeurs
    • Erreur de quantification $e$
    • Dynamique $\simeq 6dB$ par bit ($16bits\simeq96 dB$)
  • Reconstruction
    • Via circuits CNA/DAC
    • Filtre passe-bas fort a $F_e/2$

Audio numerique non compresse

CD

  • Sony + Philips, 1982
  • Diametre: $12 cm$
  • PCM: $44.1KHz$, $16$ bits, stereoo
  • Debit: $2\times44100\times2=176.4Ko/s (1.411 Mb/s)$
  • Lecture:
    • Du centre vers le bord
    • Laser infrarouge
    • Vitesse lineaire constante $500\to200 rpm$
  • $74$ minutes de son $\Rightarrow 783Mo$
    • Peu de correction d’erreur
    • Pas grave…
  • Avec correction d’erreur: $650Mo$
    • $\Rightarrow$ CD-ROM (Read Only Memory)

DAT

  • Sony, 1987
  • 2 canaux PCM, $48KHz$, $16$ bites
  • Debit: $2\times 48000\times 2 = 192Ko/s (1.536 Mb/s)$
  • Lecture:
    • Bande magnetique
    • $\sim 50cm/min (8.15mm/s)$
    • $4mm$ d’epaisseur
  • Jusqu’a 3h par bande

Comment ?

  • $\Rightarrow$ Lecture hellicoidale
    • Tete rotative $2000rpm$
    • Inclinee
    • $\Rightarrow 3.15m/s$
    • Comme VHS
    • Et streamers (DDS, AIT, LTO, …)

DVD-A

On etait dans l’infrarouge pour les CDs, on est dans les rouges pour les DVD-A D’ou le nom blu-ray

  • DVD Forum, 2000
  • 2 a 6 canaux
  • $44.1 KHz$ a $192KHz$
  • $16$, $20$, $24$ bits
  • Majoritairement non compresse
  • Cas extremes: Meridian Lossless Packing
    • $\color{green}{\text{Sans perte}}$
  • Lecture:
    • Laser rouge
    • Simple couche/double couche ($8.5Go$)

Super Audio CD

  • Sony + Philips, 1999
  • “Successeur du CD”
  • 2 a 6 canaux
  • $\color{red}{2.8224MHZ !?}$
  • $\color{orange}{1\text{ bit ??}}$

Format PWM

  • Approximation d’un signal analogique par des pulses
  • Bruit de quantification $=V_{max}/2^N$
  • Rappel PCM:
    • Densite constante $=$
      • Largeur pulses constante
      • Amplitude variable
      • Bruit audible (8 bits, 16 bits…)
    • Reconstruction du signal
      • Filtrage BF a $F_e/2$

  • $\color{red}{\text{PMW: Pulse With Moderation}}$
    • Densite variable $=$
      • Largeur pulses variable
      • Amplitude constante
    • Reconstruction du signal:
      • Integration
      • +Filtrage BF

Inconvenients

  • Electronique rapide
  • Bruit max de quantification fort $[0\dots V_{max} / 2]$ !

Avantages

  • Bruits de quantification tres haute frequence ($MHz$)
    • Personne n’est capable de l’entendre

Compression numerique du son

L’audio non compresse,

Qualite CD

  • 2 canaux, $44.1KHz$, $16$ bits
  • Non compresse: $2\times 44.K * 2$
  • $\color{red}{176.4 Ko/s = 1.411 Mb/s}$
  • CD: 650 Mo data, $\sim 780 Mo$ audio
    • $\Rightarrow 74$ min
  • ADSL de 2000:
    • $64 Kb/s$ a $45$ euros par mois: non
    • $128 Kb/s$ a $90$ euros par mois: non
    • $2 Mbits$ a $200$ euros par mois:
      • $100\%$ du debit en audio
      • “et mon internet ?”
  • Aujourd’hui (fibre, 4G, 5G)
    • Toujours pas mainstream
    • Reste un service Premium (Deezer HiFi, Spotify HD, …)

Qualite “Home Cinema”

  • $\ge 6$ canaux, $48KHz$, $16$ bits
  • Non compresse: $6\times 48K* 2$
  • $\color{red}{576 Ko/s = 4Mbit/s = 2Go/h}$
  • Dvd: $4.9 Go$
    • $\Rightarrow 2.5h$ de son
    • pas de video !
  • ADSL, mauvaise 4G: 8 Mbits
    • 50\% du debit juste en audio
    • Et le debit video ?

Algorithmes temporels

Differential PCM (DPCM)

  • $=$ proprietes independantes dans le temps (esperance, variance)
  • Ok avec des basses frequences
  • (Pas sur en hautes frequences)
  • Codage des differences $\Rightarrow$ Differential PCM

Encodeur

  • Memoriser les 2 valeurs consecutives
  • Calcule la difference $\Rightarrow$ dynamique reduite
  • Encodage du residu avec moins de bits
  • Compression de $25\%$

Decodeur

  • Accumule la valeur reconstruite courante
  • Dequantifie le residu
  • Signal reconstruit $=$ d’origine ?
  • $\color{red}{NON!}$
  • La quantification des differences induit de l’erreur $\color{red}{\text{qui s’accumule a la reconstruction}}$

DPCM in-loop

Encodeur ameliore

  • Memorise deux valeurs consecutives
  • Calcule la difference $\Rightarrow$ dynamique reduite
  • Encodage sur moins de bits !
  • Compression de $25\%$
  • Calcule la valeur reconstruite en prevision du decodeur

Decodeur

  • Idem decodeur simple

Adaptive DPCM

Encodeur

  • Minimise l’erreur differentielle adaptativement:
    • Prediction du signal courant avec les valeurs passees
      • Polynome ordre $\sim 8$
    • Quantification variable du residu
      • 4 a 6 bits
    • Compression de 75\%

Usages

  • Multimedia (MS/IMA ADPCM, 44.1KHz, 4 bits)
  • Telephonie ($G.721$ $8KHz$, $5-6$ bits)

Dans les DS et GBA, le son est exclusivement en ADPCM On se mange l’erreur de la compression

Raffinement: deux bandes de frequences

  • Deux residus, deux debits
  • Bande passante plus grande ($7KHz\Leftrightarrow F_e = 14 KHz$)
  • $\Rightarrow G.722$ (VolP HQ, DECT HQ)

NICAM

  • BBC, $\sim1986 \to 2012$, France $1995\to 2011$
  • $32kHz$, $14$ bits stereo, $728Kbits/s$
  • Codec multiplexe avec signal video analogique (QPSK)

Exemple: signal SECAM + NICAM @ 5.85 MHz

Filtrage BF luma: image plus floue :(

On ne peut pas faire rentrer plus que ce qui est possible dans un meme tuyau

Parenthese perceptuelle

Comment on percois le son ? Qu’entend l’oreille ?

Le son peut etre masque par d’autres sons

  • Phenomene de masquage sonore temporel

Est-ce qu’il y a un masquage anterieur ?

Oui !

Autant qu’on le deteste, notre cerveau un bien un temps de latence de traitement

$\Rightarrow$ Latence de perception des transitoires de dynamique

NICAM: Principe de fonctionnement

  • Echantillonnage PCM 32 KHz 14 bits
  • Decoupage en tranches de $1ms=32$ samples
  • Pour chaque tranche:
    • Prendre le plus grand sample $\Rightarrow$ sert de facteur d’echelle
    • Quantifier a $10$ bits tous les samples
    • Selon le facteur d’echelle (“Compand”)
    • $\color{red}{Faible}$: enlever les bits de poids $\color{green}{forts}$ vides (petits signaux, pas de perte)
    • $\color{green}{Fort}$: enlever les bits de poids $\color{red}{faibles}$ (signaux fortsm pertes “negligeable”)

Au pire: quantification forte et breve de petits signaux $\to$ RSB eleve

  • Variations dynamiques et masquage temporels cachent la misere

Decodeur

  • Dequantifier selon le facteur d’echelle
  • CNA avec $1ms$ de latence (“Nearly instantaneous”)

Schematisation

Quantification Compand

Quantification non-lineaire : A-LAW

Contexte

  • Proprietes temporelles de la voix:
    • Peu de niveaux $\color{green}{forts}$
    • Beaucoup de niveaux $\color{red}{faibles}$, silences
    • Voix numerique: typiquement $8KHz/8$ bits
  • Rappel numerisation PCM:
    • Bruit de quantification uniforme
    • Fort dans les niveaux $\color{red}{faibles}$, faible dans les niveaux $\color{green}{forts}$
  • Autrement dit:
    • PCM 8 bits degrade souvent la voix
    • Quelles alternatives ?

Principe

Modifier la dynamique

  • Augmenter les niveaux $\color{red}{faibles}$
  • Baisser les niveaux $\color{green}{forts}$

Quelle fonction fait cela ?

Loi logarithmique

\[F(x)=\text{sgn}(x)\begin{cases} \frac{A\vert x\vert}{1+\ln(A)}, &\vert x\vert\lt \frac{1}{A}\\ \frac{1+\ln(A\vert x\vert)}{1+\ln(A)}, &\frac{1}{A}\lt \vert x\vert \lt1 \end{cases}\]

En pratique

Analogiquement:

  • Avant CAN + apres CNA
  • Paquets numeriques: PCM 8 bits classiques

Numeriquement:

  • Apres CAN PCM $\color{green}{HQ}$ (12 bits) + avant CNA PCM HQ
  • Paquets numeriques: traitement A-Law $12\leftrightarrow 8$ bits

Resultat

Erreur de quantification:

  • Forte sur les signaux $\color{green}{forts}$
  • Faible sur les signaux $\color{red}{faibles}$

Standard telephone $G.711$

This post is licensed under CC BY 4.0 by the author.