Lien de la note Hackmd

Onde sonore

Le briques de base de la compression du son sont un peu differentes de celle de la video.

Perception du son

Qu'est-ce que c'est le son ?

Onde sonore
Variations de pressions convoyees par un milieu gazeux

Pour la perception:

Oreille humaine
Transducteur sonore
$\Rightarrow$ signaux electriques
Trois parties:
- Oreille externe: captation
- Oreille moyenne: amplification
- Oreille interne: transducteur

Oreille externe

Collecte et amplifie les sons
Localise les sons (pavillon, phase)
L'envoie dans le conduit auditif
Protege le tympa (cerumen)

Oreille moyenne

Vibration aerienne
$\to$ solidienne (tympan)
- Transformer les vibrations accoustiques en vibrations solides
Amplification: marteau / enclume / etrier
Protection niveaux forts (80dB): reflexe stapedien

Oreille interne

Transforme le signal en signal electrique
Vestibule: centre de l'equilibre
Cochlee: transforme les vibrations en signaux electriques
- Recouverte de cellules cillees
- Hautes Frequences en bas (debut)
- Basses Frequences en haut (fin)
Membrane basilaire: filtre special parole meme en environnement bruyant

Accouphenes: cellules cillees petees qui envoient n'importe quoi
Lie aux problemes de circulation du sang
Aussi l'usure: on a ecoute des trucs trop forts

Specifications

Spectre:
$20 H Z \to 20 K H z$
Perception d'intensite logarithmique
- $d B = 3 \times \log_{2} (r a t i o)$
- $3 d B : \times 2, 20 d B : \times 100$
- Jusqu'a
  $120 d B$ pour l'oreille
Seuils de perception minimale variables

Enregistrement du son

Objectif
Capter les variations acoustique dans un materiau

Analogique:

Transduction solide
Transduction magnetique

Numeriques:

Representations binaires
Nombreuses
- Fete du string pour les formats

Transduction solide du son

Principe

Amplifier l'onde avec un pavillon
Graver l'onde dnas un materiau par un mobile

Pionnier: phonographe, Thomas Edison, 1877

En verite, c'est un francais, Edouard-Leon Scott de Martinville, 1860 le pionner avec le Phonautographe

On ne pouvait que ecrire, relire detruisais le charbon qu'il utilisait pour graver

On a reussi a reconstruire un de ses enregistrements ou il chante au clair de la lune

a̷̙͔̳̹̱̭͔̲̺̳͉̪̰̼͂̀̈́͑̓̆͂͌̓̀̈́͐̒͐̂͛͑͒̑͑̕͝ų̸̨̼̼̫̙͔̳̺̖̯̳̼̳͓̪̪̫͔͖̘̤̜̒̅̉̾̈́͌̍́̚̕͜͜͝ ̴̹̥̝̺̫̘̬̩͓̣͈̔͑c̶̲̠̥̫͓̠̋͜͜͜ļ̶̡̧̨̛͔̟̥̜͚͚̗̪̱͍͈͎͖̪̣̣͕̩͕̩͔̭͖̟͚͗̉̇̆̃̇̊̀̓́̔̈͆̾̅̏̍̀̑́̔̍̐̿̆̕̕̚͜͠ͅͅą̸̡̢̧̟͇͚̣̲̜͉͓̺̫̭̟̖̘̝̞̼̙̞̭̭͎͚̤̙̺̠͒́͑͛̅̀̓͗̽̑̆͑̀͂͂͂î̴̢̨̨̡͉̞̘̘͕̖̤̮̱͚̝̘̺̅́̄̿͂͜͜ř̷̛̛͈͚̥̭̖̭͉̺͓̰͚͎̳̹̟̜͔̭̖̰̥̖̈́̈́̆̿̂̽̂̔̾̈́̃͂͛̓̑͋̒͋̎̆̈́́̓̓̀̆͋͜͜͠͝ ̴̢̧̡̡̛̪̯̞̞͈̖̜̻̺͓̥̭̝̥̘̝̖̰̠̩̱̬̼͙̗͈̳̳̝͉̗̩͒͆̿̇̓̌͌̅̈̒̑̽̈̎̈̅̾̓̒̀̄̓̊͗̂̈́͆͌̚̕͜͝͝͝͝ͅd̸̢̺̞̦͇̘̙̪͖̻͎͚̺͕̼͓̦̲͖̩̝̫̠͑̈̔́̀̒̂̀͋̐̈́̓̈́̔̽̓̏̅̐͊̑͜͝ͅe̶̳͉̼͎͉̯͍̿̍͛́͂̑̓̑͒̀̏̈́̚͝ ̶̢̪̻̘͓̹̰̬̥͚̟̻̝͚͍͎͍̗̲̩̦̪̣̦͉͈̩̯̤͕̟͙̝̙͒̈́̍̒̔̍̈́̄̌͋̑͋̄͗͐̽̅͑̋͗̏̈́͊̾̏̒̈́̈́̎̿̍̄̚̚̕͜͜͝͝͝͝ͅl̵̡̖̹̟͚̞͈̙̘̗͈̭͍̲͉̩̥̙͖̻͓̼͚̱͎͖̤̝̺̱̺͍̲̰̯̥̊̆̉́̔͐̒̋͒̂̌̈́̒̄̄̚̚̚ā̶̢̢̨̡̭̝̺̙͖͎͖̣̘̯̤͓̺̞̠͇͙͈̦̻̘͔̭̮̝͓̪̘́̃̀̀̊̓͂̓̐͐́̎̽ͅ ̴̨̧̢̭̳̗̮͔͈͎̘͙̣̠̝̙͋̔̑́́͒̓͂̑̈̈̌̆̏͒̑͋̔̂͑̈́͂̕̚͝͠͝l̵̛̛̬̥͓͇͇͖̈̾͗́̍̊̆̅̏̄̓̐̍̉̐͛͂͛͋̓͂̋͐͑̑́̅̍͒̆̕̚̕̚͠͠͝ū̸̡̡̨͙̱͙̩͖̠̼̳̮͎̞̪͉̮̩̮̭̝̝̦̬̹̳͍̰̙̟̪͕̥̰̬̠̙̰̉͊ͅͅn̶̨̡̢̛̬͓͕͙̳̘̣̗͍̲̣̮̬̞͔̞̬̣͙͕̘̦͐́̒̂̀̓͒̊̈́̿̑̈́̐̏͛͋̚͝͝ͅȩ̵̙̬̜͔̳͍̹̣̪̦̮̮̰̮̫̤̻̳̗̦͕̰̝̪̣͎̄̿̅̏̉͋̽́̐͝͝͝

Thomas Edison avait compris que ca devait etre reproductible

Gramophone, Emile Berliner, 1886

Meme principe qe le Phonographe
Disque rotatif industrialisable
- Carton (fragile)
- Celluloid (inflammable)
- Vinyle (compromis)
Vitesse angulaire constante:
$78$ a
$100$ rpm
Du bord vers le centre
Perte de qualite au centre
- Perte de bande passante

Les microsillons reconstruisant le son:

En faisant les reflets qu'on voit sur un disque

Transduction magnetique du son

Principe

Onde accoustique
$\to$ signal electrique
Signal electrique
$\to$ champ magnetique
Polariser un substrat magnetisable

Assez coercitif
- Coercitivite magnetique: resistance d'un milieu magnetique a se faire remagnetiser
- Plus un milieu est coercitif, plus il est resistant

Comment ca se passe ?

Tete en anneau, magentisation horizontale
On a une bande magnetique qui defile
On induit ce champ magnetique qui polarise les particules
On a un signal accoustique qu'on a electrise et magnetise

Ecrite: Courant electrique

\to

Champ magnetique
Lecture: Champ magnetique

\to

Courant electrique

Pionnier: Telegraphone a fil, Valdemar Poulsen (neerlandais), 1898

Magnetisation d'un fil de fer
Bande quelques minutes
$1^{e r}$ enregistrement: Empereur Franz Josef d'Autriche, 1900
Evolution immediate: fil de fer
$\to$ lame d'acier
Plus robuste, plus dangereux

Magnetophone a bande, BASF/AEG (allemands), 1930

Cassete 8 pistes, Ampex/RCA/MOTOROLA (US), 1963

On dirait une bobine mais elle s'enroule sur elle-meme

Lecture sans fin !

Quand on le mettais dans l'auto-radio (c'etait fait pour les voitures), ca rembobinait et ca jouait en boucle

Pourquoi 8 pistes ?

C'est en stereo en 4 voie, des qu'on arrive a la fin d'une piste, on saute 2 voies
Il y a ~1h30 de musique

Compact Cassette, Philips (Neerlandais), 1963

Enregistrement numerique du son

Onde sinusoidale

Une onde sinusoidale est:

continue dans le temps
continue en intensite

Discretiser un signal continu periodiquement
$\Rightarrow$ Choix d'une frequence
$F_{e}$

Theoreme de Shannon

Un signal est une somme de sinusoides:

La frequence la plus elevee est
$f_{m a x}$
Echantillonner a
$F_{e}$ est valide si

F_{e} > 2 \times f_{m a x}

En dessous: aliasing

$=$ repliement de spectre
$=$ frequences parasites

Echantillonage

Signal echantillone en intervalles reguliers

Quid de l'intensite ?

Sous-ensemble discret de valeur d'un espace contine
${0 \to V_{m a x}}$
Idealement les valeurs quantifiees appartiennent a la courbe

Sauf que non

Pas de quantification

Espace discret a

N

valeurs

[0 \dots V_{m a x} / N]

En numerique:
$N = 2^{M}$ aec
$M$ : nombre de bits

Erreur de quantification

e

0 < e < V_{m a x} / 2^{M}

Erreur de quantification inevitable

$N$ petit
$\to$
$\color r e d e$ eleve
$\color o r a n g e V i s i b l e$
$\color r e d A u d i b l e$

$\color r e d e$ d'un signal triangulaire

$\color r e d e$ d'un signal sinusoidal

Format PCM

Pulse Coded Modulation

Signal continu discretise en temps et en intensite
Via circuits CNA/ADC
Echantillonnage temporel a
$F_{e}$
- $F_{e} \geq 2 f_{m a x}$
- Sinon aliasing
Quantification d'intensite sur
$N$ bits:
$2^{N}$ valeurs
- Erreur de quantification
  $e$
- Dynamique
  $≃ 6 d B$ par bit (
  $16 b i t s ≃ 96 d B$ )
Reconstruction
- Via circuits CNA/DAC
- Filtre passe-bas fort a
  $F_{e} / 2$

Audio numerique non compresse

CD

Sony + Philips, 1982
Diametre:
$12 c m$
PCM:
$44.1 K H z$ ,
$16$ bits, stereoo
Debit:
$2 \times 44100 \times 2 = 176.4 K o / s (1.411 M b / s)$
Lecture:
- Du centre vers le bord
- Laser infrarouge
- Vitesse lineaire constante
  $500 \to 200 r p m$
$74$ minutes de son
$\Rightarrow 783 M o$
- Peu de correction d'erreur
- Pas grave…
Avec correction d'erreur:
$650 M o$
- $\Rightarrow$ CD-ROM (Read Only Memory)

DAT

Sony, 1987
2 canaux PCM,
$48 K H z$ ,
$16$ bites
Debit:
$2 \times 48000 \times 2 = 192 K o / s (1.536 M b / s)$
Lecture:
- Bande magnetique
- $\sim 50 c m / m i n (8.15 m m / s)$
- $4 m m$ d'epaisseur
Jusqu'a 3h par bande

Comment ?

$\Rightarrow$ Lecture hellicoidale
- Tete rotative
  $2000 r p m$
- Inclinee
- $\Rightarrow 3.15 m / s$
- Comme VHS
- Et streamers (DDS, AIT, LTO, …)

DVD-A

Un DVD contient bien plus de donnees

On etait dans l'infrarouge pour les CDs, on est dans les rouges pour les DVD-A
D'ou le nom blu-ray

DVD Forum, 2000
2 a 6 canaux
$44.1 K H z$ a
$192 K H z$
$16$ ,
$20$ ,
$24$ bits
Majoritairement non compresse
Cas extremes: Meridian Lossless Packing
- $\color g r e e n Sans perte$
Lecture:
- Laser rouge
- Simple couche/double couche (
  $8.5 G o$ )

Incompatible DVD-VIDEO, CD AUDIO, CD-ROM

Super Audio CD

Sony + Philips, 1999
"Successeur du CD"
2 a 6 canaux
$\color r e d 2.8224 M H Z! ?$
$\color o r a n g e 1 bit ??$

LISIBLE PAR LA PS3 ???

Format DSD

Format PWM

Approximation d'un signal analogique par des pulses
Bruit de quantification
$= V_{m a x} / 2^{N}$
Rappel PCM:
- Densite constante
  $=$
  - Largeur pulses constante
  - Amplitude variable
  - Bruit audible (8 bits, 16 bits…)
- Reconstruction du signal
  - Filtrage BF a
    $F_{e} / 2$

$\color r e d PMW: Pulse With Moderation$
- Densite variable
  $=$
  - Largeur pulses variable
  - Amplitude constante
- Reconstruction du signal:
  - Integration
  - +Filtrage BF

Inconvenients

Electronique rapide
Bruit max de quantification fort
$[0 \dots V_{m a x} / 2]$ !

Avantages

Bruits de quantification tres haute frequence (
$M H z$ )
- Personne n'est capable de l'entendre

Inaudible !

Qualite
$+ +$

Filtrage BF simple

Cout
$- -$

Compression numerique du son

L'audio non compresse,

Qualite CD

2 canaux,
$44.1 K H z$ ,
$16$ bits
Non compresse:
$2 \times 44. K \* 2$
$\color r e d 176.4 K o / s = 1.411 M b / s$
CD: 650 Mo data,
$\sim 780 M o$ audio
- $\Rightarrow 74$ min
ADSL de 2000:
- $64 K b / s$ a
  $45$ euros par mois: non
- $128 K b / s$ a
  $90$ euros par mois: non
- $2 M b i t s$ a
  $200$ euros par mois:
  - $100 %$ du debit en audio
  - "et mon internet ?"
Aujourd'hui (fibre, 4G, 5G)
- Toujours pas mainstream
- Reste un service Premium (Deezer HiFi, Spotify HD, …)

Qualite "Home Cinema"

$\geq 6$ canaux,
$48 K H z$ ,
$16$ bits
Non compresse:
$6 \times 48 K \* 2$
$\color r e d 576 K o / s = 4 M b i t / s = 2 G o / h$
Dvd:
$4.9 G o$
- $\Rightarrow 2.5 h$ de son
- pas de video !
ADSL, mauvaise 4G: 8 Mbits
- 50% du debit juste en audio
- Et le debit video ?

Injouable sans compresseur

Algorithmes temporels

Differential PCM (DPCM)

Hypothese: signal source stationnaire

$=$ proprietes independantes dans le temps (esperance, variance)
Ok avec des basses frequences
(Pas sur en hautes frequences)

Principe: pas le sample PCM courant depend du precedent

Codage des differences
$\Rightarrow$ Differential PCM

Encodeur

Memoriser les 2 valeurs consecutives
Calcule la difference
$\Rightarrow$ dynamique reduite
Encodage du residu avec moins de bits
Compression de
$25 %$

Decodeur

Accumule la valeur reconstruite courante
Dequantifie le residu
Signal reconstruit
$=$ d'origine ?
$\color r e d N O N!$
La quantification des differences induit de l'erreur
$\color r e d qui s'accumule a la reconstruction$

DPCM in-loop

Encodeur ameliore

Memorise deux valeurs consecutives
Calcule la difference
$\Rightarrow$ dynamique reduite
Encodage sur moins de bits !
Compression de
$25 %$
Calcule la valeur reconstruite en prevision du decodeur

Erreur de construction contenue

Decodeur

Idem decodeur simple

Adaptive DPCM

Codage differentiel adaptatif

Encodeur

Minimise l'erreur differentielle adaptativement:
- Prediction du signal courant avec les valeurs passees
  - Polynome ordre
    $\sim 8$
- Quantification variable du residu
  - 4 a 6 bits
- Compression de 75%

Usages

Multimedia (MS/IMA ADPCM, 44.1KHz, 4 bits)
Telephonie (
$G .721$
$8 K H z$ ,
$5 - 6$ bits)

Dans les DS et GBA, le son est exclusivement en ADPCM
On se mange l'erreur de la compression

Raffinement: deux bandes de frequences

Deux residus, deux debits
Bande passante plus grande (
$7 K H z \Leftrightarrow F_{e} = 14 K H z$ )
$\Rightarrow G .722$ (VolP HQ, DECT HQ)

NICAM

Nearly Instantaneous Companded Audio Multiplex

BBC,
$\sim 1986 \to 2012$ , France
$1995 \to 2011$
$32 k H z$ ,
$14$ bits stereo,
$728 K b i t s / s$
Codec multiplexe avec signal video analogique (QPSK)

Exemple: signal SECAM + NICAM @ 5.85 MHz

Filtrage BF luma: image plus floue :(

On ne peut pas faire rentrer plus que ce qui est possible dans un meme tuyau

Parenthese perceptuelle

Comment on percois le son ? Qu'entend l'oreille ?

Le son peut etre masque par d'autres sons

Phenomene de masquage sonore temporel

Posterieur

Si on son

\color r e d f a i b l e

suit un son

\color g r e e n f o r t

, l'oreille n'entend

\color r e d pas

le son

\color r e d f a i b l e

Est-ce qu'il y a un masquage anterieur ?

Oui !

Anterieur

Si on son

\color g r e e n f o r t

suit un son

\color r e d f a i b l e

, l'oreille n'entend

\color r e d pas

le son

\color r e d f a i b l e

(non causal !)

Autant qu'on le deteste, notre cerveau un bien un temps de latence de traitement

\Rightarrow

Latence de perception des transitoires de dynamique

NICAM: Principe de fonctionnement

Echantillonnage PCM 32 KHz 14 bits
Decoupage en tranches de
$1 m s = 32$ samples
Pour chaque tranche:
- Prendre le plus grand sample
  $\Rightarrow$ sert de facteur d'echelle
- Quantifier a
  $10$ bits tous les samples
- Selon le facteur d'echelle ("Compand")
- $\color r e d F a i b l e$ : enlever les bits de poids
  $\color g r e e n f o r t s$ vides (petits signaux, pas de perte)
- $\color g r e e n F o r t$ : enlever les bits de poids
  $\color r e d f a i b l e s$ (signaux fortsm pertes "negligeable")

Au pire: quantification forte et breve de petits signaux

\to

RSB eleve

Variations dynamiques et masquage temporels cachent la misere

Decodeur

Dequantifier selon le facteur d'echelle
CNA avec
$1 m s$ de latence ("Nearly instantaneous")

Schematisation

Quantification Compand

Quantification non-lineaire : A-LAW

Contexte

Proprietes temporelles de la voix:
- Peu de niveaux
  $\color g r e e n f o r t s$
- Beaucoup de niveaux
  $\color r e d f a i b l e s$ , silences
- Voix numerique: typiquement
  $8 K H z / 8$ bits
Rappel numerisation PCM:
- Bruit de quantification uniforme
- Fort dans les niveaux
  $\color r e d f a i b l e s$ , faible dans les niveaux
  $\color g r e e n f o r t s$
Autrement dit:
- PCM 8 bits degrade souvent la voix
- Quelles alternatives ?

Principe

Modifier la dynamique

Augmenter les niveaux
$\color r e d f a i b l e s$
Baisser les niveaux
$\color g r e e n f o r t s$

Bruit de quantification remodele

Quelle fonction fait cela ?

Loi logarithmique

F (x) = sgn (x) {\begin{cases} \frac{A | x |}{1 + \ln (A)}, & | x | < \frac{1}{A} \\ \frac{1 + \ln (A | x |)}{1 + \ln (A)}, & \frac{1}{A} < | x | < 1 \end{cases}

En pratique

Analogiquement:

Avant CAN + apres CNA
Paquets numeriques: PCM 8 bits classiques

Numeriquement:

Apres CAN PCM
$\color g r e e n H Q$ (12 bits) + avant CNA PCM HQ
Paquets numeriques: traitement A-Law
$12 \leftrightarrow 8$ bits

Resultat

On a inverse la tendance des erreurs

Erreur de quantification:

Forte sur les signaux
$\color g r e e n f o r t s$
Faible sur les signaux
$\color r e d f a i b l e s$

Standard telephone

G .711

Onde sonore

Perception du son

Oreille externe

Oreille moyenne

Oreille interne

Specifications

Enregistrement du son

Transduction solide du son

Transduction magnetique du son

Enregistrement numerique du son

Onde sinusoidale

Theoreme de Shannon

Echantillonage

Pas de quantification

\colorrede d'un signal triangulaire

\colorrede d'un signal sinusoidal

Format PCM

Audio numerique non compresse

CD

DAT

DVD-A

Super Audio CD

Format PWM

Inconvenients

Avantages

Compression numerique du son

Qualite CD

Qualite "Home Cinema"

Algorithmes temporels

Differential PCM (DPCM)

DPCM in-loop

Adaptive DPCM

NICAM

Parenthese perceptuelle

NICAM: Principe de fonctionnement

Schematisation

Quantification Compand

Quantification non-lineaire : A-LAW

Contexte

Principe

En pratique

Resultat

$\color r e d e$ d'un signal triangulaire

$\color r e d e$ d'un signal sinusoidal