Lien de la note Hackmd
Onde sonore Le briques de base de la compression du son sont un peu differentes de celle de la video.
Perception du son Qu'est-ce que c'est le son ?
Onde sonore
Variations de pressions convoyees par un milieu gazeux
Pour la perception:
Oreille humaine
Transducteur sonore
signaux electriques
Trois parties:
Oreille externe: captation
Oreille moyenne: amplification
Oreille interne: transducteur
Oreille externe
Collecte et amplifie les sons
Localise les sons (pavillon, phase)
L'envoie dans le conduit auditif
Protege le tympa (cerumen)
Oreille moyenne
Vibration aerienne
solidienne (tympan)
Transformer les vibrations accoustiques en vibrations solides
Amplification: marteau / enclume / etrier
Protection niveaux forts (80dB): reflexe stapedien
Oreille interne
Transforme le signal en signal electrique
Vestibule: centre de l'equilibre
Cochlee: transforme les vibrations en signaux electriques
Recouverte de cellules cillees
Hautes Frequences en bas (debut)
Basses Frequences en haut (fin)
Membrane basilaire: filtre special parole meme en environnement bruyant
Accouphenes: cellules cillees petees qui envoient n'importe quoi
Lie aux problemes de circulation du sang
Aussi l'usure: on a ecoute des trucs trop forts
Specifications
Spectre:
Perception d'intensite logarithmique
Seuils de perception minimale variables
Enregistrement du son
Objectif
Capter les variations acoustique dans un materiau
Analogique:
Transduction solide
Transduction magnetique
Numeriques:
Representations binaires
Nombreuses
Fete du string pour les formats
Transduction solide du son
Principe
Amplifier l'onde avec un pavillon
Graver l'onde dnas un materiau par un mobile
Pionnier: phonographe , Thomas Edison, 1877
En verite, c'est un francais, Edouard-Leon Scott de Martinville, 1860 le pionner avec le Phonautographe
On ne pouvait que ecrire, relire detruisais le charbon qu'il utilisait pour graver
On a reussi a reconstruire un de ses enregistrements ou il chante au clair de la lune
a̷̙͔̳̹̱̭͔̲̺̳͉̪̰̼͂̀̈́͑̓̆͂͌̓̀̈́͐̒͐̂͛͑͒̑͑̕͝ų̸̨̼̼̫̙͔̳̺̖̯̳̼̳͓̪̪̫͔͖̘̤̜̒̅̉̾̈́͌̍́̚̕͜͜͝ ̴̹̥̝̺̫̘̬̩͓̣͈̔͑c̶̲̠̥̫͓̠̋͜͜͜ļ̶̡̧̨̛͔̟̥̜͚͚̗̪̱͍͈͎͖̪̣̣͕̩͕̩͔̭͖̟͚͗̉̇̆̃̇̊̀̓́̔̈͆̾̅̏̍̀̑́̔̍̐̿̆̕̕̚͜͠ͅͅą̸̡̢̧̟͇͚̣̲̜͉͓̺̫̭̟̖̘̝̞̼̙̞̭̭͎͚̤̙̺̠͒́͑͛̅̀̓͗̽̑̆͑̀͂͂͂î̴̢̨̨̡͉̞̘̘͕̖̤̮̱͚̝̘̺̅́̄̿͂͜͜ř̷̛̛͈͚̥̭̖̭͉̺͓̰͚͎̳̹̟̜͔̭̖̰̥̖̈́̈́̆̿̂̽̂̔̾̈́̃͂͛̓̑͋̒͋̎̆̈́́̓̓̀̆͋͜͜͠͝ ̴̢̧̡̡̛̪̯̞̞͈̖̜̻̺͓̥̭̝̥̘̝̖̰̠̩̱̬̼͙̗͈̳̳̝͉̗̩͒͆̿̇̓̌͌̅̈̒̑̽̈̎̈̅̾̓̒̀̄̓̊͗̂̈́͆͌̚̕͜͝͝͝͝ͅd̸̢̺̞̦͇̘̙̪͖̻͎͚̺͕̼͓̦̲͖̩̝̫̠͑̈̔́̀̒̂̀͋̐̈́̓̈́̔̽̓̏̅̐͊̑͜͝ͅe̶̳͉̼͎͉̯͍̿̍͛́͂̑̓̑͒̀̏̈́̚͝ ̶̢̪̻̘͓̹̰̬̥͚̟̻̝͚͍͎͍̗̲̩̦̪̣̦͉͈̩̯̤͕̟͙̝̙͒̈́̍̒̔̍̈́̄̌͋̑͋̄͗͐̽̅͑̋͗̏̈́͊̾̏̒̈́̈́̎̿̍̄̚̚̕͜͜͝͝͝͝ͅl̵̡̖̹̟͚̞͈̙̘̗͈̭͍̲͉̩̥̙͖̻͓̼͚̱͎͖̤̝̺̱̺͍̲̰̯̥̊̆̉́̔͐̒̋͒̂̌̈́̒̄̄̚̚̚ā̶̢̢̨̡̭̝̺̙͖͎͖̣̘̯̤͓̺̞̠͇͙͈̦̻̘͔̭̮̝͓̪̘́̃̀̀̊̓͂̓̐͐́̎̽ͅ ̴̨̧̢̭̳̗̮͔͈͎̘͙̣̠̝̙͋̔̑́́͒̓͂̑̈̈̌̆̏͒̑͋̔̂͑̈́͂̕̚͝͠͝l̵̛̛̬̥͓͇͇͖̈̾͗́̍̊̆̅̏̄̓̐̍̉̐͛͂͛͋̓͂̋͐͑̑́̅̍͒̆̕̚̕̚͠͠͝ū̸̡̡̨͙̱͙̩͖̠̼̳̮͎̞̪͉̮̩̮̭̝̝̦̬̹̳͍̰̙̟̪͕̥̰̬̠̙̰̉͊ͅͅn̶̨̡̢̛̬͓͕͙̳̘̣̗͍̲̣̮̬̞͔̞̬̣͙͕̘̦͐́̒̂̀̓͒̊̈́̿̑̈́̐̏͛͋̚͝͝ͅȩ̵̙̬̜͔̳͍̹̣̪̦̮̮̰̮̫̤̻̳̗̦͕̰̝̪̣͎̄̿̅̏̉͋̽́̐͝͝͝
Thomas Edison avait compris que ca devait etre reproductible
Gramophone , Emile Berliner, 1886
Meme principe qe le Phonographe
Disque rotatif industrialisable
Carton (fragile)
Celluloid (inflammable)
Vinyle (compromis)
Vitesse angulaire constante:
a
rpm
Du bord vers le centre
Perte de qualite au centre
Les microsillons reconstruisant le son:
En faisant les reflets qu'on voit sur un disque
Transduction magnetique du son
Principe
Onde accoustique
signal electrique
Signal electrique
champ magnetique
Polariser un substrat magnetisable
Assez coercitif
Coercitivite magnetique: resistance d'un milieu magnetique a se faire remagnetiser
Plus un milieu est coercitif, plus il est resistant
Comment ca se passe ?
Tete en anneau, magentisation horizontale
On a une bande magnetique qui defile
On induit ce champ magnetique qui polarise les particules
On a un signal accoustique qu'on a electrise et magnetise
Ecrite: Courant electrique
Champ magnetique
Lecture: Champ magnetique
Courant electrique
Pionnier: Telegraphone a fil , Valdemar Poulsen (neerlandais), 1898
Magnetisation d'un fil de fer
Bande quelques minutes
enregistrement: Empereur Franz Josef d'Autriche, 1900
Evolution immediate: fil de fer
lame d'acier
Plus robuste, plus dangereux
Magnetophone a bande , BASF/AEG (allemands), 1930
Cassete 8 pistes , Ampex/RCA/MOTOROLA (US), 1963
On dirait une bobine mais elle s'enroule sur elle-meme
Quand on le mettais dans l'auto-radio (c'etait fait pour les voitures), ca rembobinait et ca jouait en boucle
Pourquoi 8 pistes ?
C'est en stereo en 4 voie, des qu'on arrive a la fin d'une piste, on saute 2 voies
Il y a ~1h30 de musique
Compact Cassette , Philips (Neerlandais), 1963
Enregistrement numerique du son Onde sinusoidale
Une onde sinusoidale est:
continue dans le temps
continue en intensite
Discretiser un signal continu periodiquement
Choix d'une frequence
Theoreme de Shannon Un signal est une somme de sinusoides:
La frequence la plus elevee est
Echantillonner a
est valide si
En dessous: aliasing
repliement de spectre
frequences parasites
Echantillonage
Signal echantillone en intervalles reguliers
Quid de l'intensite ?
Sous-ensemble discret de valeur d'un espace contine
Idealement les valeurs quantifiees appartiennent a la courbe
Pas de quantification Espace discret a
valeurs
En numerique:
aec
: nombre de bits
Erreur de quantification inevitable
d'un signal triangulaire
d'un signal sinusoidal
Signal continu discretise en temps et en intensite
Via circuits CNA/ADC
Echantillonnage temporel a
Quantification d'intensite sur
bits:
valeurs
Erreur de quantification
Dynamique
par bit (
)
Reconstruction
Via circuits CNA/DAC
Filtre passe-bas fort a
Audio numerique non compresse CD
Sony + Philips, 1982
Diametre:
PCM:
,
bits, stereoo
Debit:
Lecture:
Du centre vers le bord
Laser infrarouge
Vitesse lineaire constante
minutes de son
Peu de correction d'erreur
Pas grave …
Avec correction d'erreur:
CD-ROM (Read Only Memory)
DAT
Sony, 1987
2 canaux PCM,
,
bites
Debit:
Lecture:
Bande magnetique
d'epaisseur
Jusqu'a 3h par bande
Comment ?
Lecture hellicoidale
Tete rotative
Inclinee
Comme VHS
Et streamers (DDS, AIT, LTO, … )
DVD-A
Un DVD contient bien plus de donnees
On etait dans l'infrarouge pour les CDs, on est dans les rouges pour les DVD-A
D'ou le nom blu-ray
DVD Forum, 2000
2 a 6 canaux
a
,
,
bits
Majoritairement non compresse
Cas extremes: Meridian Lossless Packing
Lecture:
Laser rouge
Simple couche/double couche (
)
Incompatible DVD-VIDEO, CD AUDIO, CD-ROM
Super Audio CD
Sony + Philips, 1999
"Successeur du CD"
2 a 6 canaux
Approximation d'un signal analogique par des pulses
Bruit de quantification
Rappel PCM:
Densite constante
Largeur pulses constante
Amplitude variable
Bruit audible (8 bits, 16 bits … )
Reconstruction du signal
Densite variable
Largeur pulses variable
Amplitude constante
Reconstruction du signal:
Inconvenients
Electronique rapide
Bruit max de quantification fort
!
Avantages
Bruits de quantification tres haute frequence (
)
Personne n'est capable de l'entendre
Inaudible !
Filtrage BF simple
Compression numerique du son L'audio non compresse,
Qualite CD
2 canaux,
,
bits
Non compresse:
CD: 650 Mo data,
audio
ADSL de 2000:
a
euros par mois: non
a
euros par mois: non
a
euros par mois:
du debit en audio
"et mon internet ?"
Aujourd'hui (fibre, 4G, 5G)
Toujours pas mainstream
Reste un service Premium (Deezer HiFi, Spotify HD, … )
Qualite "Home Cinema"
canaux,
,
bits
Non compresse:
Dvd:
ADSL, mauvaise 4G: 8 Mbits
50% du debit juste en audio
Et le debit video ?
Injouable sans compresseur
Algorithmes temporels Differential PCM (DPCM)
Hypothese : signal source stationnaire
proprietes independantes dans le temps (esperance, variance)
Ok avec des basses frequences
(Pas sur en hautes frequences)
Principe : pas le sample PCM courant depend du precedent
Codage des differences
Differential PCM
Encodeur
Memoriser les 2 valeurs consecutives
Calcule la difference
dynamique reduite
Encodage du residu avec moins de bits
Compression de
Decodeur
Accumule la valeur reconstruite courante
Dequantifie le residu
Signal reconstruit
d'origine ?
La quantification des differences induit de l'erreur
DPCM in-loop Encodeur ameliore
Memorise deux valeurs consecutives
Calcule la difference
dynamique reduite
Encodage sur moins de bits !
Compression de
Calcule la valeur reconstruite en prevision du decodeur
Erreur de construction contenue
Decodeur
Adaptive DPCM
Codage differentiel adaptatif
Encodeur
Minimise l'erreur differentielle adaptativement:
Prediction du signal courant avec les valeurs passees
Quantification variable du residu
Compression de 75%
Usages
Multimedia (MS/IMA ADPCM, 44.1KHz, 4 bits)
Telephonie (
,
bits)
Dans les DS et GBA, le son est exclusivement en ADPCM
On se mange l'erreur de la compression
Raffinement: deux bandes de frequences
Deux residus, deux debits
Bande passante plus grande (
)
(VolP HQ, DECT HQ)
NICAM
Nearly Instantaneous Companded Audio Multiplex
BBC,
, France
,
bits stereo,
Codec multiplexe avec signal video analogique (QPSK)
Exemple: signal SECAM + NICAM @ 5.85 MHz
Filtrage BF luma: image plus floue :(
On ne peut pas faire rentrer plus que ce qui est possible dans un meme tuyau
Parenthese perceptuelle Comment on percois le son ? Qu'entend l'oreille ?
Le son peut etre masque par d'autres sons
Phenomene de masquage sonore temporel
Posterieur
Si on son
suit un son
, l'oreille n'entend
le son
Est-ce qu'il y a un masquage anterieur ?
Oui !
Anterieur
Si on son
suit un son
, l'oreille n'entend
le son
(non causal !)
Autant qu'on le deteste, notre cerveau un bien un temps de latence de traitement
Latence de perception des transitoires de dynamique
NICAM: Principe de fonctionnement
Echantillonnage PCM 32 KHz 14 bits
Decoupage en tranches de
samples
Pour chaque tranche :
Prendre le plus grand sample
sert de facteur d'echelle
Quantifier a
bits tous les samples
Selon le facteur d'echelle ("Compand")
: enlever les bits de poids
vides (petits signaux, pas de perte)
: enlever les bits de poids
(signaux fortsm pertes "negligeable")
Au pire: quantification forte et breve de petits signaux
RSB eleve
Variations dynamiques et masquage temporels cachent la misere
Decodeur
Dequantifier selon le facteur d'echelle
CNA avec
de latence (" Nearly instantaneous ")
Schematisation
Quantification Compand
Quantification non-lineaire : A-LAW Contexte
Proprietes temporelles de la voix:
Peu de niveaux
Beaucoup de niveaux
, silences
Voix numerique: typiquement
bits
Rappel numerisation PCM:
Bruit de quantification uniforme
Fort dans les niveaux
, faible dans les niveaux
Autrement dit:
PCM 8 bits degrade souvent la voix
Quelles alternatives ?
Principe Modifier la dynamique
Augmenter les niveaux
Baisser les niveaux
Bruit de quantification remodele
Quelle fonction fait cela ?
Loi logarithmique
En pratique Analogiquement:
Avant CAN + apres CNA
Paquets numeriques: PCM 8 bits classiques
Numeriquement:
Apres CAN PCM
(12 bits) + avant CNA PCM HQ
Paquets numeriques: traitement A-Law
bits
Resultat
On a inverse la tendance des erreurs
Erreur de quantification:
Forte sur les signaux
Faible sur les signaux
Standard telephone