Try   HackMD

Lien de la note Hackmd

Onde sonore

Le briques de base de la compression du son sont un peu differentes de celle de la video.

Perception du son

Qu'est-ce que c'est le son ?

Onde sonore
Variations de pressions convoyees par un milieu gazeux

Pour la perception:

  • Oreille humaine
  • Transducteur sonore
    signaux electriques
  • Trois parties:
    • Oreille externe: captation
    • Oreille moyenne: amplification
    • Oreille interne: transducteur

Oreille externe

  • Collecte et amplifie les sons
  • Localise les sons (pavillon, phase)
  • L'envoie dans le conduit auditif
  • Protege le tympa (cerumen)

Oreille moyenne

  • Vibration aerienne
    solidienne (tympan)
    • Transformer les vibrations accoustiques en vibrations solides
  • Amplification: marteau / enclume / etrier
  • Protection niveaux forts (80dB): reflexe stapedien

Oreille interne

  • Transforme le signal en signal electrique
  • Vestibule: centre de l'equilibre
  • Cochlee: transforme les vibrations en signaux electriques
    • Recouverte de cellules cillees
    • Hautes Frequences en bas (debut)
    • Basses Frequences en haut (fin)
  • Membrane basilaire: filtre special parole meme en environnement bruyant

Accouphenes: cellules cillees petees qui envoient n'importe quoi
Lie aux problemes de circulation du sang
Aussi l'usure: on a ecoute des trucs trop forts

Specifications

  • Spectre:
    20HZ20KHz
  • Perception d'intensite logarithmique
    • dB=3×log2(ratio)
    • 3dB:×2,20dB:×100
    • Jusqu'a
      120dB
      pour l'oreille
  • Seuils de perception minimale variables

Enregistrement du son

Objectif
Capter les variations acoustique dans un materiau

Analogique:

  • Transduction solide
  • Transduction magnetique

Numeriques:

  • Representations binaires
  • Nombreuses
    • Fete du string pour les formats

Transduction solide du son

Principe

  • Amplifier l'onde avec un pavillon
  • Graver l'onde dnas un materiau par un mobile

Pionnier: phonographe, Thomas Edison, 1877

En verite, c'est un francais, Edouard-Leon Scott de Martinville, 1860 le pionner avec le Phonautographe

On ne pouvait que ecrire, relire detruisais le charbon qu'il utilisait pour graver

On a reussi a reconstruire un de ses enregistrements ou il chante au clair de la lune

a̷̙͔̳̹̱̭͔̲̺̳͉̪̰̼͂̀̈́͑̓̆͂͌̓̀̈́͐̒͐̂͛͑͒̑͑̕͝ų̸̨̼̼̫̙͔̳̺̖̯̳̼̳͓̪̪̫͔͖̘̤̜̒̅̉̾̈́͌̍́̚̕͜͜͝ ̴̹̥̝̺̫̘̬̩͓̣͈̔͑c̶̲̠̥̫͓̠̋͜͜͜ļ̶̡̧̨̛͔̟̥̜͚͚̗̪̱͍͈͎͖̪̣̣͕̩͕̩͔̭͖̟͚͗̉̇̆̃̇̊̀̓́̔̈͆̾̅̏̍̀̑́̔̍̐̿̆̕̕̚͜͠ͅͅą̸̡̢̧̟͇͚̣̲̜͉͓̺̫̭̟̖̘̝̞̼̙̞̭̭͎͚̤̙̺̠͒́͑͛̅̀̓͗̽̑̆͑̀͂͂͂î̴̢̨̨̡͉̞̘̘͕̖̤̮̱͚̝̘̺̅́̄̿͂͜͜ř̷̛̛͈͚̥̭̖̭͉̺͓̰͚͎̳̹̟̜͔̭̖̰̥̖̈́̈́̆̿̂̽̂̔̾̈́̃͂͛̓̑͋̒͋̎̆̈́́̓̓̀̆͋͜͜͠͝ ̴̢̧̡̡̛̪̯̞̞͈̖̜̻̺͓̥̭̝̥̘̝̖̰̠̩̱̬̼͙̗͈̳̳̝͉̗̩͒͆̿̇̓̌͌̅̈̒̑̽̈̎̈̅̾̓̒̀̄̓̊͗̂̈́͆͌̚̕͜͝͝͝͝ͅd̸̢̺̞̦͇̘̙̪͖̻͎͚̺͕̼͓̦̲͖̩̝̫̠͑̈̔́̀̒̂̀͋̐̈́̓̈́̔̽̓̏̅̐͊̑͜͝ͅe̶̳͉̼͎͉̯͍̿̍͛́͂̑̓̑͒̀̏̈́̚͝ ̶̢̪̻̘͓̹̰̬̥͚̟̻̝͚͍͎͍̗̲̩̦̪̣̦͉͈̩̯̤͕̟͙̝̙͒̈́̍̒̔̍̈́̄̌͋̑͋̄͗͐̽̅͑̋͗̏̈́͊̾̏̒̈́̈́̎̿̍̄̚̚̕͜͜͝͝͝͝ͅl̵̡̖̹̟͚̞͈̙̘̗͈̭͍̲͉̩̥̙͖̻͓̼͚̱͎͖̤̝̺̱̺͍̲̰̯̥̊̆̉́̔͐̒̋͒̂̌̈́̒̄̄̚̚̚ā̶̢̢̨̡̭̝̺̙͖͎͖̣̘̯̤͓̺̞̠͇͙͈̦̻̘͔̭̮̝͓̪̘́̃̀̀̊̓͂̓̐͐́̎̽ͅ ̴̨̧̢̭̳̗̮͔͈͎̘͙̣̠̝̙͋̔̑́́͒̓͂̑̈̈̌̆̏͒̑͋̔̂͑̈́͂̕̚͝͠͝l̵̛̛̬̥͓͇͇͖̈̾͗́̍̊̆̅̏̄̓̐̍̉̐͛͂͛͋̓͂̋͐͑̑́̅̍͒̆̕̚̕̚͠͠͝ū̸̡̡̨͙̱͙̩͖̠̼̳̮͎̞̪͉̮̩̮̭̝̝̦̬̹̳͍̰̙̟̪͕̥̰̬̠̙̰̉͊ͅͅn̶̨̡̢̛̬͓͕͙̳̘̣̗͍̲̣̮̬̞͔̞̬̣͙͕̘̦͐́̒̂̀̓͒̊̈́̿̑̈́̐̏͛͋̚͝͝ͅȩ̵̙̬̜͔̳͍̹̣̪̦̮̮̰̮̫̤̻̳̗̦͕̰̝̪̣͎̄̿̅̏̉͋̽́̐͝͝͝

Thomas Edison avait compris que ca devait etre reproductible

Gramophone, Emile Berliner, 1886

  • Meme principe qe le Phonographe
  • Disque rotatif industrialisable
    • Carton (fragile)
    • Celluloid (inflammable)
    • Vinyle (compromis)
  • Vitesse angulaire constante:
    78
    a
    100
    rpm
  • Du bord vers le centre
  • Perte de qualite au centre
    • Perte de bande passante

Les microsillons reconstruisant le son:

En faisant les reflets qu'on voit sur un disque

Transduction magnetique du son

Principe

  • Onde accoustique
    signal electrique
  • Signal electrique
    champ magnetique
  • Polariser un substrat magnetisable
  • Assez coercitif
    • Coercitivite magnetique: resistance d'un milieu magnetique a se faire remagnetiser
    • Plus un milieu est coercitif, plus il est resistant

Comment ca se passe ?

  • Tete en anneau, magentisation horizontale
  • On a une bande magnetique qui defile
  • On induit ce champ magnetique qui polarise les particules
  • On a un signal accoustique qu'on a electrise et magnetise

Ecrite: Courant electrique

Champ magnetique
Lecture: Champ magnetique
Courant electrique

Pionnier: Telegraphone a fil, Valdemar Poulsen (neerlandais), 1898

  • Magnetisation d'un fil de fer
  • Bande quelques minutes
  • 1er
    enregistrement: Empereur Franz Josef d'Autriche, 1900
  • Evolution immediate: fil de fer
    lame d'acier
  • Plus robuste, plus dangereux

Magnetophone a bande, BASF/AEG (allemands), 1930

Cassete 8 pistes, Ampex/RCA/MOTOROLA (US), 1963

On dirait une bobine mais elle s'enroule sur elle-meme

Lecture sans fin !

Quand on le mettais dans l'auto-radio (c'etait fait pour les voitures), ca rembobinait et ca jouait en boucle

Pourquoi 8 pistes ?

C'est en stereo en 4 voie, des qu'on arrive a la fin d'une piste, on saute 2 voies
Il y a ~1h30 de musique

Compact Cassette, Philips (Neerlandais), 1963

Enregistrement numerique du son

Onde sinusoidale

Une onde sinusoidale est:

  • continue dans le temps
  • continue en intensite

  • Discretiser un signal continu periodiquement
  • Choix d'une frequence
    Fe

Theoreme de Shannon

Un signal est une somme de sinusoides:

  • La frequence la plus elevee est
    fmax
  • Echantillonner a
    Fe
    est valide si

Fe>2×fmax

En dessous: aliasing

  • =
    repliement de spectre
  • =
    frequences parasites

Echantillonage

Signal echantillone en intervalles reguliers

Quid de l'intensite ?

  • Sous-ensemble discret de valeur d'un espace contine
    {0Vmax}
  • Idealement les valeurs quantifiees appartiennent a la courbe

Sauf que non

Pas de quantification

Espace discret a

N valeurs
[0Vmax/N]

  • En numerique:
    N=2M
    aec
    M
    : nombre de bits

Erreur de quantification

e

0<e<Vmax/2M

Erreur de quantification inevitable

  • N
    petit
    \colorrede
    eleve
  • \colororangeVisible
  • \colorredAudible

\colorrede
d'un signal triangulaire

\colorrede
d'un signal sinusoidal

Format PCM

Pulse Coded Modulation

  • Signal continu discretise en temps et en intensite
  • Via circuits CNA/ADC
  • Echantillonnage temporel a
    Fe
    • Fe2fmax
    • Sinon aliasing
  • Quantification d'intensite sur
    N
    bits:
    2N
    valeurs
    • Erreur de quantification
      e
    • Dynamique
      6dB
      par bit (
      16bits96dB
      )
  • Reconstruction
    • Via circuits CNA/DAC
    • Filtre passe-bas fort a
      Fe/2

Audio numerique non compresse

CD

  • Sony + Philips, 1982
  • Diametre:
    12cm
  • PCM:
    44.1KHz
    ,
    16
    bits, stereoo
  • Debit:
    2×44100×2=176.4Ko/s(1.411Mb/s)
  • Lecture:
    • Du centre vers le bord
    • Laser infrarouge
    • Vitesse lineaire constante
      500200rpm
  • 74
    minutes de son
    783Mo
    • Peu de correction d'erreur
    • Pas grave
  • Avec correction d'erreur:
    650Mo
    • CD-ROM (Read Only Memory)

DAT

  • Sony, 1987
  • 2 canaux PCM,
    48KHz
    ,
    16
    bites
  • Debit:
    2×48000×2=192Ko/s(1.536Mb/s)
  • Lecture:
    • Bande magnetique
    • 50cm/min(8.15mm/s)
    • 4mm
      d'epaisseur
  • Jusqu'a 3h par bande

Comment ?

  • Lecture hellicoidale
    • Tete rotative
      2000rpm
    • Inclinee
    • 3.15m/s
    • Comme VHS
    • Et streamers (DDS, AIT, LTO, )

DVD-A

Un DVD contient bien plus de donnees

On etait dans l'infrarouge pour les CDs, on est dans les rouges pour les DVD-A
D'ou le nom blu-ray

  • DVD Forum, 2000
  • 2 a 6 canaux
  • 44.1KHz
    a
    192KHz
  • 16
    ,
    20
    ,
    24
    bits
  • Majoritairement non compresse
  • Cas extremes: Meridian Lossless Packing
    • \colorgreenSans perte
  • Lecture:
    • Laser rouge
    • Simple couche/double couche (
      8.5Go
      )

Incompatible DVD-VIDEO, CD AUDIO, CD-ROM

Super Audio CD

  • Sony + Philips, 1999
  • "Successeur du CD"
  • 2 a 6 canaux
  • \colorred2.8224MHZ!?
  • \colororange1 bit ??

LISIBLE PAR LA PS3 ???

Format DSD

Format PWM

  • Approximation d'un signal analogique par des pulses
  • Bruit de quantification
    =Vmax/2N
  • Rappel PCM:
    • Densite constante
      =
      • Largeur pulses constante
      • Amplitude variable
      • Bruit audible (8 bits, 16 bits)
    • Reconstruction du signal
      • Filtrage BF a
        Fe/2

  • \colorredPMW: Pulse With Moderation
    • Densite variable
      =
      • Largeur pulses variable
      • Amplitude constante
    • Reconstruction du signal:
      • Integration
      • +Filtrage BF

Inconvenients

  • Electronique rapide
  • Bruit max de quantification fort
    [0Vmax/2]
    !

Avantages

  • Bruits de quantification tres haute frequence (
    MHz
    )
    • Personne n'est capable de l'entendre

Inaudible !

  • Qualite
    ++

Filtrage BF simple

  • Cout

Compression numerique du son

L'audio non compresse,

Qualite CD

  • 2 canaux,
    44.1KHz
    ,
    16
    bits
  • Non compresse:
    2×44.K\*2
  • \colorred176.4Ko/s=1.411Mb/s
  • CD: 650 Mo data,
    780Mo
    audio
    • 74
      min
  • ADSL de 2000:
    • 64Kb/s
      a
      45
      euros par mois: non
    • 128Kb/s
      a
      90
      euros par mois: non
    • 2Mbits
      a
      200
      euros par mois:
      • 100%
        du debit en audio
      • "et mon internet ?"
  • Aujourd'hui (fibre, 4G, 5G)
    • Toujours pas mainstream
    • Reste un service Premium (Deezer HiFi, Spotify HD, )

Qualite "Home Cinema"

  • 6
    canaux,
    48KHz
    ,
    16
    bits
  • Non compresse:
    6×48K\*2
  • \colorred576Ko/s=4Mbit/s=2Go/h
  • Dvd:
    4.9Go
    • 2.5h
      de son
    • pas de video !
  • ADSL, mauvaise 4G: 8 Mbits
    • 50% du debit juste en audio
    • Et le debit video ?

Injouable sans compresseur

Algorithmes temporels

Differential PCM (DPCM)

Hypothese: signal source stationnaire

  • =
    proprietes independantes dans le temps (esperance, variance)
  • Ok avec des basses frequences
  • (Pas sur en hautes frequences)

Principe: pas le sample PCM courant depend du precedent

  • Codage des differences
    Differential PCM

Encodeur

  • Memoriser les 2 valeurs consecutives
  • Calcule la difference
    dynamique reduite
  • Encodage du residu avec moins de bits
  • Compression de
    25%

Decodeur

  • Accumule la valeur reconstruite courante
  • Dequantifie le residu
  • Signal reconstruit
    =
    d'origine ?
  • \colorredNON!
  • La quantification des differences induit de l'erreur
    \colorredqui s'accumule a la reconstruction

DPCM in-loop

Encodeur ameliore

  • Memorise deux valeurs consecutives
  • Calcule la difference
    dynamique reduite
  • Encodage sur moins de bits !
  • Compression de
    25%
  • Calcule la valeur reconstruite en prevision du decodeur

Erreur de construction contenue

Decodeur

  • Idem decodeur simple

Adaptive DPCM

Codage differentiel adaptatif

Encodeur

  • Minimise l'erreur differentielle adaptativement:
    • Prediction du signal courant avec les valeurs passees
      • Polynome ordre
        8
    • Quantification variable du residu
      • 4 a 6 bits
    • Compression de 75%

Usages

  • Multimedia (MS/IMA ADPCM, 44.1KHz, 4 bits)
  • Telephonie (
    G.721
    8KHz
    ,
    56
    bits)

Dans les DS et GBA, le son est exclusivement en ADPCM
On se mange l'erreur de la compression

Raffinement: deux bandes de frequences

  • Deux residus, deux debits
  • Bande passante plus grande (
    7KHzFe=14KHz
    )
  • G.722
    (VolP HQ, DECT HQ)

NICAM

Nearly Instantaneous Companded Audio Multiplex

  • BBC,
    19862012
    , France
    19952011
  • 32kHz
    ,
    14
    bits stereo,
    728Kbits/s
  • Codec multiplexe avec signal video analogique (QPSK)

Exemple: signal SECAM + NICAM @ 5.85 MHz

Filtrage BF luma: image plus floue :(

On ne peut pas faire rentrer plus que ce qui est possible dans un meme tuyau

Parenthese perceptuelle

Comment on percois le son ? Qu'entend l'oreille ?

Le son peut etre masque par d'autres sons

  • Phenomene de masquage sonore temporel

Posterieur

Si on son

\colorredfaible suit un son
\colorgreenfort
, l'oreille n'entend
\colorredpas
le son
\colorredfaible

Est-ce qu'il y a un masquage anterieur ?

Oui !

Anterieur

Si on son

\colorgreenfort suit un son
\colorredfaible
, l'oreille n'entend
\colorredpas
le son
\colorredfaible
(non causal !)

Autant qu'on le deteste, notre cerveau un bien un temps de latence de traitement

Latence de perception des transitoires de dynamique

NICAM: Principe de fonctionnement

  • Echantillonnage PCM 32 KHz 14 bits
  • Decoupage en tranches de
    1ms=32
    samples
  • Pour chaque tranche:
    • Prendre le plus grand sample
      sert de facteur d'echelle
    • Quantifier a
      10
      bits tous les samples
    • Selon le facteur d'echelle ("Compand")
    • \colorredFaible
      : enlever les bits de poids
      \colorgreenforts
      vides (petits signaux, pas de perte)
    • \colorgreenFort
      : enlever les bits de poids
      \colorredfaibles
      (signaux fortsm pertes "negligeable")

Au pire: quantification forte et breve de petits signaux

RSB eleve

  • Variations dynamiques et masquage temporels cachent la misere

Decodeur

  • Dequantifier selon le facteur d'echelle
  • CNA avec
    1ms
    de latence ("Nearly instantaneous")

Schematisation

Quantification Compand

Quantification non-lineaire : A-LAW

Contexte

  • Proprietes temporelles de la voix:
    • Peu de niveaux
      \colorgreenforts
    • Beaucoup de niveaux
      \colorredfaibles
      , silences
    • Voix numerique: typiquement
      8KHz/8
      bits
  • Rappel numerisation PCM:
    • Bruit de quantification uniforme
    • Fort dans les niveaux
      \colorredfaibles
      , faible dans les niveaux
      \colorgreenforts
  • Autrement dit:
    • PCM 8 bits degrade souvent la voix
    • Quelles alternatives ?

Principe

Modifier la dynamique

  • Augmenter les niveaux
    \colorredfaibles
  • Baisser les niveaux
    \colorgreenforts

Bruit de quantification remodele

Quelle fonction fait cela ?

Loi logarithmique

F(x)=sgn(x){A|x|1+ln(A),|x|<1A1+ln(A|x|)1+ln(A),1A<|x|<1

En pratique

Analogiquement:

  • Avant CAN + apres CNA
  • Paquets numeriques: PCM 8 bits classiques

Numeriquement:

  • Apres CAN PCM
    \colorgreenHQ
    (12 bits) + avant CNA PCM HQ
  • Paquets numeriques: traitement A-Law
    128
    bits

Resultat

On a inverse la tendance des erreurs

Erreur de quantification:

  • Forte sur les signaux
    \colorgreenforts
  • Faible sur les signaux
    \colorredfaibles

Standard telephone

G.711