Spatialisation virtuelle par procédé binaural

Joueurs de lurs - Copenhagen - photo CEP 2010

Les albums Imagimuse comportent la mention suivante: "Spatialisation virtuelle par procédé binaural". Que signifie cette phrase?

AUTEUR: Charles-Edouard Platel compositeur de musique électroacoustique.

RÉSUMÉ: la spatialisation virtuelle par procédé binaural utilise les propriétés de l'audition humaine pour rendre l'écoute stéréophonique optimale.

NOTE: Cet article ne concerne pas la technique binaurale de stimulation psychique par des oscillations proches des ondes cervicales (autour de 10Hz), grâce à un phénomène de battement de fréquences acoustiques perçues séparément par les deux oreilles.

La spatialisation
Précisions de vocabulaire
Techniques de spatialisation
Quel est l'avantage du procédé binaural
Annexe technique

1. La spatialisation

Pour un auditeur, l'écoute de plusieurs sons simultanés (sons naturels, voix, instruments de musique) est plus intelligible lorsqu'il peut discriminer leurs provenances. Cette discrimination est possible par l'audition binaurale, c'est à dire via ses deux oreilles, qui sont connectées aux fonctions cervicales de l'audition. Ainsi, les yeux fermés, l'auditeur est capable, avec plus ou moins de précision, d'estimer pour chaque source sonore une distance, un angle dans le plan horizontal (azimut) et un angle vertical (élévation).

L'écoute électroacoustique, c'est à dire via des haut-parleurs, quelque soit le type de musique (classique, variétés, jazz, folklore, électro...) est donc plus fidèle si le système permet aux auditeurs de reconstituer en salle d'écoute la localisation des sources sonores de la scène sonore réelle (l'orchestre ou la prise de son sur le terrain). Les techniques utilisées concernent la disposition du système de diffusion, l'acoustique de la salle, le positionnement des auditeurs, le traitement des signaux sonores eux-mêmes et peuvent être regroupées sous le terme de "techniques de spatialisation".

Toute la chaîne des processus est concernée: la capture du son par microphones, l'enregistrement, le mixage, la masterisation d'un support, la lecture du support, l'amplification, la diffusion par haut-parleurs.

Le problème est similaire lorsqu'il s'agit plus simplement de sonoriser un concert ou spectacle vivant.

Au delà de la restitution fidèle ou "arrangée" de la scène sonore d'origine, le musicien peut ajouter, en temps réel ou au moment du mixage, des effets artificiels de spatialisation supplémentaires, par exemple pour donner plus de consistance aux instruments et voix: réverbération, écho, chorus, etc....

Dans le cas de la musique acousmatique, c'est à dire une musique basée sur des sons n'ayant plus à être reliés à une scène sonore réelle, la spatialisation résulte entièrement d'artefacts visant à créer un espace sonore virtuel pour les auditeurs. Au delà d'améliorer l'intelligibilité d'une mise en scène sonore complexe, cette spatialisation virtuelle apporte une composante esthétique intégrée à l’œuvre elle-même.

Le cinéma exploite les deux aspects précédents: la restitution d'une scène sonore réaliste (visible à l'écran) et l'immersion des spectateurs dans une musique et un paysage sonore faisant partie de l'esthétique du film.

2. Précisions de vocabulaire

Onde, signal, acoustique, électroacoustique, canal, piste, voie... , ces différents termes peuvent avoir des significations ou acceptations qui varient selon les auteurs, les matériels, les logiciels et même les époques. Sans prétention à imposer une normalisation sur le sujet et uniquement dans le but de cohérence interne de cet article, nous conviendrons ce qui suit:

Un émetteur acoustique (objet, instrument, humain, animal, haut-parleur...) provoque des ondes acoustiques, c'est à dire des vibrations de la pression et de la vitesse des molécules d'air. Ces ondes se propagent à la vitesse de phase de 340 m/s dans l'air, en s'atténuant en raison du carré de la distance parcourue depuis l'émetteur. Elles se réfractent aussi dans le sol, les matériaux du bâtiment ou le mobilier, à une vitesse de l'ordre de 3000 m/s et en s'atténuant moins que dans l'air, seulement en raison de la distance parcourue par réfraction.

Un récepteur acoustique (oreille, microphone) reçoit des ondes acoustiques qui résultent de la superposition des ondes émises par tous les émetteurs de la scène sonore ainsi que leurs réflexions, réfractions et diffusions par le sol, les parois et les objets.

Un signal acoustique est la représentation de la variation en fonction du temps d'une onde acoustique mesurée en un point de l'espace.

Un transducteur électroacoustique

soit transforme un signal acoustique en un signal électrique analogue (microphone),
soit transforme un signal électrique en un signal acoustique analogue (haut-parleur ou écouteur).

Le signal électrique issu d'un transducteur ou destiné à un transducteur est dit signal analogique.

Un signal est transmis d'un équipement à l'autre par un canal qui lui est dédié, typiquement via un câble audio. Au lieu de transmettre un courant électrique analogique, un canal numérique envoie une succession de nombres représentant ce signal analogique via un code de conversion. Un convertisseur analogique/numérique transforme un signal électrique en signal numérique, et inversement pour un convertisseur numérique/analogique.
Un canal d'entrée, analogique ou numérique, provient d'un microphone, d'un instrument de musique électrique ou de tout autre source qui produit un signal représentant un signal acoustique. Un canal de de sortie, numérique ou analogique, porte un signal destiné, au final, à un système haut-parleur. Le système peut comporter un seul haut-parleur ou, la plupart du temps, diriger le canal vers plusieurs voies, correspondant à des plages de fréquences rendues par des transducteurs spécialisés dans les aiguës, les graves ou les médiums, ou vers plusieurs enceintes acoustiques associées afin de mieux diffuser en grande salle par exemple.

Le terme stéréophonie concernerait littéralement toute diffusion sonore en relief, c'est à dire spatialisée. Pendant un demi-siècle le matériel stéréophonique commercialisé n'a comporté que deux canaux en face de l'auditeur, et l'usage a fait que le terme "stéréo" est utilisé seulement pour dire bi-canal. Ensuite le cinéma a offert en salle une sonorisation en 5 ou 7 canaux: 3 ou 5 en face et 2 en arrière, plus 1 canal infra-basse (subwoofer). En parallèle, la commercialisation grand public de films en DVD s'est ainsi accompagnée de celle de matériel sonore "home cinéma" en multicanal 5.1. Ainsi l'offre en matériel domestique stéréo bi-canal dédié seulement à l'écoute musicale restera qualifiée d'"audiophile" pour signifier une qualité plus soignée et un prix supérieur à celui du dispositif sonorel 5.1 qui complète le téléviseur. Le "multicanal audiophile" ou "en réalité virtuelle", récemment enrichi par des canaux en hauteur (5.1.2, 7.1.2 etc.), requiert un investissement encore plus important pour mettre efficacement en valeur la supériorité du codage des supports SACD, DVD-Audio ou en téléchargement internet "lossless" (sans pertes).

Au niveau du studio d'arrangement, mixage et enregistrement, une piste correspond à un canal ou à l'association de deux ou plusieurs canaux. A l'origine la piste correspondait à une fraction de la largeur de bande d'un magnétophone "multipiste". Aujourd'hui les logiciels d'arrangement (ou montage) audio ont conservé ce terme mais sans contrainte du matériel associé. Plusieurs pistes peuvent être groupées en une piste unique pour subir un traitement identique sur leurs canaux sans pour cela mélanger ceux-ci. On parlera alors de piste stéréophonique, quadriphonique, etc.. Néanmoins, au final, ces canaux seront bien séparés pour alimenter des hauts-parleurs séparés.

Enfin, reprenons aussi la définition de la musique acousmatique, qui semble maintenant partagée sans équivoque: musique contenant des sons que l'auditeur n'a pas nécessité à relier à une cause sonore. Vouloir spatialiser une œuvre acousmatique, en s'évertuant à positionner des pseudo émetteurs sonores, paraîtrait alors aller en contre-sens de cette définition. Néanmoins la création musicale peut aussi tirer parti de la spatialisation, pour accompagner l'auditeur dans des paysages sonores irréels où son imagination pourra se donner libre cours .

3. Techniques de spatialisation

Il y a trois principales techniques pour traiter l'aspect spatial du sonore, tant au niveau de la prise de son que celui de la diffusion.

la technique multicanal,
la technique binaurale,
plus récemment, la technique holophonique.

Dans le quotidien les ingénieurs du son exploitent des combinaisons des deux premières techniques. Le lecteur pourra trouver ailleurs qu'ici des information précises et complètes élaborées par les professionnels du sujet.

On peut utiliser:

le multicanal à la prise de son et à la diffusion,
le binaural à la prise de son et à la diffusion,
le binaural à la prise de son et le multicanal à la diffusion,
le multicanal à la prise de son et le binaural à la diffusion.

L'holophonie, bien que de mieux en mieux maîtrisée techniquement, peut encore être considérée comme d'utilsation exceptionnelle.

Quelle que soit la technique, l'enjeu de toute écoute d'une œuvre musicale spatialisée est que la localisation des objets sonores par les auditeurs ne soit pas associée par eux à l'emplacement des haut-parleurs, visibles ou non.

3.1 La technique multicanal

Au niveau de la prise de son, la technique multicanal consiste à multiplier les microphones de proximité et d'ambiance. On dispose ainsi en studio d'une piste individuelle pour chaque émetteur sonore: instrument, voix, réponse de la salle si besoin, afin de réaliser un mixage multipiste en fonction de l'utilisation prévue.

Au niveau de la diffusion, la technique multicanal consiste à entourer l'auditeur de plusieurs haut-parleurs qui sont autant d'émetteurs localisables en distance et angles. Les systèmes domestiques vont de 2 (stéréo) à 5 ou 7 canaux + canal infra-basses. Les salles de concert sont équipées plus largement afin de permettre à la plupart des fauteuils de recevoir à la fois un signal et une spatialisation correcte.

Pour la musique acousmatique, en plus de la spatialisation déjà fixée dans les 2, 4 ou 8 canaux (ou plus) de la musique composée, le concertiste-diffuseur aiguillera ces différents canaux vers un orchestre de haut-parleurs, l'acousmonium. En fonction des choix esthétiques, il interviendra ou non en cours de concert sur le réglage des groupes de haut-parleurs.

3.2 La technique binaurale

La technique binaurale s'appuie sur les caractéristiques psychophysiologiques de l'audition humaine pour localiser l'origine des sons. Voir par exemple cet article sur la localisation (© NeurOreille) exposant ces caractéristiques.

Cette technique vise à ce que les ondes de pression, au niveau des tympans de l'auditeur, soient similaires à celles qui seraient reçues en situation réelle, en particulier sur les deux points suivants:

pour un émetteur latéral, l'onde acoustique atteint d'abord l'oreille la plus proche, contourne la tête en s'atténuant, puis atteint l'autre oreille après un écart de temps de quelques dizaines de microsecondes, selon l'azimut (angle latéral) de cet émetteur,
les circonvolutions du pavillon de l'oreille modifient l'enveloppe spectrale selon l'angle d'arrivée de l'onde (en gros, la "sonorité" d'un son semble légèrement différente selon la direction d'où il provient).

A la différence de la technique multicanal, la technique binaurale ne se focalise pas d'abord sur la topographie des différents émetteurs, mais sur la forme des ondes reçues par un auditeur de référence situé devant ou à l'intérieur de la scène sonore. Précisément, l'audition humaine déduit l'information de localisation des émetteurs grâce à la forme des ondes reçues.

Au niveau de la prise de son, cela consiste à positionner les membranes de deux microphones comme les deux tympans des oreilles humaine, de façon à capter les ondes de pression à l'identique, en vue d'une restitution au casque. Le système consiste en un mannequin équipé de deux microphones placés dans des imitations de pavillons d'oreille. Plus discrètement le preneur de son peut installer des microphones miniatures dans ses propres oreilles, en veillant à garder la tête parfaitement immobile.
Cette technique radicale est délicate à utiliser, d'autant plus qu'une oreille ne fonctionne pas comme un microphone. La pratique courante consiste plutôt à disposer géométriquement un couple de microphones de façon à capter l'onde acoustique selon deux directions. Selon les conditions, on installera un dispositif de type XY, AB, ORTF etc. Voir un aperçu de ces dispositifs (Wikipedia) ou une présentation plus détaillée (Voyard), et, pour approfondir, cette conférence professionnelle (Lagnel).

Au niveau de la diffusion, une restitution idéale nécessiterait un casque individuel par auditeur. Malheureusement l'écoute au casque est fatigante et peu conviviale en concert. La diffusion par deux haut-parleurs donne aussi un bon résultat, avec une définition supérieure à celle d'une stéréo bi-canal classique, mais ne rend pas les éventuels effets "surround" aussi spectaculairement qu'un casque. De plus elle est brouillée par la diaphonie: une partie des ondes émises par le haut-parleur de gauche et destinées à l'oreille gauche arrivent ensuite à l'oreille droite et réciproquement. Toutefois cette diaphonie peut être compensée par un traitement correctif, dit transaural, qui complète le binaural. Dans ces conditions, avec seulement deux hauts parleurs à 60°, l'auditeur peut localiser des sources virtuelles très précisément en face de lui entre les haut-parleurs, et parfois, au delà de l'angle des haut-parleurs, jusqu'à 90° de part et d'autre de l'axe frontal.

Pour le compositeur de musique acousmatique, une spatialisation fine et détaillée de chaque objet sonore fait partie de son art. Ceci peut être inscrit dans le support de l’œuvre grâce à des algorithmes de traitement du signal audio qui stimulent les processus humains de localisation binaurale. C'est la technique utilisée pour les albums IMAGIMUSE afin de tirer le meilleur parti du support stéréo bi-canal, proposé sur CD ou via téléchargement de fichiers audio.

Toutefois le procédé a ses limitations:

chaque humain étant différent physiologiquement et au niveau de ses acquis, la perception des nuances du spectre sonore varie selon chaque individu. La perception en hauteur et en arrière est donc très approximative par rapport à une diffusion quadriphonique ou octophonique: ces deux procédés sont donc plus efficaces si l'intention est de plonger physiquement l'auditeur en "immersion sonore".
la position de l'auditeur par rapport aux deux haut-parleurs est assez critique, et il faudra éventuellement multiplier des hauts parleurs directifs pour une assistance nombreuse; de plus l'auditeur effectue inconsciemment de légers mouvement de la tête pour accompagner la localisation: il peut ainsi par moments brouiller lui-même la perception latérale suggérée.

Le procédé binaural est incompatible avec les anciens procédés de pseudo-spatialisation de type Dolby Pro Logic, Neo, etc., visant à fabriquer des sons diffus arrières et un son central par matriçage des sons stéréos. La perception correcte de la spatialisation binaurale requiert une chaîne de diffusion strictement à deux canaux (avec caisson de graves ou non) .Toutefois, les œuvres binaurales peuvent avantageusement profiter d'une diffusion par acousmonium si l'on respecte l'équilibre stéréo des paires de haut-parleurs. Mais ici c'est l'interprète de l'acousmonium qui exerce l'art de la spatialisation sonore en fonction de son ressssenti de l'œuvre, de la salle de concert et des réactions du public.

Depuis récemment on dispose de nouveaux outils de mixage en spatialisation 3D multi-haut-parleurs. Ils permettent d'offrir aux spectateurs une immersion sonore totale, par exemple en salle de cinéma. Plusieurs offrent de générer un rendu binaural immersif sur deux canaux. C'est le cas du format Dolby Atmos développé par Dolby et Apple pour le son des films et la musique en streaming.

3.3 La technique holophonique

Comme la technique binaurale, la technique de spatialisation sonore holophonique s'appuie sur le modèle de propagation des ondes émises plutôt que sur la topographie des émetteurs. Cependant, à la différence de la technique binaurale, elle couvre tous les points de la scène sonore au lieu d'être focalisée sur la position d'un auditeur de référence. Ainsi tous les auditeurs (comme les observateurs d'une image optique holographique) bénéficient d'une perception spatiale complète quelques soient leurs positions par rapport au système de diffusion.

Au niveau de la prise de son, un assemblage multidirectionnel de plusieurs microphones permet de capter des signaux contenant l'information suffisante pour définir l'arrivée d'une surface d'onde en trois dimensions. C'est donc une prise de son multicanal, mais son principe est tout autre que celui dont nous parlions au paragraphe 3.1.

Au niveau de la diffusion, la géométrie des haut-parleurs, nécessairement très nombreux, recompose les surfaces d'onde dans la salle d'écoute. C'est donc aussi une diffusion multicanal dont le principe est aussi tout autre que celui du paragraphe 3.1.

Des algorithmes de traitement du signal peuvent calculer un rendu holophonique à des prises de son qui ne le sont pas, afin de simuler un positionnement des émetteurs sur la scène sonore virtuelle, ouvrant ainsi cette technologie pour de futurs concerts acousmatiques.

4. Quel est l'intérêt du procédé binaural?

4.1 Limites des "potentiomètres" de mixage

La plupart des œuvres électroacoustiques en stéréo sont spatialisées simplement grâce au pan (potentiomètre panoramique), qui répartit l'intensité sonore entre les canaux de gauche et de droite. Bien que la différence d'intensité perçue entre l'oreille gauche et l'oreille droite apporte au processus d'audition un paramètre de localisation, ce paramètre n'agit qu'aux fréquences élevées et ne permet pas d'estimer un angle précis. L'auditeur entendra tel ou tel son ou instrument sortir du haut-parleur de gauche ou de celui de droite, et souvent un trou imprécis au centre, qu'on ne peut combler qu'en diffusant à plus fort volume sonore pour bien remplir la salle de ses réverbérations. Ainsi, quand l’œuvre superpose des objets sonores ayant tendance à se mélanger, l'efficacité du panoramique à deux canaux pour améliorer l'intelligibilité trouve rapidement ses limites.

Une spatialisation plus large en 4 ou 8 canaux paraît donc attrayante pour élargir le périmètre de discrimination. L'amélioration technique est évidente, car ainsi les limites latérales du bi-canal sont repoussées. Mais le rendu artistique est souvent en deçà des attentes, car la localisation auditive humaine est vague sur les côtés et en arrière, alors qu'elle est très fine juste devant lui. Finalement, les hauts parleurs surround latéraux ou en arrière se révèlent efficaces pour immerger les auditeurs dans une ambiance plus que pour positionner distinctement des sons autour d'eux.

Le procédé binaural permet d'exploiter pleinement cette perception "en haute définition" vers l'avant, qui, de plus, est naturelle en situation de spectacle.

Autre paramètre du mixage, le fader (potentiomètre de volume) peut être trivialement utilisé pour simuler le rapprochement ou l'éloignement de l'émetteur sonore. Ce n'est pas très convaincant pour l'oreille, car, comme expliqué au chapitre 7 du livre "Musique imaginaire", les humains ont appris à considérer les objets comme éloignés grâce aussi à la sensation de l'effet de sol et à la variation de couleur des réverbérations.

Le procédé binaural permet d'intégrer ces paramètres humains de perception pour accueillir l'auditeur dans une scène sonore multidimensionnelle.

4.2 La spatialisation binaurale des albums IMAGIMUSE

Bien entendu cet article ne prétend pas préconiser un traitement binaural pour tous média de diffusion électroacoustique. Il décrit pourquoi ce procédé a été utilisé pour réaliser des albums CD et fichiers de téléchargement en stéréo en vue d'une écoute bi-canal de haute qualité.

En effet, les oreilles fines préfèrent investir dans du matériel stéréophonique de haute qualité, plus apte à révéler fidèlement les subtiles perceptions sensitives de la musique que les systèmes multi-canaux 5.1 annexes au téléviseur, qui ont plutôt vocation à restituer les effets spectaculaires des films diffusés sur support DVD. Les albums IMAGIMUSE, disponibles en streaming et téléchargement ou en physique , sont mixés et masterisés pour mettre en valeur la précision acoustique des équipements stéréo. Une écoute satisfaisante est aussi possible sur système 5.1 réglé en mode STÉRÉO et équipé de haut-parleurs frontaux ayant la qualité audiophile requise.

Lors de l'arrangement de chacun des titres de ces albums, chaque piste audio a été traitée en intensité, en phase et en couleur spectrale pour solliciter significativement les facultés de localisation spatiale humaines en distance et en angle, dont la correction transaurale pour optimiser la diffusion par haut-parleurs.

L'auditeur peut ainsi ressentir devant lui les mouvements de masses et les trajectoires sonores, et ainsi sont mis en relief l'originalité des couleurs et la dynamique des sons naturels et de synthèse.

Charles-Edouard Platel,
(nov. 2008, révisé décembre 2023)

Annexe technique:

L'auteur avait développé en 2007 un prototype simple d'utilisation pour Mac OSX, programmé avec le logiciel modulaire SonicBirth. Proposé ici en téléchargement libre, il avait servi à réaliser les premiers albums CD IMAGIMUSE. Ce module fonctionnait avec les versions de macOs de 10.6 à 10.14 Mojave, mais ne pouvait plus fonctionner sous macOs Catalina 10.15 et ultérieurs.

Heureusement, depuis 2017 les utilisateurs de Logic Pro bénéficient d'une option Panoramique Binaural produisant un résultat similaire de localisation binaurale, et, plus récemment, de pistes d'objets permettant de réaliser un rendu binaural du positionnement tri-dimensionnel Dolby Atmos.

Simultanément des logiciels multiplateformes de spatialisations sonore sont arrivés sur le marché, avec rendu stéréo, binaural ou multiphonique, voire Dolby Atmos , par exemple les GRM Spaces, les Acousmodules, Spat Revolution-Flux, etc..

Voir aussi : Technique audio