White Paper NESS

Objectifs de NESS :

NESS est un logiciel de spatialisation sonore. Il permet de recréer une scène sonore cohérente sur une zone d’écoute large (absence de sweet spot) à l’aide d’un système de restitution (ensemble de haut-parleurs) en plaçant des objets sonores virtuels dans un lieu donné. NESS permet de spatialiser jusqu’à 16 sources sonores sur 4 groupes de haut-parleurs pour un total de 32 sorties. NESS intègre également un moteur de réverbération pour synthétiser des espaces acoustiques cohérents et des outils de gestion de mouvement et de trajectoires de sources.

Localisation perçue d’une source sonore sur un ensemble de haut-parleurs

Lorsqu’un même signal arrive de différentes directions à nos oreilles avec des temps d’arrivée inférieurs à 30ms, notre cerveau interprète ces signaux comme provenant d’une unique source sonore. La direction perçue de cette source fusionnée dépend des amplitudes et des retards entendus pour chaque haut-parleur. La source sonore sera en général perçue en direction du haut-parleur entendu en premier (effet de précédence) ou des haut-parleurs les plus forts (modèle par vecteur d’énergie). La contribution l’ensemble des haut-parleurs peut être analysée à l’aide de modèles psychoacoustiques pour prédire la direction perçue de la source [1].

Sur la figure ci-dessus, les deux haut-parleurs qui contribuent le plus (les plus proches ou les plus fort) sont indiqués en bleu. La contribution de chaque haut-parleur est représentée par la longueur de la flèche verte dans sa direction (vecteur d’énergie). En sommant les vecteurs, on peut modéliser la direction perçue en rouge de la source sonore.

Les algorithmes de NESS sont choisis de manière à minimiser l’erreur de localisation des sources sonores pour une zone d’écoute large.

Méthodes de spatialisation existantes

Les méthodes de spatialisation sonore existantes sont nombreuses. Voici un comparatif des méthodes les plus courantes :

VBAP

Principe

Le VBAP (vector based amplitude panning) généralise le panning d’amplitude utilisé en mixage stéréo à un réseau de haut-parleurs. Seuls les haut-parleurs encadrant la direction de la source du point de vue de la position d’écoute diffusent le signal de la source. Les gains associés à chaque haut-parleur sont calculés en fonction de la position d’écoute, de la position des haut-parleurs et de la position de la source virtuelle sur le principe de sommation de vecteurs d’énergie.[2]

Avantages

Très bon rendu de la localisation angulaire à la position d’écoute
Faible complexité algorithmique

Inconvénients

Les positions des haut-parleurs doivent être équidistantes de l’auditeur, et sont souvent standardisées, donc difficiles à reproduire en fonction des contraintes d’installation.
Chaque haut-parleur doit couvrir toute la zone d’écoute, au risque que certaines sources ne soient pas audibles à certaines positions.
Présence d’un sweet spot : la spatialisation n’est valable qu’à la position d’écoute pour laquelle elle a été paramétrée.

DBAP

Principe

Le DBAP (distance based amplitude panning) spatialise une source sonore en calculant la décroissance acoustique liée à la distance entre la source sonore virtuelle et chaque haut-parleur. La position de l’auditeur ne se rentre pas compte, et tous les haut-parleurs jouent le signal.[3]

Avantages :

Absence de sweet spot, la spatialisation est mieux perçue pour une zone d’écoute étendue
Adaptable à des topologies de haut-parleurs irrégulières
Signal de la source audible sur tous les haut-parleurs

Inconvénients :

Performances limitées proche des haut-parleurs, distorsion de la scène sonore due à l’effet de précédence.
Demande plus de ressources CPU

Comparison of localization error for VBAP (left) and DBAP (right)

WFS

Principe

La WFS (wave field synthesis) se base sur le principe de Huygens-Fresnel, qui stipule que tout front d’onde sonore peut être décomposée en une superposition d’ondes sonores élémentaires. L’utilisation d’un grand nombre de haut-parleurs comme sources élémentaires permet ainsi de reconstruire un front d’onde. On peut donc spatialiser des sources sonores en recréant les fronts d’onde correspondant à la position souhaitée de la source virtuelle. En pratique, cela est fait en calculant les retards et les atténuations dues à la propagation acoustique entre la source virtuelle et les haut-parleurs pour les sources se situant derrière les haut-parleurs. Les calculs sont alors proches du DBAP auquel on ajoute des retards. Le principe de WFS peut être étendu pour créer des fronts d’onde pour des sources situées devant les haut-parleurs, dans la zone d’écoute. [4]

Avantages

Spatialisation sonore conservée dans l’intégralité de la zone d’écoute
Le champ sonore est fidèlement recréé
Possibilité de spatialiser des sons à l’intérieur de la zone d’écoute
L’Effet de précédence disparaît

Inconvénients

Nécessite un grand nombre de haut-parleurs, proches les uns des autres
Calculs très lourds en raison du grand nombre de canaux audio
Très cher et peu transportable
Interférences à plus ou moins haute fréquence en fonction de l’écartement des haut-parleurs.

NESS

Principes mis en œuvre
Les algorithmes de spatialisation de NESS implémentent les principes de la WFS. Les gains pour chaque haut-parleurs sont calculés selon les principes du DBAP [3] auxquels sont ajoutés des retards sur le principe de la WFS. L’ajout de retards permet de renforcer la spatialisation et la focalisation des sources sonores en jouant sur l’effet de précédence. Les modèles de perception en vecteurs d’énergie étendus permettent de prouver la réduction significative de l’erreur de localisation et la largeur perçue de la source.[5] [1]. Le DBAP permet également l’utilisation de haut-parleurs placés de manière irrégulière.

Adaptation à la configuration de haut-parleurs.
L’utilisation des paramètres de « blur » et de « rolloff » décrits dans les algorithmes DBAP[3] permettent d’assurer une restitution des sources sans artefacts dépendant de leurs positions relatives aux haut-parleurs.
Le paramètre « blur » permet de lisser les variations de gains lorsque les sources se trouvent à proximité des haut-parleurs, ou lorsque l’écart entre les haut-parleurs est important, en ajoutant un offset plus ou moins grand dans le calcul de distance.
Le réglage du « rolloff » permet d’intensifier ou d’adoucir l’effet de panning en jouant sur la loi décroissance acoustique en fonction de la distance. Un rolloff plus élevé permet d’augmenter les différences de gain entre les haut-parleurs sur des configurations de dimensions modestes.
De nombreuses fonctions dérivées des modèles de perception permettent également de jouer sur la largeur perçue de la source, la variation d’intensité avec la distance.

Figure 1 : comparaison des directions d'arrivée et de la largeur perçues d'une source fantôme avec l'algorithme NESS, avec et sans utilisation de retards

Moteur de réverbération
Le moteur de réverbération de NESS est construit sur les principes du réflecteur acoustique actif[6]. Un ensemble de 4 micros capte les sources sonores virtuelles, alimentent 4 bus de réverbération où ils sont convolués à 4 réponses impulsionnelles. Les signaux convolués sont ensuite respatialisés sur l’ensemble des haut-parleurs. Lorsque les micros virtuels sont positionnés au loin (à l’arrière pour une scène frontale, tout autour pour une scène surrond), les sources s’éloignant des haut-parleurs se rapprochent des micros, le signal réverbéré est renforcé pour ces sources, créant l’effet de distance. La méthode est illustrée sur le blog wfs-diy.net

Gestion de mouvements
NESS permet pour chaque source l’édition de mouvements grâce à un éditeur de trajectoire. La trajectoire permet de contrôler à la fois la position et la vitesse de l’objet sonore. Chaque segment de la trajectoire étant parcouru par l’objet avec la même durée, lorsque deux points de la trajectoire sont rapprochés, la vitesse diminue et inversement.[7]
Lors de mouvements de sources, les retards calculés pour chaque haut-parleur varient dans le temps, ce qui peut créer un effet doppler. L’utilisation de lignes de retard interpolées et le lissage de ces retards par un filtre du 2e ordre assurent l’absence de clics et une diminution significative du détimbrage lié à l’effet doppler. La constante de temps de lissage des délais peut être réglée dans les paramètres de spatialisation.

Bibliographie

[1] E. Kurz, « Efficient prediction of the listening area for plausible reproduction », p. 98.
[2] V. Pulkki, « Spatial sound generation and perception by amplitude panning techniques », Helsinki University of Technology, Espoo, 2001.
[3] T. Lossius, « DBAP - Distance-Based Amplitude Panning », p. 5.
[4] A. J. Berkhout, « A Holographic Approach to Acoustic Control », J. Audio Eng. Soc, vol. 36, no 12, p. 977‑995, 1988.
[5] J. C. Middlebrooks, « Sound localization », in Handbook of Clinical Neurology, vol. 129, Elsevier, 2015, p. 99‑116. doi: 10.1016/B978-0-444-62630-1.00006-8.
[6] X. Meynial, « Reflecteur sonore actif EP1211668A1.pdf », Reflecteur sonore actif, 11 2001.

Merci de renseigner le formulaire ci-dessous pour télécharger le fichier