Los investigadores han estado buscando formas de descomponer el sonido en sus ingredientes básicos durante más de 200 años. En la década de 1820, el científico francés Joseph Fourier propuso que cualquier señal, incluidos los sonidos, se puede construir utilizando suficientes ondas sinusoidales. Estas ondas suenan como silbidos, cada una tiene su propia frecuencia, nivel y tiempo de inicio, y son los componentes básicos del sonido.

Sin embargo, algunos sonidos, como la flauta y una voz humana entrecortada, pueden requerir cientos o incluso miles de senos para imitar exactamente la forma de onda original. Esto se debe al hecho de que tales sonidos contienen una estructura menos armónica y más ruidosa, donde todas las frecuencias ocurren a la vez. Una solución es dividir el sonido en dos tipos de componentes, senos y ruido, con un número menor de ondas sinusoidales sibilantes y combinadas con ruidos variables, o silbidos, para completar la imitación.

Incluso este modelo de sonido de dos componentes ‘completo’ tiene problemas con el suavizado de los comienzos de los eventos de sonido, como las consonantes en la voz o los sonidos de batería en la música. Un tercer componente, llamado transitorio, se introdujo alrededor del año 2000 para ayudar a modelar la nitidez de tales sonidos. Los transitorios por sí solos suenan como clics. Desde entonces, el sonido se ha dividido a menudo en tres componentes: senos, ruido y transitorios.

El modelo de tres componentes de senos, ruido y transitorios ahora ha sido refinado por investigadores del Laboratorio de Acústica de la Universidad Aalto, utilizando ideas de percepción auditiva, lógica difusa y reconstrucción perfecta.

La descomposición refleja la forma en que escuchamos los sonidos.

El investigador doctoral Leonardo Fierro y el profesor Vesa Välimäki se dieron cuenta de que la forma en que las personas escuchan los diferentes componentes y separan los silbidos, clics y silbidos es importante. Si un clic se extiende en el tiempo, comienza a sonar y suena más fuerte; por el contrario, centrarse en sonidos muy breves puede provocar cierta pérdida de tonalidad.

Esta intuición de la percepción auditiva se combinó con la lógica difusa : en cualquier momento, parte del sonido puede pertenecer a cada una de las tres clases de senos, transitorios o ruido, no solo a una de ellas. Con el objetivo de lograr una reconstrucción perfecta, Fierro optimizó la forma en que se descompone el sonido.

En el método mejorado, los senos y los transitorios son dos características opuestas del sonido, y no se permite que el sonido pertenezca a ambas clases al mismo tiempo. Sin embargo, cualquiera de los dos tipos de componentes opuestos aún puede ocurrir simultáneamente con el ruido. Así, la idea de lógica difusa está presente de forma restringida. El ruido funciona como un enlace borroso entre los senos y los transitorios, describiendo todos los matices del sonido que no son captados por simples clics y silbidos. “Es como encontrar la pieza que falta en un rompecabezas para conectar esas dos partes que antes no encajaban”, dice Fierro.

Este método de descomposición mejorado se comparó con métodos anteriores en una prueba de escucha. Se pidió individualmente a once oyentes experimentados que auditaran varias excepciones breves de música y los componentes extraídos de ellas utilizando diferentes métodos.

El nuevo método surgió como la forma ganadora de descomponer la mayoría de los sonidos, según las calificaciones de los oyentes. Solo cuando hay un vibrato fuerte en un sonido musical, como en una voz cantada o el violín, todos los métodos de descomposición luchan, y en estos casos algunos métodos anteriores son superiores.

Un caso de uso de prueba para el nuevo método de descomposición es la modificación del sonido en la escala de tiempo, especialmente la ralentización de la música. Esto se probó en una prueba de preferencia auditiva contra el método anterior del propio laboratorio, que fue seleccionado como la mejor técnica académica en un estudio comparativo hace unos años. Nuevamente, el nuevo método de Fierro fue un claro ganador.

«El nuevo método de descomposición del sonido abre muchas posibilidades interesantes en el procesamiento del sonido», afirma el profesor Välimäki. ‘La ralentización del sonido es actualmente nuestro principal interés. Llama la atención que por ejemplo en las noticias deportivas, los vídeos a cámara lenta siempre son mudos. La razón es probablemente que la calidad del sonido en las herramientas de audio de ralentización actuales no es lo suficientemente buena. Ya comenzamos a desarrollar mejores métodos de modificación de escala de tiempo, que utilizan una red neuronal profunda para ayudar a estirar algunos componentes”.

La descomposición del sonido de alta calidad también permite nuevos tipos de técnicas de remezcla de música. Uno de ellos conduce a una compresión de rango dinámico sin distorsiones. Es decir, el componente transitorio a menudo contiene los picos más fuertes en la forma de onda del sonido, por lo que simplemente reducir el nivel del componente transitorio y mezclarlo con los demás puede limitar el valor pico a pico del audio.

Leonardo Fierro demuestra cómo se puede usar la aplicación « SiTraNo » para descomponer el sonido en sus átomos, en este caso él mismo rapeando, en este video : https://youtu.be/nZldIAYzzOs