sábado, 24 de enero de 2015

Introducción al Audio Digital (tercera parte)

Características del audio digital

1-Frecuencia de muestreo

    El proceso de captura de audio a soporte digital ser conoce como "muestreo" (sampling, en el ámbito de los DJ). Esta operación de codificación del audio analógico a 0, 1 tiene lugar a tiempo real, es decir mientras la señal de audio analógico (audio "real") se reproduce. En los grabadores de audio digital, tanto en sistemas dedicados como en las tarjetas de sonido populares, existe un componente llamado conversor AD (analógico-digital, es decir el componente que se encarga de convertir señales eléctricas a cadenas binarias). El proceso inverso, es decir la reproducción utiliza un conversor DA (digital-analógico). El conversor aplica una "rejilla" de tiempo al audio y captura el audio comprendido en las casillas de la rejilla. Podemos utilizar un ejemplo muy sencillo. Si queremos grabar un atleta que corre durante" x" metros en una pista olímpica, necesitamos una cámara que corra junto a éste (imagina la clásica cámara montada en rieles). Esta cámara capturará 25 fotos (frames, en el argot) por segundo. ¿25 y no 98 o 4.7? 25 fotos por segundo es más que suficiente para engañar al ojo humano y hacerle creer que esta sucesión de fotos es un movimiento real de un señor corriendo. Para capturar el audio de ese corredor necesitamos un micrófono y un grabador de audio que "fotografíe" el sonido. Para engañar al oído, necesitamos más de 25 fotos por segundo, bastantes más...44.100 fotos por segundo, para ser exactos.


    En el mundo del audio no se utiliza la expresión fotos por segundo, sino que se habla de la Frecuencia de Muestreo. Una frecuencia de muestreo de 44.100 se conoce como 44.1 kHz (Kilo Hercios). Esta frecuencia de muestreo permitiría no diferenciar la fuente un sonido que se produce en la habitación de al lado, oiríamos a un señor hablando y no sabríamos si es real o una grabación que se está reproduciendo. Si la frecuencia de muestreo fuera menor, por ejemplo 22.050 kHz, ese señor tendría una voz muy opaca, como si hablase con una mano tapándose la boca. Nos parecería muy raro, no sería una voz natural. ¡No podrían engañarnos!


    Existe una relación matemática que relaciona la frecuencia máxima registrable (es decir, hasta qué frecuencia podremos grabar) en función de la frecuencia de muestreo. Estamos hablando del teorema de Nyquist y básicamente nos dice que si queremos grabar una señal de audio que llega hasta "x" frecuencia, debemos utilizar una frecuencia de muestreo mínima de "2x", es decir el doble de la frecuencia más alta originada en la señal que deseamos grabar. Por ejemplo, si queremos grabar una señal de audio que llega hasta los 20 KHz, Nyquist nos dice que necesitamos una frecuencia de muestreo mayor o igual a 40kHz. Todos los CD del mercado reproducen audio con una frecuencia de muestreo de 44.1kHz, es decir, pueden reproducir perfectamente señales de audio con frecuencias de hasta 22050Hz (que es justamente el límite de frecuencias teórico que podemos oír los humanos; los elefantes poseen un límite inferior por debajo de los 10Hz y las hormigas mayor a 22kHz). La radio digital emplea una frecuencia de muestreo de 32kHz (hasta los 16000Hz) frente a los 96kHz del estándar DVD (hasta los 48000Hz). Por lo tanto..
.

2- Resolución de bits

    Ya sabemos que necesitamos tomar 44100 "fotos" del sonido por segundo, pero ¿estas fotos cómo se almacenan? En forma de bits, cadenas de 0 y 1 totalmente manejables por el ordenador. La cantidad de bits que se utilizan para representar la muestra del audio es la resolución de la muestra. Una resolución de 8 bits (1 byte) permite manejar valores de entre 0 a 255 (256 valores). Dicho de otra forma, para representar una señal máxima de 255 necesitaré 8 dígitos binarios (0 o 1) y en este ejemplo, 255 es 1111111 en binario (8 dígitos 1). Una palabra de 16 bits (2 bytes) maneja un valor máximo de 65535 (65536 si contamos el 0 como valor), 1111111111111111=65535.


    De esta forma, cada uno de las 44100 capturas realizadas contiene un valor codificado en "x" bits. Cuanto mayor sea la resolución, más calidad tendrá la grabación. Tanto la frecuencia de muestreo como la resolución tienen incidencia directa en la calidad de la grabación y reproducción de audio digital. La resolución, por su parte, también tiene incidencia directa en el rango dinámico o relación señal-ruido de la grabación (abreviada S/R o S/N en inglés y se mide en dB o decibelios). Existe una relación que indica que esta relación S/N es igual al resultado de multiplicar la resolución de bits por 6. Una grabación a 8 bits posee una relación S/N de 54dB, una de 16 bits 96dB y 144dB a 24 bits. Tengamos en cuenta que estos dB son valores teóricos y que en la práctica bajan sustancialmente debido a los componentes analógicos de los grabadores tarjetas de sondo, etc... Lo normal es que un grabador a 16 bits alcance los 90-92dB y lo extraordinario es que efectivamente nos entregue una S/N de 96dB. Para nosotros, los humanos, un rango dinámico de entre 90 y 100dB es suficiente. Estas cifras salen del propio rango dinámico humano, la diferencia entre el umbral de dolor y el umbral de audición

3-Rango dinámico / Relación señal ruido

    La relación señal ruido (S/N) es la diferencia entre el nivel de señal útil (música, sonido, etc...) y el nivel de ruido (ruido provocado por señales eléctricas en el interior de un equipo electrónico). El ruido se mide sin ninguna señal a la entrada del equipo. Para calcular este valor se toman mediciones del nivel de señal cuando se captura o se reproduce audio y se restan de las mediciones al mismo nivel sin señal alguna en las que puede apreciarse el ruido inherente del propio aparato. Dicho de otra forma, es la diferencia entre el nivel de la señal nominal y el nivel de la señal residual, al mismo nivel de trabajo.

     Una prueba muy sencilla, al escuchar música en tu mini-cadena hi-fi, sube el volumen al máximo (en modo stop) y comprobarás como el ruido residual aumenta ¿te gusta? Si con el volumen máximo pulsases el "play", el audio se reproduciría a su máximo volumen, la diferencia de volumen entre ese audio "a tope" y ese ruido residual es la S/N. Cuanto mayor sea la diferencia de volumen entre la señal útil y el ruido, mayor calidad tendrá el mismo. Técnicamente la señal se mide en voltios y para pasar a dB se calcula el 20·log(S/N) donde S es el valor de la "Señal" y N el valor del "Ruido" o "Noise", en inglés. Cuanto mayor sea el valor de S/N mayor calidad tendrá el audio.


    Ahora planteémonos un problema muy interesante. El hombre, como especie animal, tiene una limitación en su oído; no podemos oír toda la gran gama de frecuencias generadas en la naturaleza (o por medios artificiales, como esos antiguos mandos a distancia por ultra-sonidos). A partir de las frecuencias cercanas a los 20.000Hz, el silencio penetra en nuestros oídos. ¿Qué puede ocurrir si registro una señal de audio con un sonido que va más allá del umbral humano?
Imaginemos que estamos grabando audio con una frecuencia de muestreo de 44.1kHz y en ese audio se reproducen frecuencias cercanas a los 29.000Hz (que naturalmente no podemos oír). Nuestra grabación registrará todas las frecuencias hasta los 22.050Hz pero aparecerá un ruido de 15.1Hz (44.1kHz-29kHz), algo totalmente audible que en el original no existía. Estas frecuencias fantasmas se llaman "alias", dando nombre a una distorsión conocida como "aliasing". Para prevenir esto, tanto los sistemas de grabación de audio como las tarjetas de sido incluyen un filtro "anti-alisasing" que no permite la entrada de frecuencias superiores a la mitad de la frecuencia de muestro; estamos hablando otra vez de Nyquist.

Mr. ArzNova