Fundamentos de la Codificación de Audio Digital y Percepción Sonora
Enviado por Chuletator online y clasificado en Electricidad y Electrónica
Escrito el en español con un tamaño de 9,42 KB
Codificación de Audio Digital
Diferencias Clave entre Audio y Voz
El audio, en comparación con la voz, presenta características distintivas que influyen en su procesamiento y codificación:
- Frecuencias de muestreo superiores: Requiere una mayor tasa de muestreo para capturar un rango más amplio de frecuencias.
- Mayor resolución en amplitud: Necesita más bits por muestra para representar un mayor rango dinámico.
- Mayor rango dinámico: La diferencia entre los sonidos más suaves y los más fuertes es significativamente mayor.
- Mayores variaciones de la densidad espectral de potencia: La distribución de energía a través del espectro de frecuencias es más compleja y variable.
- Representaciones estéreo y multicanal: A menudo se presenta en formatos con múltiples canales para una experiencia inmersiva.
- Mayores expectativas de calidad: Los usuarios esperan una fidelidad de sonido superior en el audio.
- Ausencia de un modelo de producción: A diferencia de la voz, no existe un modelo fonético o lingüístico subyacente que simplifique su codificación.
El sonido se transmite a través de ondas de presión acústica y puede expresarse de dos maneras principales:
- Nivel de Intensidad Sonora (SIL): La intensidad más empleada es el umbral de audición a la frecuencia de 1000 Hz. El nivel mínimo de audición es 0 dB SIL.
- Nivel de Presión Sonora (SPL): Es más común. El nivel de referencia suele ser el umbral de audición a la frecuencia de 1000 Hz.
Umbral de Audición y Percepción Sonora
El umbral de audición se refiere al nivel mínimo de sonido que el oído humano puede percibir. En este contexto:
- Se favorecen las frecuencias clave para la percepción.
- Existe una percepción selectiva, donde el cerebro prioriza ciertos sonidos.
- La percepción es logarítmica en intensidad y tono, lo que significa que percibimos los cambios de forma no lineal.
Sonoridad y Nivel de Sonoridad
La sonoridad es la sensación subjetiva que nos produce el nivel de presión sonora de un sonido. Depende de varios factores:
- Intensidad: El nivel de energía del sonido.
- Frecuencia: La altura del sonido.
- Ancho de banda: El rango de frecuencias que abarca el sonido.
Es importante destacar que dos sonidos con distintas frecuencias e igual intensidad pueden parecernos uno más sonoro que otro debido a la curva de respuesta del oído humano.
El Oído Humano: Estructura y Función
El oído es el órgano responsable de la audición y se divide en tres secciones principales:
Oído Externo
- Pabellón Auricular: Ofrece direccionalidad al sonido, ayudando a localizar su origen.
- Conducto Auditivo: Actúa como un resonador, amplificando las frecuencias entre 50 Hz y 4 kHz. Este es el rango de frecuencias más relevante en el lenguaje humano.
La Escala de Nivel de Sonoridad (LN) define el nivel de presión sonora que debe tener un sonido para ser percibido por el ser humano. La referencia es 1000 Hz, y la unidad de medida es el fon.
Oído Medio
- Tímpano: Transforma la energía acústica en energía mecánica. Puede distorsionar el sonido a niveles superiores a 120 dB SPL.
- Cadena Osicular (martillo, yunque y estribo): Realiza una adaptación de impedancia mecánica entre el aire del conducto auditivo y el líquido del caracol, asegurando una transmisión eficiente del sonido.
Oído Interno
- Membrana Basilar: Contiene aproximadamente 30.000 células ciliadas que detectan la vibración del fluido interno (endolinfa y perilinfa).
- Cada zona de la membrana basilar responde a una determinada frecuencia, permitiendo la discriminación tonal.
- El estímulo más fuerte es el que se envía al cerebro para su procesamiento.
Archivos MIDI: Musical Instrument Digital Interface
Los archivos MIDI (Musical Instrument Digital Interface) no almacenan audio directamente, sino instrucciones para producir sonido. Codifican información como:
- Cuándo empieza y acaba una nota (Note On, Note Off).
- Permite hasta 16 instrumentos simultáneos.
- Parámetros de control como ataque, volumen o modulación.
MIDI vs. Audio Digital: Una Comparativa
A continuación, se presenta una tabla comparativa entre MIDI y Audio Digital:
Característica | MIDI | Audio Digital |
---|---|---|
Contenido | Codifica instrucciones para encender o apagar un sonido. | Almacena audio muestreado (ondas sonoras). |
Eficiencia | Muy eficiente (aproximadamente 1 kbps). | Menos eficiente (aproximadamente 100 kbps o más). |
Calidad de Reproducción | Depende de la calidad del reproductor o sintetizador. | Siempre la misma calidad de reproducción (fiel al original). |
Tipos de Sonido | Solo reproduce elementos sintéticos o instrumentales. | Puede almacenar cualquier sonido (voz, música, efectos, etc.). |
Codificación de Audio Sin Pérdidas
La codificación sin pérdidas busca reducir el tamaño de los archivos de audio eliminando redundancias, sin descartar información audible. Se basa en la explotación de diferentes tipos de redundancia:
- Redundancia Temporal: Se utiliza la predicción lineal para predecir la muestra siguiente a partir de las anteriores, codificando únicamente el error de predicción.
- Redundancia Estadística: Se aplica codificación estadística, asignando códigos más cortos a los símbolos o patrones más frecuentes.
- Redundancia entre Canales: En audio multicanal, se explota la correlación entre los canales para una codificación multicanal más eficiente.
Codificación Entrópica
La codificación entrópica es una técnica fundamental en la compresión de datos. Su principio es asignar códigos más cortos a símbolos con mayor probabilidad de aparición y códigos más largos a los menos probables. La longitud media del código (L) se calcula como: L = Σ p(xi)L(xi).
Según el Teorema de Codificación de Fuente de Shannon, la longitud media del código (L) debe ser mayor o igual que la entropía de la fuente (H), es decir, L ≥ H.
Tipos de Codificación Entrópica
- Codificación Huffman: Es independiente de la estadística del alfabeto de símbolos y cumple con la condición H ≤ L (garantizando una compresión sin pérdidas).
- Codificación Aritmética: Es especialmente adecuada para codificar secuencias de símbolos, logrando una compresión muy cercana al límite teórico de la entropía.
- Codificación Golomb-Rice: Muy adecuada para datos con una estadística laplaciana, lo que la hace ideal para la codificación de audio, especialmente en la codificación del error de predicción.
Codificación Multicanal
En sistemas de audio multicanal, la correlación entre canales (por ejemplo, entre el canal izquierdo y derecho en estéreo) supone una oportunidad adicional de compresión. La codificación conjunta de estos canales explota aún más las redundancias multicanal, logrando una mayor eficiencia en la compresión.
Formatos de Compresión de Audio Sin Pérdidas
Algunos de los formatos de compresores de audio que permiten una codificación sin pérdidas son:
- MLP (Meridian Lossless Packing)
- MPEG-4 ALS (Audio Lossless Coding)
- AudioPack (referencia genérica o específica, si es un formato menos conocido)
- ALAC (Apple Lossless Audio Codec)