Fundamentos de Codificación de Audio: Modelos Psicoacústicos y Compresión

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el 23 de Marzo de 2026 en español con un tamaño de 3,11 KB

Codificación con Pérdidas

La codificación perceptual explota tanto las irrelevancias perceptuales (mediante el modelo psicoacústico) como las redundancias estadísticas (a través de la cuantificación y codificación). El límite de este proceso está definido por la entropía perceptual.

Modelo Psicoacústico: Fases de Asignación de Bits

Este modelo determina cuántos bits son necesarios por banda:

Análisis espectral: Se realiza mediante los coeficientes de la FFT de 512 muestras.
Identificación de componentes: Se distinguen componentes tonales y ruidosas. Las componentes ruidosas se construyen a partir de los coeficientes de la FFT de cada banda crítica que no son vecinos de una componente tonal.
Diezmado y reordenación de máscaras: Se eliminan las componentes por debajo del umbral absoluto. Cada par de componentes a una distancia menor de 0.5 barks es sustituida por la más fuerte. Las líneas espectrales que pueden contener máscaras se reducen de 256 a 100.
Cálculo de nuevos umbrales individuales: Se aplica un modelo de máscara individual en todos los componentes obtenidos; su altura varía dependiendo de si la componente enmascarada es tonal o ruidosa.
Cálculo del umbral de enmascaramiento global: Se unifican todas las máscaras bajo el supuesto de que tienen un efecto aditivo.

Principios Psicoacústicos

Umbral absoluto de audición/percepción (Tq(f)): Representa la energía mínima necesaria para que un tono sea detectado y establece el máximo nivel de distorsión permisible para la codificación.
Bandas críticas: Regiones frecuenciales donde se responde al estímulo más alto. Se definen mediante la unidad bark, existiendo 25 bandas ideales.
Enmascaramiento en frecuencia: La señal se modela como un conjunto de tonos y ruidos de banda estrecha.
Enmascaramiento temporal: Fenómeno donde tonos no simultáneos se enmascaran (pre-masking, post-masking e integración temporal del cerebro).

Filtrado Crítico

Debe existir un factor igual al número de filtros. Idealmente, los filtros no se solapan, aunque en la práctica es necesario. Se utilizan:

QMF: Quadrature Mirror Filters.
PQMF: Pseudo QMF.

Asignación de Bits

Si el SMRn < 0, la banda no se codifica. En caso contrario, se utiliza el mínimo m que cumpla SNRn(m) > SMRn. Si el número de bits no es suficiente para cumplir los requisitos de SMR, se busca la distribución que minimiza la distorsión mediante codificación por subbanda.

Codificadores por Transformada

Las muestras se codifican en un dominio transformado con el objetivo de eliminar redundancias sucesivas, empleando herramientas como la DCT (Transformada Discreta del Coseno) en esquemas de codificación híbrida.

Entradas relacionadas:

Etiquetas: