Estrategias Avanzadas de Codificación de Voz para Audio Digital

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 4,49 KB

Codificación de Voz: Fundamentos y Técnicas

Codificación Diferencial (Predictiva)

  • La codificación diferencial (predictiva) es tanto más eficaz cuanto más redundante sea la señal.
  • La predicción es un mecanismo adecuado para obtener una estimación de la muestra a cuantificar a partir de las anteriores, cuantificando su diferencia con una señal conocida.

Tipos de Codificación Diferencial

  • ADPCM: Cuantificación adaptativa, predicción adaptativa.
  • APC: Utiliza un predictor largo, trabaja trama a trama.

Codificación en el Dominio de la Frecuencia

Estas técnicas explotan la redundancia de la señal en su dominio tiempo-frecuencia (TF), aprovechando la estructura de la envolvente espectral de la señal de voz y las propiedades perceptuales del oído.

  • Codificación por Sub-Bandas: Divide el espectro en bandas. Cada banda se codifica mediante APCM. Existe solapamiento, asignando más bits para las bandas bajas.
  • Codificación en el Dominio TF: Trabaja por tramas, asignando bits de modo proporcional a la amplitud de cada coeficiente espectral.

Codificación Híbrida

Representa un compromiso entre la codificación de forma de onda y los vocodificadores. Se basa en la codificación de análisis mediante síntesis:

  • La voz se divide en tramas de 20-30 ms.
  • Para cada trama, se estima un predictor corto.
  • El predictor largo se estima cada 5-10 ms.
  • La excitación óptima para cada subtrama se determina para minimizar la diferencia entre la voz codificada y la original.

Vocodificadores

Se basan en la descomposición de la señal de voz en parámetros básicos necesarios para su síntesis.

  • El modelo fuente-filtro es el más adoptado frecuentemente por su sencillez.
  • Otros vocodificadores codifican la posición de los formantes como parámetros.

Modelo de Tracto Vocal (LP)

  • Para x[n] estacionario: se estiman los coeficientes ak minimizando el error cuadrático medio respecto a dichos coeficientes.
  • Para x[n] no estacionaria: se realiza un análisis localizado.
    • Método de autocorrelación: se enventana la señal de voz.
    • Método de autocovarianza: se enventana el error.
  • Usando parámetros P y N adecuados, se puede generar un sistema que representa el tracto vocal (filtro todo polos).
  • El codificador envía los parámetros al DEC (coeficientes del filtro todo polos, ganancia, indicador sonoro/sordo).

Soluciones en Codificación de Voz

Codificación de Canal

Basada en la Protección Desigual (VEP). Los bits que codifican cada uno de los parámetros para la síntesis de la señal de voz se clasifican en función de su repercusión sobre la señal decodificada. Se asigna una cantidad mayor de bits de protección a cada una de las clases.

Se establecen 3 clases de sensibilidad del codificador a los bits transmitidos (Tx):

  • Clase 1a (muy sensible): Incluye casi todos los bits que codifican los parámetros del filtro de síntesis y algunos del filtro largo. Protegidos por CRC.
  • Clase 1b (sensibilidad media): Incluye el resto de bits del filtro largo y los más significativos de la excitación. Protegidos por códigos convolucionales.
  • Clase 1c (sensibilidad baja): Incluye el resto de bits de excitación. No protegidos.

Transmisión Discontinua (DTX)

  • En una conversación bidireccional, el 60% del tiempo se transmite solo ruido de fondo.
  • Puede suprimirse sin efectos importantes sobre la calidad.
  • Disminuye significativamente el uso de ancho de banda (BW).
  • Módulo VAD (Voice Activity Detection): Detecta la actividad vocal para determinar cuándo se debe transmitir.
  • CNG (Comfort Noise Generation): Los períodos de silencio completo son incómodos para el receptor. Se genera ruido de confort con las características del ruido de fondo existente, lo que requiere enviar periódicamente las características del ruido.

Codificación de Banda Ancha

Mientras que en los codificadores de banda estrecha se consideran hasta 3.4 kHz, en banda ancha el rango se extiende hasta 7 kHz, mejorando significativamente la calidad de la voz.

Entradas relacionadas: