Procesamiento Digital de Imágenes: Conceptos y Aplicaciones

Enviado por Programa Chuletas y clasificado en Plástica y Educación Artística

Escrito el en español con un tamaño de 11,91 KB

El procesamiento digital de imágenes no sólo es un área que se usa en el ámbito científico y tecnológico, también en el ámbito de mercadotecnia y en la cinematografía (procesamiento digital de video).

El procesamiento digital de imágenes no sólo es un área que se usa en el ámbito científico y tecnológico, también en el ámbito de mercadotecnia y en la cinematografía (procesamiento digital de video)

Objetivo del Procesamiento de Imágenes

Objetivo final: emular la visión humana. Ver es captar y entender imágenes.

  • Procesamiento de imágenes – imagen de entrada → imagen de salida
  • Análisis de imágenes – imagen de entrada → métricas de salida
  • Comprensión de imágenes – imagen de entrada → descripciones de alto nivel

Definición de Imagen

Imagen es una señal o luz captada por fotorreceptores en un momento dado.

Imagen (visión artificial): Aquella captada por un dispositivo electrónico y luego almacenada.

La imagen captada puede ser analógica o digital.

Imagen es una estructura de datos que representa una escena en dos dimensiones. Una imagen en el "mundo real" es una función de dos variables reales, por ejemplo, a(x,y) con a como la amplitud (brillo) de la imagen en la coordenada posición (x,y). Una imagen digital a[m,n] descrita en un espacio 2D discreto se deriva de una imagen análoga a(x,y) en un espacio 2D continuo a través de un proceso llamado digitalización.

Digitalización de Imágenes

Al digitalizar, la imagen continua en 2D es dividida en N renglones y M columnas. La intersección de un renglón y una columna se llama píxel. El valor asignado a las coordenadas [m,n] con {m=0,1,2,...,m-1} y {n=0,1,2,...,N-1} es a[m,n]. En la mayoría de los casos a(x,y) es una función de varias variables, incluyendo profundidad (z), color (*) y tiempo (t). Es común que una imagen contenga sub-imágenes llamadas regiones de interés (ROI, regions of interest).

Características de las Imágenes Digitales

Dependen de estándares de video, requisitos algorítmicos o para mantener simples los circuitos digitales:

  • Filas o Renglones N: 256, 512, 525, 625, 1024, 1035
  • Columnas M: 256, 512, 768, 1024, 1320
  • Niveles de gris L: 2, 64, 256, 1024, 4096, 16384

El número de niveles de gris distinto es L=2B donde B es el número de bits en la representación binaria de los niveles de brillo. Cuando B>1 se trata de una imagen de niveles de gris; cuando B=1 se trata de una imagen binaria.

Procesamiento de Imágenes: Definición y Niveles

Consiste en la manipulación de la información contenida en una imagen. Puede ser digital o analógica. Normalmente se puede entender como el procesamiento de señales electromagnéticas captadas por unos sensores fotosensibles. El Procesamiento de Imágenes Digitales (PID) involucra el tratamiento de las imágenes digitales mediante una computadora a través de algoritmos. El procesamiento de imágenes analógicas también es posible mediante técnicas de procesamiento de señales.

Niveles de Procesamiento de Imágenes

NIVEL BAJO: Imagen → Imagen. No se hace interpretación de la imagen, ni se extrae información, solo se modifica la imagen. Se usan técnicas muy generales. Normalmente asociado con el PID.

NIVEL INTERMEDIO: Imagen → Métricas. Se extrae información de la imagen pero no se interpreta. Usualmente asociado con el Análisis de Imágenes.

NIVEL ALTO: Imagen → Interpretación. Se interpreta la escena fotografiada. Técnicas muy específicas. Normalmente asociado con la Visión Computacional o Visión Artificial.

Conceptos Clave en Visión por Computadora

Visión por computadora.- Consiste en la adquisición, procesamiento, clasificación y reconocimiento de imágenes digitales.

Píxel.- Elemento básico de una imagen (picture element).

Imagen.- Arreglo bidimensional de píxeles con diferente intensidad luminosa (escala de gris).

Intensidad luminosa: de cada píxel se representa por n bits, entonces existirán 2n escalas de gris diferentes. Matemáticamente, una imagen se representa por r = f (x, y) , donde r es la intensidad luminosa del píxel cuyas coordenadas son (x,y).

Matemáticamente, un sistema para procesar imágenes se representa como g(x, y) = T[f (x, y)].

Color en Imágenes Digitales

Color.- El color se forma mediante la combinación de los tres colores básicos rojo, azul y verde (en inglés RGB). A continuación se presentan algunas definiciones básicas para comprender los espacios de color:

Brillo.- Indica si un área está más o menos iluminada.

Tono.- Indica si un área parece similar al rojo, amarillo, verde o azul o a una proporción de ellos.

Luminosidad.- Brillo de una zona respecto a otra zona blanca en la imagen.

Croma.- Indica la coloración de un área respecto al brillo de un blanco de referencia.

Para obtener una imagen a color deben transformarse primero los parámetros cromáticos en eléctricos y representar los colores, lo cual puede realizarse de diferentes maneras, dando lugar a diferentes espacios de colores o mapas de color.

Espacio RGB.- se basa en la combinación de tres señales de luminancia cromática distinta: rojo, verde, azul (Red, Green, Blue). La forma más sencilla de obtener un color específico es determinar la cantidad de color rojo, verde y azul que se requiere combinar para obtener el color deseado; para lo cual se realiza la suma aritmética de las componentes: X = R + G + B, gráficamente representada por un cubo. En la recta que une el origen con el valor máximo se encuentran ubicados los grises (escala de gris) debido a que sus tres componentes son iguales.

Cuando una cámara adquiere una imagen a color, para cada píxel en color se tienen en realidad 3 componentes, una para cada uno de los colores básicos (rojo, verde y azul); la ganancia máxima para cada componente corresponde a la longitud de onda de los tres colores básicos.

Color: Un color puede definirse como la combinación de tres colores básicos: rojo, verde y azul, y expresarse mediante una tripleta de valores de 0 a 1 (R, G, B), donde R, G y B representan las intensidades de cada uno de los tres colores básicos rojo, verde y azul, respectivamente. En la tabla I se presentan ejemplos de colores definidos mediante estas tripletas. El mapa de color es una matriz de n x 3, donde cada renglón es una tripleta de colores. El primer renglón corresponde al valor mínimo del eje de color y el último renglón al máximo. Al definir diferentes distribuciones de intensidad de los tres colores básicos, se crean diferentes mapas de color. Algunos de los mapas de color predeterminados en MATLAB son: hsv, cool, hot, jet, gray, flag.

Histograma de una Imagen

El histograma de una imagen es una representación del número de píxeles de cierto nivel de gris en función de los niveles de gris.

Relaciones entre Píxeles

Un píxel p con coordenadas (x,y) tiene cuatro vecinos horizontales y verticales, cuyas coordenadas son: (x+1,y), (x-1,y), (x,y-1), (x,y+1). A este conjunto de píxeles se llama vecindad 4 o 4 vecinos de p y se denota por N4(p). Nótese que para cada uno de estos píxeles hay una distancia de 1 de p y que en los bordes de la imagen algunos de estos píxeles quedarán fuera de la imagen. Existen también 4 vecinos diagonales de p con coordenadas: (x+1,y+1), (x+1,y-1), (x- 1,y-1), (x-1,y-1) y se les denota por ND(p). N4(p) y ND(p) juntos forman la vecindad 8 denotada por N8(p).

Conectividad

La conectividad es un concepto importante utilizado para establecer los límites de objetos en regiones dentro de una imagen. Para determinar si dos píxeles están conectados se determina si son adyacentes en algún sentido (ND(p), N4(p) por ejemplo) y si sus niveles de gris satisfacen un criterio de similaridad (por ejemplo si son iguales). Por ejemplo, en una imagen binaria con valores de 1 y 0, dos píxeles pueden ser vecinos N4(p), pero se dice que están conectados solo cuando tienen el mismo valor.

Distancia

La distancia o transformada de distancia proporciona una medición de la separación existente entre dos puntos dentro de una imagen. Dados tres píxeles, p, q y z, con coordenadas (x,y), (s,t) y (u,v), respectivamente, se puede definir una función de distancia D si se cumple:

  • D(p, q) ≥ 0, (D(p,q) = 0, si p = q)
  • D(p, q) = D(q, p)
  • D(p, z) ≤ D(p, q)+ D(q, z)

Las funciones de distancia comúnmente usadas son: distancia euclidiana, distancia Manhattan o de cuadra y distancia tablero de ajedrez.

Distancia euclidiana entre p y q: DE(p, q) = √((x - s)2 + (y - t)2).

Distancia Manhattan: se toman solamente en cuenta los vecinos de orden 4, es decir: D = |x -s| + |y- t|.

Distancia tablero de ajedrez: es similar a la distancia Manhattan, en donde se observa que los 4-vecinos están a una distancia unitaria del píxel central; si se desea que los 8-vecinos estén a la misma distancia se toma.

Ruido en Imágenes

Todas las imágenes tienen cierta cantidad de ruido, la cual se puede deber a la cámara o al medio de transmisión de la señal. Generalmente el ruido se manifiesta como píxeles aislados que toman un nivel de gris diferente al de sus vecinos.

Los algoritmos de filtrado que se verán más adelante permiten eliminar o disminuir este ruido. El ruido puede clasificarse en los siguientes tipos:

  • Gaussiano: produce pequeñas variaciones en la imagen; generalmente se debe a diferentes ganancias en la cámara, ruido en los digitalizadores, perturbaciones en la transmisión, etc. Se considera que el valor final del píxel sería el ideal más una cantidad correspondiente al error que puede describirse como una variable aleatoria gaussiana.
  • Impulsional (sal y pimienta): el valor que toma el píxel no tiene relación con el valor ideal, sino con el valor del ruido que toma valores muy altos o bajos (puntos blancos y/o negros) causados por una saturación del sensor o por un valor mínimo captado, si se ha perdido la señal en ese punto. Se encuentran también al trabajar con objetos a altas temperaturas, ya que las cámaras tienen una ganancia en el infrarrojo que no es detectable por el ojo humano; por ello las partes más calientes de un objeto pueden llegar a saturar un píxel.
  • Multiplicativo: La imagen obtenida es el resultado de la multiplicación de dos señales.

Procesamiento Espacial

El procesamiento espacial esta formado por aquellas técnicas que operan directamente sobre los valores de los píxeles de la imagen. Las transformaciones son de la siguiente forma: S(x, y)= F(I (x, y)) donde I(x,y) es la imagen original, S(x,y) la imagen resultante y F la transformación.

Entradas relacionadas: