Conceptos Clave en Traducción y Procesamiento del Lenguaje Natural

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 3,8 KB

Conceptos Fundamentales en Traducción y Tecnologías del Lenguaje

Localización e Internacionalización

Localización: Es la traducción y adaptación de programas informáticos o volúmenes de información procesados en programas informáticos a un contexto cultural y lingüístico específico.

Internacionalización: Consiste en diseñar una aplicación de manera que pueda adaptarse a diferentes lenguas y regiones sin necesidad de cambiar el código fuente. Esto facilita la posterior localización.

Código: Conjunto de todas las instrucciones, órdenes y sentencias escritas en un lenguaje de programación que, al ejecutarse, hacen que el programa funcione o realice la tarea para la que fue diseñado.

Características de XML

XML (Extensible Markup Language):

  • Es un conjunto no finito (a diferencia de HTML).
  • El formato se ha separado del texto en una hoja de estilo (stylesheet). Esto permite reutilizar el texto en diferentes contextos.
  • La sintaxis es estricta.

Traducción Asistida y Traducción Automática

Traducción Asistida por Ordenador (TAO): Facilita la tarea al traductor humano mediante el uso de memorias de traducción y bases de datos terminológicas. El traductor es quien realiza la traducción, pero la herramienta le ayuda a reciclar y reutilizar traducciones anteriores.

Traducción Automática (TA): El programa realiza la traducción. El usuario puede intervenir, en algunos casos, ampliando diccionarios o bases de datos, o añadiendo reglas. Otras intervenciones posibles son:

  • Editar el texto original.
  • Preparar el texto (preedición).
  • Cortar frases largas.

Corpus Lingüísticos

Corpus: Cualquier cuerpo textual o compilación de textos, procesados o no procesados.

  • Lema: Agrupa todas las formas de una palabra. Una búsqueda por lema recupera todas las variantes de la palabra.
  • Palabra: Búsqueda de la forma exacta de la palabra.
  • Corpus etiquetado: Permite buscar por lemas y palabras.
  • Corpus no etiquetado: Solo permite buscar por palabras (formas exactas).
  • Corpus no anotado: Solo permite buscar formas, palabras y frases concretas. No es útil para analizar el comportamiento de verbos, por ejemplo.
  • Corpus anotado: Está lematizado y permite analizar el comportamiento de verbos y otras categorías gramaticales. Debe contener, como mínimo, información morfológica.

Lenguajes de Marcado

Lenguaje de marcado: Lenguajes utilizados para codificar el formato de un texto en páginas web, bases de datos, etc. Ejemplos: XML, HTML. Permiten separar el formato del contenido textual. Un ejemplo de código sería: <tuv datatype>

Traducción Automática Estadística e Interlingua

Traducción Automática Estadística: Calcula las probabilidades de que una frase sea la traducción de otra. Se basa en:

  • Modelo de traducción: Requiere un corpus paralelo. Se calcula la frecuencia con la que cada palabra se traduce de una determinada manera, obteniendo un porcentaje de probabilidad.
  • Modelo de lengua: Utiliza un corpus monolingüe de la lengua de llegada. Las secuencias más frecuentes se consideran más probables como traducción.

Interlingua: Representación abstracta de una cadena lingüística que permite la traducción directa entre diferentes lenguas. Es un punto ideal, aunque utópico, similar al concepto del esperanto como lengua universal.

Entradas relacionadas: