Conceptos Clave en Traducción y Procesamiento del Lenguaje Natural
Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 3,8 KB
Conceptos Fundamentales en Traducción y Tecnologías del Lenguaje
Localización e Internacionalización
Localización: Es la traducción y adaptación de programas informáticos o volúmenes de información procesados en programas informáticos a un contexto cultural y lingüístico específico.
Internacionalización: Consiste en diseñar una aplicación de manera que pueda adaptarse a diferentes lenguas y regiones sin necesidad de cambiar el código fuente. Esto facilita la posterior localización.
Código: Conjunto de todas las instrucciones, órdenes y sentencias escritas en un lenguaje de programación que, al ejecutarse, hacen que el programa funcione o realice la tarea para la que fue diseñado.
Características de XML
XML (Extensible Markup Language):
- Es un conjunto no finito (a diferencia de HTML).
- El formato se ha separado del texto en una hoja de estilo (stylesheet). Esto permite reutilizar el texto en diferentes contextos.
- La sintaxis es estricta.
Traducción Asistida y Traducción Automática
Traducción Asistida por Ordenador (TAO): Facilita la tarea al traductor humano mediante el uso de memorias de traducción y bases de datos terminológicas. El traductor es quien realiza la traducción, pero la herramienta le ayuda a reciclar y reutilizar traducciones anteriores.
Traducción Automática (TA): El programa realiza la traducción. El usuario puede intervenir, en algunos casos, ampliando diccionarios o bases de datos, o añadiendo reglas. Otras intervenciones posibles son:
- Editar el texto original.
- Preparar el texto (preedición).
- Cortar frases largas.
Corpus Lingüísticos
Corpus: Cualquier cuerpo textual o compilación de textos, procesados o no procesados.
- Lema: Agrupa todas las formas de una palabra. Una búsqueda por lema recupera todas las variantes de la palabra.
- Palabra: Búsqueda de la forma exacta de la palabra.
- Corpus etiquetado: Permite buscar por lemas y palabras.
- Corpus no etiquetado: Solo permite buscar por palabras (formas exactas).
- Corpus no anotado: Solo permite buscar formas, palabras y frases concretas. No es útil para analizar el comportamiento de verbos, por ejemplo.
- Corpus anotado: Está lematizado y permite analizar el comportamiento de verbos y otras categorías gramaticales. Debe contener, como mínimo, información morfológica.
Lenguajes de Marcado
Lenguaje de marcado: Lenguajes utilizados para codificar el formato de un texto en páginas web, bases de datos, etc. Ejemplos: XML, HTML. Permiten separar el formato del contenido textual. Un ejemplo de código sería: <tuv datatype>
Traducción Automática Estadística e Interlingua
Traducción Automática Estadística: Calcula las probabilidades de que una frase sea la traducción de otra. Se basa en:
- Modelo de traducción: Requiere un corpus paralelo. Se calcula la frecuencia con la que cada palabra se traduce de una determinada manera, obteniendo un porcentaje de probabilidad.
- Modelo de lengua: Utiliza un corpus monolingüe de la lengua de llegada. Las secuencias más frecuentes se consideran más probables como traducción.
Interlingua: Representación abstracta de una cadena lingüística que permite la traducción directa entre diferentes lenguas. Es un punto ideal, aunque utópico, similar al concepto del esperanto como lengua universal.