Clasificación del Romanticismo

Enviado por Chuletator online y clasificado en Español

Escrito el 27 de Junio de 2020 en español con un tamaño de 6,04 KB

Segunda generación de lingüística de corpus::

Las carácterísticas más destacadas de los corpus de estas décadas son:

a) La presencia del ordenador:
Solo en los años sesenta los ordenadores alcanzaron una

potencia de procesamiento y una capacidad de almacenamiento suficientes para

poder albergar grandes cantidades de texto, aunque en un principio no todos los

proyectos para recopilar corpus se concebían pensando en su informatización. No

obstante, el vínculo entre los corpus y los ordenadores ya había sido establecido a

finales de los cuarenta por R. Bussa (McEnery 2003:452).

b) Carácter representativo de los datos: la mayoría de los proyectos de elaboración de

corpus pretendía agrupar textos escritos que dieran cuenta del estado de la lengua en

ese momento. Durante la década de los cincuenta. A. Juilland establecíó los

conceptos de marco de la muestra, representatividad y equilibrio, básicos en el

concepto actual de corpus.

c) Tendencia a desfavorecer los datos orales por las dificultades técnicas y de

transcripción. Predominan los corpus de textos escritos, aunque con notables

excepciones.

d) Tamaño: un millón de palabras.

Y podemos destacar algunos corpus de este período como:

En Inglaterra, Quirk sentó en 1959 las bases para la elaboración del Survey of English Usage Corpus (SEU), corpus amplio y variado estilísticamente empezó a recopilarse en 1961 con la intención de servir base para una descripción sistemática del inglés británico hablado y escrito.

No obstante, el mérito de ser el primer corpus concebido específicamente para tener un formato electrónico hay que otorgárselo al trabajo que llevaron a cabo N. Francis y H. Kučera en EE.UU., conocido de forma abreviada como Brown Corpus. Este se trata de un corpus de un millón de palabras, creado con el objetivo de dar cuenta del inglés americano escrito en prosa.

Además, el diseño de este corpus sirvió de modelo para otros corpus compilados con posterioridad, como el LOB (Lancaster-Oslo/Bergen Corpus), de inglés británico, o el Kolhapur, de inglés de la India, que seguían los mismos parámetros con el fin de comparar variedades de la lengua.

Renacer de la lingüística de corpus:: (móvil)

Características de un corpus::

Se cree conveniente que los corpus deben cumplir los siguientes requisitos:

1. Textos en formato electrónico: un corpus, para ser una herramienta útil al lingüista, debe estar informatizado, es decir, los textos de que consta tienen que estar en formato electrónico (corpus informatizado o automatizado). El hecho de que para los primeros corpus no se pudiera disponer de ordenadores motivó la crítica de las pseudo-técnicas. Sin embargo, el empleo del ordenador permite automatizar tareas tales como::

--Búsqueda de información

--Recuperación de información

--Cómputo de la frecuencia de aparición de una palabra, secuencia de palabras, etc. Clasificación de los datos contenidos en el corpus según diferentes criterios. (orden alfabético, frecuencia de aparición, autor, procedencia geográfica, tema, medio de publicación,etc).

2.
Autenticidad de los datos: los textos recogidos en el corpus deben ser muestras

reales de uso de la lengua objeto de estudio.

3. Criterios de selección: los textos que forman parte del corpus deben haber sido

elegidos de acuerdo con unos determinados criterios –lingüísticos y/o

extralingüísticos– para la finalidad concreta que persiga el corpus.

4.
Representatividad: la selección de los textos, además de a unos criterios adecuados, debe responder a parámetros estadísticos que garanticen que los textos representan la variedad de lengua objeto de estudio (muestra representativa).

Esta variedad puede referirse a la obra de un autor determinado, a un período de tiempo, a un género, etc.

Cuando lo que nos interesa es la lengua en su conjunto, la opción de reunir en un corpus todas las muestras de esta se hace impracticable, a diferencia, por ejemplo, de lo que ocurre si queremos recoger todas las obras de Cervantes, que son un universo cerrado. La única solución posible, entonces, es tomar una muestra más pequeña de esa lengua, que refleje, a pequeña escala, el funcionamiento del todo que es la lengua. Como Chomsky criticó con acierto, los corpus corren el riesgo de ser sesgados. Para subsanar este problema se recurre a la selección, según criterios estadísticos, de textos de diversos géneros, tipologías, temas, medios de publicación, etc.

5. Tamaño: por lo general, los corpus constan de un tamaño finito, que se suele medir en millones de palabras (o formas) y que se fija antes de empezar la recogida de los textos (por ejemplo, un millón de palabras); una vez alcanzado ese número, se da por terminada la recopilación del corpus, que no es más que el primer paso de todo el proceso. En el pasado se pensaba que el tamaño era muy importante: mientras mayor fuera el corpus, más posibilidades de reflejar el funcionamiento real de la lengua en todas sus variedades, pero en la actualidad priman los criterios de diseño, es decir, el tamaño solo es importante en la medida en que así lo exija la finalidad del corpus.

Entradas relacionadas:

Etiquetas: