Real Academia de la
Lengua Española

EL CORPES XXI

Colaboradora en un convenio con la Real Academia Española para la realización de un trabajo técnico sobre «Adquisición de textos, conversión a formato electrónico y codificación para el Corpus del español del siglo XXI (CORPESXXI)», con un total de 1.000.000 de palabras del español, por parte del equipo investigador (5 personas) dirigido por el Dr. Carlos Sánchez Lancis, en colaboración con la Dra. Cristina Buenafuentes de la Mata, de la Universidad Autónoma de Barcelona.

Adquisición, conversión y codificación de textos periodísticos en HTML/XML.

 

EL CORPES XXI

El CORPES XXI es un corpus de referencia. En lingüística, se llama corpus a un conjunto formado por miles o cientos de miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones, discursos, etc.) y cientos o miles de millones de formas. Son empleados habitualmente para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Para ello, los textos que integran el CORPES se seleccionan de acuerdo con una serie de parámetros y son tratados con un sistema de codificación especialmente diseñado para este corpus y para la recuperación de sus datos desde cualquiera de esos parámetros.

Para continuar y desarrollar las líneas seguidas anteriormente, en el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del Corpus del Español del Siglo XXI (CORPES XXI), formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial.

Fuente: rae.es

Anterior
Anterior

D'A

Siguiente
Siguiente

DISCO 100