Lista de corpus

Lista de corpus

Listado categorizado de corpus lingüísticos de español e inglés. Aparece de cada colección en caso de conocerse:

Enlace a la fuente (en el nombre del corpus), [variedad de la lengua; fecha de los textos; tamaño; tipo de textos; disponibilidad].

(Cualquier dato que ayude a mejorar o completar el listado será muy bienvenido).

Corpus de español

Corpus orales

Corpus integrado de referencia en lenguas romances (C-ORAL-ROM)

[Variedades de Madrid y Castilla-León; 2001-2004; 300.000 palabras * 4 lenguas; grabaciones de diferentes tipos en español, italiano, portugués y francés; ELRA y Cresti, E. y Moneglia, M. (Eds). 2005. C-ORAL-ROM. Integrated reference corpora for spoken romance languages. Amsterdam: John Benjamins.]

Corpus de Referencia del Español Actual (CREA)

[Variedades de España e Hispanoamérica; 1991-1992; 10% del CREA; grabaciones de medios de comunicación;]

Corpus de conversación coloquial del Grupo Val.Es.Co

[Español peninsular; 2000; 341 horas; grabaciones de conversaciones coloquiales;]

Corpus Oral de Referencia del Español Contemporáneo (CORLEC)

[Español peninsular; 1991-1992; 1.100.000 palabras; grabaciones de diferentes tipos;]

Corpus Oral y Sonoro del Español Rural (COSER)

[Variedades diatópicas del español peninsular; 1990-2013; 1739 informantes; grabaciones de entrevistas; acceso general a una parte]

Corpus Oral Didáctico Anotado Lingüísticamente (CORDIAL)

[Variedades de Madrid; 2001-2004; 120.000 palabras; grabaciones de diferentes tipos; Acceso general]

Corpus del Español Mexicano Contemporáneo

[Variedades del español mexicano; ; ; grabaciones de diferentes tipos; acceso general a concordancias y diccionario]

Columbia Corpus de Conversaciones para E/LE

[Diferentes variedades;;; grabaciones de diferentes tipos; Acceso general]

Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico

[Variedades del español de México, Caracas, Santiago de Chile, Santafé de Bogotá, Buenos Aires, Lima, San Juan de Puerto Rico, La Paz, San José de Costa Rica, Madrid, Sevilla y Las Palmas de Gran Canaria; ; 84 horas de grabación; grabaciones de diferentes tipos; Samper Padilla, José Antonio, Clara Eugenia Hernández Cabrera y Magnolia Troya Déniz. 1998. Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria.]

Proyecto para el Estudio Sociolingüístico del Español del España y de Américas (PRESEEA)

[Variedades de España e Hispanoamérica; ; ; grabaciones semidirigidas (entrevistas);]

Corpus escritos

Corpus de Referencia del Español Actual (CREA)

[Variedades de España e Hispanoamérica; 1975-2004; 154.000.000 de palabras; textos de diferentes tipos; Acceso general]

Corpus del Español del Siglo XXI (CORPES XXI)

[Variedades de España e Hispanoamérica; 2001-2012; 160.000.000 de palabras; textos de diferentes tipos; Acceso general]

Corpus diacrónico del español (CORDE)

[Variedades de España e Hispanoamérica; hasta 1975; 250.000.000 registros; textos de diferentes tipos; Acceso general]

Corpus del español actual (CEA)

[Variedades de España; 1996-2010; 540.000.000 de palabras; textos de la parte española del corpus paralelo español-inglés Europarl: European Parliament Proceedings Parallel Corpus v. 6 (1996-2010), el módulo en lengua española del Wikicorpus v. 1.0 (2006) y
la sección en español del MultiUN: Multilingual UN Parallel Text (2000-2009); Acceso general]

Corpus del Español Mexicano Contemporáneo

[Variedades del español mexicano; 1921-1974; ; textos de diferentes tipos; acceso general a concordancias y diccionario]

Corpus de aprendices de español

Corpus escrito de español L2 (CEDEL2)

[; ; 730.000 palabras; textos escritos por aprendices y nativos; ]


Corpus de inglés

British National Corpus (BNC)

[Inglés británico; PDE; 100 m; 90% written; 10% spoken, many diff. text types; Acceso general; Búsquedas avanzadas]

The Corpus of Contemporary American English (COCOA)

[Inglés americano; 1990-2011; 425 m; Various spoken and written text type; General access]

American National Corpus (ANC)

Inglés americano; PDE; 20 m; Written and spoken;

Corpus comparables de inglés americano y británico

LOB

[Inglés británico; 1961; 1 m; textos escritos de diferentes tipos]

Brown

[Inglés americano; 1961; 1 m; textos escritos de diferentes tipos]

FLOB

[Inglés británico; 1991; 1 m; textos escritos de diferentes tipos]

Frown

[Inglés americano; 1992; 1 m; textos escritos de diferentes tipos]

Otras variedades del inglés

Wellington Corpus of Written New Zealand English (WWC)

[Inglés neozelandés; 1986-1990; textos escritos de diferentes tipos]

Kolhapur

[Inglés indio; 1978; 1 m; textos escritos de diferentes tipos]

The Australian Corpus of English (ACE)

[Inglés australiano; 1986; 1 m; textos escritos de diferentes tipos]

5 comentarios en “Lista de corpus

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.