
Lista de corpus
Listado categorizado de corpus lingüísticos de español e inglés. Aparece de cada colección en caso de conocerse:
Enlace a la fuente (en el nombre del corpus), [variedad de la lengua; fecha de los textos; tamaño; tipo de textos; disponibilidad].
(Cualquier dato que ayude a mejorar o completar el listado será muy bienvenido).
Corpus de español
Corpus orales
Corpus integrado de referencia en lenguas romances (C-ORAL-ROM)
[Variedades de Madrid y Castilla-León; 2001-2004; 300.000 palabras * 4 lenguas; grabaciones de diferentes tipos en español, italiano, portugués y francés; ELRA y Cresti, E. y Moneglia, M. (Eds). 2005. C-ORAL-ROM. Integrated reference corpora for spoken romance languages. Amsterdam: John Benjamins.]
Corpus de Referencia del Español Actual (CREA)
[Variedades de España e Hispanoamérica; 1991-1992; 10% del CREA; grabaciones de medios de comunicación;]
Corpus de conversación coloquial del Grupo Val.Es.Co
[Español peninsular; 2000; 341 horas; grabaciones de conversaciones coloquiales;]
Corpus Oral de Referencia del Español Contemporáneo (CORLEC)
[Español peninsular; 1991-1992; 1.100.000 palabras; grabaciones de diferentes tipos;]
Corpus Oral y Sonoro del Español Rural (COSER)
[Variedades diatópicas del español peninsular; 1990-2013; 1739 informantes; grabaciones de entrevistas; acceso general a una parte]
Corpus Oral Didáctico Anotado Lingüísticamente (CORDIAL)
[Variedades de Madrid; 2001-2004; 120.000 palabras; grabaciones de diferentes tipos; Acceso general]
Corpus del Español Mexicano Contemporáneo
[Variedades del español mexicano; ; ; grabaciones de diferentes tipos; acceso general a concordancias y diccionario]
Columbia Corpus de Conversaciones para E/LE
[Diferentes variedades;;; grabaciones de diferentes tipos; Acceso general]
Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico
[Variedades del español de México, Caracas, Santiago de Chile, Santafé de Bogotá, Buenos Aires, Lima, San Juan de Puerto Rico, La Paz, San José de Costa Rica, Madrid, Sevilla y Las Palmas de Gran Canaria; ; 84 horas de grabación; grabaciones de diferentes tipos; Samper Padilla, José Antonio, Clara Eugenia Hernández Cabrera y Magnolia Troya Déniz. 1998. Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria.]
Proyecto para el Estudio Sociolingüístico del Español del España y de Américas (PRESEEA)
[Variedades de España e Hispanoamérica; ; ; grabaciones semidirigidas (entrevistas);]
Corpus escritos
Corpus de Referencia del Español Actual (CREA)
[Variedades de España e Hispanoamérica; 1975-2004; 154.000.000 de palabras; textos de diferentes tipos; Acceso general]
Corpus del Español del Siglo XXI (CORPES XXI)
[Variedades de España e Hispanoamérica; 2001-2012; 160.000.000 de palabras; textos de diferentes tipos; Acceso general]
Corpus diacrónico del español (CORDE)
[Variedades de España e Hispanoamérica; hasta 1975; 250.000.000 registros; textos de diferentes tipos; Acceso general]
Corpus del español actual (CEA)
[Variedades de España; 1996-2010; 540.000.000 de palabras; textos de la parte española del corpus paralelo español-inglés Europarl: European Parliament Proceedings Parallel Corpus v. 6 (1996-2010), el módulo en lengua española del Wikicorpus v. 1.0 (2006) y
la sección en español del MultiUN: Multilingual UN Parallel Text (2000-2009); Acceso general]
Corpus del Español Mexicano Contemporáneo
[Variedades del español mexicano; 1921-1974; ; textos de diferentes tipos; acceso general a concordancias y diccionario]
Corpus de aprendices de español
Corpus escrito de español L2 (CEDEL2)
[; ; 730.000 palabras; textos escritos por aprendices y nativos; ]
Corpus de inglés
British National Corpus (BNC)
[Inglés británico; PDE; 100 m; 90% written; 10% spoken, many diff. text types; Acceso general; Búsquedas avanzadas]
The Corpus of Contemporary American English (COCOA)
[Inglés americano; 1990-2011; 425 m; Various spoken and written text type; General access]
American National Corpus (ANC)
Inglés americano; PDE; 20 m; Written and spoken;
Corpus comparables de inglés americano y británico
LOB
[Inglés británico; 1961; 1 m; textos escritos de diferentes tipos]
Brown
[Inglés americano; 1961; 1 m; textos escritos de diferentes tipos]
FLOB
[Inglés británico; 1991; 1 m; textos escritos de diferentes tipos]
Frown
[Inglés americano; 1992; 1 m; textos escritos de diferentes tipos]
Otras variedades del inglés
Wellington Corpus of Written New Zealand English (WWC)
[Inglés neozelandés; 1986-1990; textos escritos de diferentes tipos]
Kolhapur
[Inglés indio; 1978; 1 m; textos escritos de diferentes tipos]
The Australian Corpus of English (ACE)
[Inglés australiano; 1986; 1 m; textos escritos de diferentes tipos]
Hay un corpus de aprendices de español más, el de instituto Cervante:
http://www.cervantes.es/lengua_y_ensenanza/tecnologia_espanol/caes.htm
Corpus del Habla de Almería:
http://nevada.ual.es/otri/ilse/corpus.asp
Aunque se trate de un ámbito muy local, este es el Corpus del Habla de Almería:
http://nevada.ual.es/otri/ilse/corpus.asp
¡Gracias por la lista! ¡Muy útil!
Hay corpus de aprendices de español en Talkbank. Varios, además 😉