Lista de corpus

Listado categorizado de corpus lingüísticos de español e inglés. Aparece de cada colección en caso de conocerse:

Enlace a la fuente (en el nombre del corpus), [variedad de la lengua; fecha de los textos; tamaño; tipo de textos; disponibilidad].

(Cualquier dato que ayude a mejorar o completar el listado será muy bienvenido).

Corpus de español

Corpus orales

Corpus integrado de referencia en lenguas romances (C-ORAL-ROM)

[Variedades de Madrid y Castilla-León; 2001-2004; 300.000 palabras * 4 lenguas; grabaciones de diferentes tipos en español, italiano, portugués y francés; ELRA y Cresti, E. y Moneglia, M. (Eds). 2005. C-ORAL-ROM. Integrated reference corpora for spoken romance languages. Amsterdam: John Benjamins.]

Corpus de Referencia del Español Actual (CREA)

[Variedades de España e Hispanoamérica; 1991-1992; 10% del CREA; grabaciones de medios de comunicación;]

Corpus de conversación coloquial del Grupo Val.Es.Co

[Español peninsular; 2000; 341 horas; grabaciones de conversaciones coloquiales;]

Corpus Oral de Referencia del Español Contemporáneo (CORLEC)

[Español peninsular; 1991-1992; 1.100.000 palabras; grabaciones de diferentes tipos;]

Corpus Oral y Sonoro del Español Rural (COSER)

[Variedades diatópicas del español peninsular; 1990-2013; 1739 informantes; grabaciones de entrevistas; acceso general a una parte]

Corpus Oral Didáctico Anotado Lingüísticamente (CORDIAL)

[Variedades de Madrid; 2001-2004; 120.000 palabras; grabaciones de diferentes tipos; Acceso general]

Corpus del Español Mexicano Contemporáneo

[Variedades del español mexicano; ; ; grabaciones de diferentes tipos; acceso general a concordancias y diccionario]

Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico

[Variedades del español de México, Caracas, Santiago de Chile, Santafé de Bogotá, Buenos Aires, Lima, San Juan de Puerto Rico, La Paz, San José de Costa Rica, Madrid, Sevilla y Las Palmas de Gran Canaria; ; 84 horas de grabación; grabaciones de diferentes tipos; Samper Padilla, José Antonio, Clara Eugenia Hernández Cabrera y Magnolia Troya Déniz. 1998. Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria.]

Proyecto para el Estudio Sociolingüístico del Español del España y de Américas (PRESEEA)

[Variedades de España e Hispanoamérica; ; ; grabaciones semidirigidas (entrevistas);]

Corpus escritos

Corpus de Referencia del Español Actual (CREA)

[Variedades de España e Hispanoamérica; 1975-2004; 154.000.000 de palabras; textos de diferentes tipos; Acceso general]

Corpus del Español del Siglo XXI (CORPES XXI)

[Variedades de España e Hispanoamérica; 2001-2012; 160.000.000 de palabras; textos de diferentes tipos; Acceso general]

Corpus diacrónico del español (CORDE)

[Variedades de España e Hispanoamérica; hasta 1975; 250.000.000 registros; textos de diferentes tipos; Acceso general]

Corpus del español actual (CEA)

[Variedades de España; 1996-2010; 540.000.000 de palabras; textos de la parte española del corpus paralelo español-inglés Europarl: European Parliament Proceedings Parallel Corpus v. 6 (1996-2010), el módulo en lengua española del Wikicorpus v. 1.0 (2006) y
la sección en español del MultiUN: Multilingual UN Parallel Text (2000-2009); Acceso general]

Corpus del Español Mexicano Contemporáneo

[Variedades del español mexicano; 1921-1974; ; textos de diferentes tipos; acceso general a concordancias y diccionario]

Corpus de aprendices de español

Corpus escrito de español L2 (CEDEL2)

[; ; 730.000 palabras; textos escritos por aprendices y nativos; ]


Corpus de inglés

British National Corpus (BNC)

[Inglés británico; PDE; 100 m; 90% written; 10% spoken, many diff. text types; Acceso general; Búsquedas avanzadas]

The Corpus of Contemporary American English (COCOA)

[Inglés americano; 1990-2011; 425 m; Various spoken and written text type; General access]

American National Corpus (ANC)

Inglés americano; PDE; 20 m; Written and spoken;

Corpus comparables de inglés americano y británico

LOB

[Inglés británico; 1961; 1 m; textos escritos de diferentes tipos]

Brown

[Inglés americano; 1961; 1 m; textos escritos de diferentes tipos]

FLOB

[Inglés británico; 1991; 1 m; textos escritos de diferentes tipos]

Frown

[Inglés americano; 1992; 1 m; textos escritos de diferentes tipos]

Otras variedades del inglés

Wellington Corpus of Written New Zealand English (WWC)

[Inglés neozelandés; 1986-1990; textos escritos de diferentes tipos]

Kolhapur

[Inglés indio; 1978; 1 m; textos escritos de diferentes tipos]

The Australian Corpus of English (ACE)

[Inglés australiano; 1986; 1 m; textos escritos de diferentes tipos]

1 Comment

Deja un comentario