ABSTRACT

Un corpus es un conjunto de (fragmentos de) textos naturales, almacenados en formato electrónico, representativos en su conjunto de una variedad lingüística, en alguno de sus componentes o en su totalidad, y reunidos con el propósito de facilitar su estudio científico (cf. Rojo 2014). Esta definición muestra explícitamente que los textos deben ser naturales (no artificiales ni creados expresamente para su incorporación al corpus), han de estar en formato electrónico porque esa es la única forma de que podamos recuperar la información que precisamos, tienen que ser representativos de la variedad de la que proceden y, por último, deben permitir su estudio científico (no exclusivamente lingüístico), lo cual suele implicar la adición de información gramatical, léxica y pragmática a la simple secuencia de formas gráficas que constituyen el texto en el sentido más habitual de la palabra.