Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Lingüística de corpus, Apuntes de Lingüística

Asignatura: Introducción Teórica a los Estudios Lingüísticos, Profesor: , Carrera: Lenguas Modernas y sus Literaturas, Universidad: UCM

Tipo: Apuntes

2012/2013

Subido el 29/08/2013

maidki
maidki 🇪🇸

3.8

(6)

2 documentos

1 / 2

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
LINGÜÍSTICA COMPUTACIONAL.
No existe unanimidad al ubicar la lingüística computacional en el conjunto de las ciencias,
situándola unos en el terreno de la lingüística, y otros en el terreno de la informática. En su afán
de comprender el lenguaje, y simularlo en una computadora, no es descabellado decir que aúna
intereses de ambas disciplinas. En el momento en el que el lenguaje aparece implicado en el
quehacer de la LC, la vinculación con la lingüística es indiscutible. Comparte con la lingüística
el interés por descubrir y describir el funcionamiento del lenguaje, y difiere de ésta las
herramientas que emplea para llevar a cabo sus investigaciones. Si el lenguaje es el vínculo de
la LC con la disciplina de la lingüística, el empleo de la computadora como herramienta
fundamental de trabajo es el vínculo que posee la LC con la Informática. La unión de ambos es
sencilla: reproducir una capacidad cognitiva, la lingüística en este caso, en programas
informáticos, con algún fin práctico. Para alcanzar esta pretensión también se necesitan las
aportaciones de la Informática, y en especial una de sus ramas, la Inteligencia Artificial. La
participación de diversas ciencias y saberes en la caracterización del objeto de estudio, del
lenguaje, es una constante de la Lingüística; es por esto, que ocurra lo mismo con la LC.
LINGÜÍSTICA DE CORPUS.
Se ocupa de la constitución y explotación de grandes muestras de uso real de la lengua (corpus),
tanto en su vertiente textual como oral. Proporciona el input necesario para realizar
investigaciones teóricas pertinentes o para desarrollar aplicaciones sustentadas sobre el material
auténtico. Su avance ha sido espectacular desde las décadas de los ochenta y noventa,
propiciado en gran medida por el avance de las tecnologías: capacidad de almacenamiento,
mejora de los procesadores, etc. En el ámbito de la LC, han constituido un gran recurso,
prácticamente imprescindible, en la elaboración de gramáticas y léxicos. También hay que
entender el empleo y uso de los corpus dentro de una perspectiva metodológica general que
adopta el empirismo como forma de concebir el estudio de la lengua. Es, precisamente, el
conjunto de datos (enunciados lingüísticos de cualquier tipo), lo que se denomina corpus en un
sentido general del término. Pero ha sido el empleo de ordenadores para reunir, organizar y
procesar esos datos lo que ha conferido modernidad a esta tarea, hasta el punto de propiciar el
despegue de una forma de hacer lingüística, la llamada lingüística de corpus.
Usos: para el estudio de las lenguas muertas, para dar cuenta del proceso de adquisición del
lenguaje infantil a través de la transcripción, para establecer convenciones ortográficas, para
obtener listas de vocabulario para la enseñanza de segundas lenguas, para hacer estudios
comparativos entre lenguas o para elaborar gramáticas descriptivas.
Para algunos autores (como por ejemplo Noam Chomsky), en cambio, los corpus no son
válidos, ya que están sujetos a variaciones y desviaciones de la norma de diverso tipo debidas a
limitaciones de memoria, errores, distracciones, etc., por dar cuenta de la actuación (evidencia
externa de la lengua). Además, son incompletos y sesgados. El corpus es por definición cerrado,
finito, tiene unos límites; de ahí su incapacidad para dar cuenta de la naturaleza no finita,
ilimitada de las lenguas. Todo esto frente a la primera lingüística de corpus.
A partir de los años 80, hay un renacer de la lingüística de corpus, motivado por varias causas:
el auge de las áreas aplicadas de la Lingüística en general y de la Lingüística computacional en
particular (necesidad de contar con datos del uso de la lengua), por su eclecticismo (no se
concibe como incompatible con el recurso a ojos de los lingüistas), por la mayor disponibilidad
de corpus electrónicos (avance de Internet) y el desarrollo de nuevas tecnologías para la
introducción de textos de forma más rápida. Por lo que los corpus se caracterizarán por ser un
conjunto de textos informatizados (formato electrónico), por ser cada vez más grandes, por tener
una vertiente comercial (y no limitarse al campo de las investigaciones), por ampliarse el
número de lenguas que disponen de corpus, por la automatización de diferentes tareas de
procesamiento de textos, etc.
¿Cuáles son las ventajas e inconvenientes del trabajo con corpus?
Algunas ventajas justifican el interés por los corpus electrónicos: proporcionan objetividad y
permiten la posibilidad de verificar teorías construidas a partir de ellos, aportan rapidez y
precisión a un bajo coste, facilitan el acceso y manipulación del material, permiten el
procesamiento automático de textos así como la explicitación de diferentes tipos de
información, responden a la necesidad de contar con grandes cantidades de datos reales
fácilmente accesibles como una base más realista para el estudio del lenguaje y han permitido
automatizar parcial o totalmente diversas tareas que antes requerían un trabajo manual,
mediante programas diseñados para la extracción de información de los corpus. Además son un
pf2

Vista previa parcial del texto

¡Descarga Lingüística de corpus y más Apuntes en PDF de Lingüística solo en Docsity!

LINGÜÍSTICA COMPUTACIONAL.

No existe unanimidad al ubicar la lingüística computacional en el conjunto de las ciencias, situándola unos en el terreno de la lingüística, y otros en el terreno de la informática. En su afán de comprender el lenguaje, y simularlo en una computadora, no es descabellado decir que aúna intereses de ambas disciplinas. En el momento en el que el lenguaje aparece implicado en el quehacer de la LC, la vinculación con la lingüística es indiscutible. Comparte con la lingüística el interés por descubrir y describir el funcionamiento del lenguaje, y difiere de ésta las herramientas que emplea para llevar a cabo sus investigaciones. Si el lenguaje es el vínculo de la LC con la disciplina de la lingüística, el empleo de la computadora como herramienta fundamental de trabajo es el vínculo que posee la LC con la Informática. La unión de ambos es sencilla: reproducir una capacidad cognitiva, la lingüística en este caso, en programas informáticos, con algún fin práctico. Para alcanzar esta pretensión también se necesitan las aportaciones de la Informática, y en especial una de sus ramas, la Inteligencia Artificial. La participación de diversas ciencias y saberes en la caracterización del objeto de estudio, del lenguaje, es una constante de la Lingüística; es por esto, que ocurra lo mismo con la LC. LINGÜÍSTICA DE CORPUS. Se ocupa de la constitución y explotación de grandes muestras de uso real de la lengua (corpus), tanto en su vertiente textual como oral. Proporciona el input necesario para realizar investigaciones teóricas pertinentes o para desarrollar aplicaciones sustentadas sobre el material auténtico. Su avance ha sido espectacular desde las décadas de los ochenta y noventa, propiciado en gran medida por el avance de las tecnologías: capacidad de almacenamiento, mejora de los procesadores, etc. En el ámbito de la LC, han constituido un gran recurso, prácticamente imprescindible, en la elaboración de gramáticas y léxicos. También hay que entender el empleo y uso de los corpus dentro de una perspectiva metodológica general que adopta el empirismo como forma de concebir el estudio de la lengua. Es, precisamente, el conjunto de datos (enunciados lingüísticos de cualquier tipo), lo que se denomina corpus en un sentido general del término. Pero ha sido el empleo de ordenadores para reunir, organizar y procesar esos datos lo que ha conferido modernidad a esta tarea, hasta el punto de propiciar el despegue de una forma de hacer lingüística, la llamada lingüística de corpus. Usos : para el estudio de las lenguas muertas, para dar cuenta del proceso de adquisición del lenguaje infantil a través de la transcripción, para establecer convenciones ortográficas, para obtener listas de vocabulario para la enseñanza de segundas lenguas, para hacer estudios comparativos entre lenguas o para elaborar gramáticas descriptivas. Para algunos autores (como por ejemplo Noam Chomsky), en cambio, los corpus no son válidos, ya que están sujetos a variaciones y desviaciones de la norma de diverso tipo debidas a limitaciones de memoria, errores, distracciones, etc., por dar cuenta de la actuación (evidencia externa de la lengua). Además, son incompletos y sesgados. El corpus es por definición cerrado, finito, tiene unos límites; de ahí su incapacidad para dar cuenta de la naturaleza no finita, ilimitada de las lenguas. → Todo esto frente a la primera lingüística de corpus. A partir de los años 80, hay un renacer de la lingüística de corpus, motivado por varias causas: el auge de las áreas aplicadas de la Lingüística en general y de la Lingüística computacional en particular (necesidad de contar con datos del uso de la lengua), por su eclecticismo (no se concibe como incompatible con el recurso a ojos de los lingüistas), por la mayor disponibilidad de corpus electrónicos (avance de Internet) y el desarrollo de nuevas tecnologías para la introducción de textos de forma más rápida. Por lo que los corpus se caracterizarán por ser un conjunto de textos informatizados (formato electrónico), por ser cada vez más grandes, por tener una vertiente comercial (y no limitarse al campo de las investigaciones), por ampliarse el número de lenguas que disponen de corpus, por la automatización de diferentes tareas de procesamiento de textos, etc. ¿Cuáles son las ventajas e inconvenientes del trabajo con corpus? Algunas ventajas justifican el interés por los corpus electrónicos: proporcionan objetividad y permiten la posibilidad de verificar teorías construidas a partir de ellos, aportan rapidez y precisión a un bajo coste, facilitan el acceso y manipulación del material, permiten el procesamiento automático de textos así como la explicitación de diferentes tipos de información, responden a la necesidad de contar con grandes cantidades de datos reales fácilmente accesibles como una base más realista para el estudio del lenguaje y han permitido automatizar parcial o totalmente diversas tareas que antes requerían un trabajo manual, mediante programas diseñados para la extracción de información de los corpus. Además son un

recurso fructífero para los estudios contrastivos, y una herramienta imprescindible para los estudios diacrónicos, en los que no existe la posibilidad de recurrir a hablantes vivos. Estas son algunas desventajas : En algunas áreas, como la pragmática, es necesario acudir a los análisis manuales; en trabajos de lengua oral, que precisan una transcripción, se corre el riesgo de alejarse demasiado del texto original. En la actualidad, un corpus debe caracterizarse por: Ser un texto en formato electrónico, es decir, debe estar informatizado (el empleo del ordenador permite automatizar tareas como la búsqueda de información, la recuperación de la misma, comprobar el cómputo de frecuencia de aparición de una palabra y la clasificación de datos contenidos en el corpus según varios criterios); los textos recogidos en el corpus deben ser muestras reales de la lengua objeto de estudio, es decir, debe estar autentificados; los textos que forman parte del corpus deben haber sido elegidos según un criterio determinado, y deben responder a parámetros determinados que garanticen que los textos representan la variedad de lengua objeto de estudio; además pueden tener un tamaño determinado (millones de palabras o formas), o pueden ser abiertos.

DE LOS APUNTES DE CLASE:

CORPUS. Gran cantidad de texto informatizado. Verificando qué se dice, se conforma dicho corpus. Criterios para analizar un corpus: en un principio se identifica la cadena de caracteres (comparación). Después se lleva al etiquetado. Tras de sí, van las cuestiones de tipo discursivo. ¿Qué criterios se siguen en la conformación de un corpus? (Supongo que se refiere cuando estamos ante un trabajo de transcripción) El sentido común. Después, se lleva a cabo una clasificación de la información. ---FIN DE LA PRIMERA INTERVENCIÓN--- Los corpus orales plantean diversos problemas, los que éstos traen consigo (por su idiosincrasia) y otros añadidos: Problemas de derechos de autor (al tratar a los informantes); también la necesidad de un laboratorio para tratar la información de tipo fonético-fonológico; la dificultad de conseguir información en zonas rurales; la reticencia general a la información de tipo visual (con todo lo que esto conlleva, ya que el vídeo muestra información de la comunicación no verbal). Existen grandes dificultades para transcribir datos orales a textos (es necesario es todo momento un software especializado en la transcripción de corpus). La operación que se debe llevar a cabo es complicada: grabar archivos, bajo ciertos criterios (identificar la procedencia del hablante); identificar cada intervención; marcar al igual las zonas ininteligibles del audio; identificar las partes del habla coloquial; ¿en algún momento se interrumpe la elocución, qué tipos de pronunciación se escuchan? → multitud de hechos que hay que transcribir. Para la transcripción no hay procedimientos automáticos, con lo que conlleva mucho tiempo. ---FIN DE LA SEGUNDA INTERVENCIÓN--- Utilización de los corpus en diversas áreas, como la Wikipedia, en e-mails, los tweets , en hospitales, en marketing (para saber la opinión de los usuarios sobre un producto) o en la traducción. // En la creación de corpus, necesitamos reconocer las estructuras que poseen las lenguas naturales (desde caracteres unitarios, secuencias de datos, hasta el tratamiento de las frases). → Tokenization. Así podemos llevar a cabo procesamientos de tipo semántico, de tipo morfológico, o sintáctico.