LINGÜÍSTICA COMPUTACIONAL.

No existe unanimidad al ubicar la lingüística computacional en el conjunto de las ciencias,

situándola unos en el terreno de la lingüística, y otros en el terreno de la informática. En su afán

de comprender el lenguaje, y simularlo en una computadora, no es descabellado decir que aúna

intereses de ambas disciplinas. En el momento en el que el lenguaje aparece implicado en el

quehacer de la LC, la vinculación con la lingüística es indiscutible. Comparte con la lingüística

el interés por descubrir y describir el funcionamiento del lenguaje, y difiere de ésta las

herramientas que emplea para llevar a cabo sus investigaciones. Si el lenguaje es el vínculo de

la LC con la disciplina de la lingüística, el empleo de la computadora como herramienta

fundamental de trabajo es el vínculo que posee la LC con la Informática. La unión de ambos es

sencilla: reproducir una capacidad cognitiva, la lingüística en este caso, en programas

informáticos, con algún fin práctico. Para alcanzar esta pretensión también se necesitan las

aportaciones de la Informática, y en especial una de sus ramas, la Inteligencia Artificial. La

participación de diversas ciencias y saberes en la caracterización del objeto de estudio, del

lenguaje, es una constante de la Lingüística; es por esto, que ocurra lo mismo con la LC.

LINGÜÍSTICA DE CORPUS.

Se ocupa de la constitución y explotación de grandes muestras de uso real de la lengua (corpus),

tanto en su vertiente textual como oral. Proporciona el input necesario para realizar

investigaciones teóricas pertinentes o para desarrollar aplicaciones sustentadas sobre el material

auténtico. Su avance ha sido espectacular desde las décadas de los ochenta y noventa,

propiciado en gran medida por el avance de las tecnologías: capacidad de almacenamiento,

mejora de los procesadores, etc. En el ámbito de la LC, han constituido un gran recurso,

prácticamente imprescindible, en la elaboración de gramáticas y léxicos. También hay que

entender el empleo y uso de los corpus dentro de una perspectiva metodológica general que

adopta el empirismo como forma de concebir el estudio de la lengua. Es, precisamente, el

conjunto de datos (enunciados lingüísticos de cualquier tipo), lo que se denomina corpus en un

sentido general del término. Pero ha sido el empleo de ordenadores para reunir, organizar y

procesar esos datos lo que ha conferido modernidad a esta tarea, hasta el punto de propiciar el

despegue de una forma de hacer lingüística, la llamada lingüística de corpus.

Usos: para el estudio de las lenguas muertas, para dar cuenta del proceso de adquisición del

lenguaje infantil a través de la transcripción, para establecer convenciones ortográficas, para

obtener listas de vocabulario para la enseñanza de segundas lenguas, para hacer estudios

comparativos entre lenguas o para elaborar gramáticas descriptivas.

Para algunos autores (como por ejemplo Noam Chomsky), en cambio, los corpus no son

válidos, ya que están sujetos a variaciones y desviaciones de la norma de diverso tipo debidas a

limitaciones de memoria, errores, distracciones, etc., por dar cuenta de la actuación (evidencia

externa de la lengua). Además, son incompletos y sesgados. El corpus es por definición cerrado,

finito, tiene unos límites; de ahí su incapacidad para dar cuenta de la naturaleza no finita,

ilimitada de las lenguas. → Todo esto frente a la primera lingüística de corpus.

A partir de los años 80, hay un renacer de la lingüística de corpus, motivado por varias causas:

el auge de las áreas aplicadas de la Lingüística en general y de la Lingüística computacional en

particular (necesidad de contar con datos del uso de la lengua), por su eclecticismo (no se

concibe como incompatible con el recurso a ojos de los lingüistas), por la mayor disponibilidad

de corpus electrónicos (avance de Internet) y el desarrollo de nuevas tecnologías para la

introducción de textos de forma más rápida. Por lo que los corpus se caracterizarán por ser un

conjunto de textos informatizados (formato electrónico), por ser cada vez más grandes, por tener

una vertiente comercial (y no limitarse al campo de las investigaciones), por ampliarse el

número de lenguas que disponen de corpus, por la automatización de diferentes tareas de

procesamiento de textos, etc.

¿Cuáles son las ventajas e inconvenientes del trabajo con corpus?

Algunas ventajas justifican el interés por los corpus electrónicos: proporcionan objetividad y

permiten la posibilidad de verificar teorías construidas a partir de ellos, aportan rapidez y

precisión a un bajo coste, facilitan el acceso y manipulación del material, permiten el

procesamiento automático de textos así como la explicitación de diferentes tipos de

información, responden a la necesidad de contar con grandes cantidades de datos reales

fácilmente accesibles como una base más realista para el estudio del lenguaje y han permitido

automatizar parcial o totalmente diversas tareas que antes requerían un trabajo manual,

mediante programas diseñados para la extracción de información de los corpus. Además son un

Vista previa parcial del texto

¡Descarga Lingüística de corpus y más Apuntes en PDF de Lingüística solo en Docsity!

LINGÜÍSTICA COMPUTACIONAL.

No existe unanimidad al ubicar la lingüística computacional en el conjunto de las ciencias, situándola unos en el terreno de la lingüística, y otros en el terreno de la informática. En su afán de comprender el lenguaje, y simularlo en una computadora, no es descabellado decir que aúna intereses de ambas disciplinas. En el momento en el que el lenguaje aparece implicado en el quehacer de la LC, la vinculación con la lingüística es indiscutible. Comparte con la lingüística el interés por descubrir y describir el funcionamiento del lenguaje, y difiere de ésta las herramientas que emplea para llevar a cabo sus investigaciones. Si el lenguaje es el vínculo de la LC con la disciplina de la lingüística, el empleo de la computadora como herramienta fundamental de trabajo es el vínculo que posee la LC con la Informática. La unión de ambos es sencilla: reproducir una capacidad cognitiva, la lingüística en este caso, en programas informáticos, con algún fin práctico. Para alcanzar esta pretensión también se necesitan las aportaciones de la Informática, y en especial una de sus ramas, la Inteligencia Artificial. La participación de diversas ciencias y saberes en la caracterización del objeto de estudio, del lenguaje, es una constante de la Lingüística; es por esto, que ocurra lo mismo con la LC. LINGÜÍSTICA DE CORPUS. Se ocupa de la constitución y explotación de grandes muestras de uso real de la lengua (corpus), tanto en su vertiente textual como oral. Proporciona el input necesario para realizar investigaciones teóricas pertinentes o para desarrollar aplicaciones sustentadas sobre el material auténtico. Su avance ha sido espectacular desde las décadas de los ochenta y noventa, propiciado en gran medida por el avance de las tecnologías: capacidad de almacenamiento, mejora de los procesadores, etc. En el ámbito de la LC, han constituido un gran recurso, prácticamente imprescindible, en la elaboración de gramáticas y léxicos. También hay que entender el empleo y uso de los corpus dentro de una perspectiva metodológica general que adopta el empirismo como forma de concebir el estudio de la lengua. Es, precisamente, el conjunto de datos (enunciados lingüísticos de cualquier tipo), lo que se denomina corpus en un sentido general del término. Pero ha sido el empleo de ordenadores para reunir, organizar y procesar esos datos lo que ha conferido modernidad a esta tarea, hasta el punto de propiciar el despegue de una forma de hacer lingüística, la llamada lingüística de corpus. Usos : para el estudio de las lenguas muertas, para dar cuenta del proceso de adquisición del lenguaje infantil a través de la transcripción, para establecer convenciones ortográficas, para obtener listas de vocabulario para la enseñanza de segundas lenguas, para hacer estudios comparativos entre lenguas o para elaborar gramáticas descriptivas. Para algunos autores (como por ejemplo Noam Chomsky), en cambio, los corpus no son válidos, ya que están sujetos a variaciones y desviaciones de la norma de diverso tipo debidas a limitaciones de memoria, errores, distracciones, etc., por dar cuenta de la actuación (evidencia externa de la lengua). Además, son incompletos y sesgados. El corpus es por definición cerrado, finito, tiene unos límites; de ahí su incapacidad para dar cuenta de la naturaleza no finita, ilimitada de las lenguas. → Todo esto frente a la primera lingüística de corpus. A partir de los años 80, hay un renacer de la lingüística de corpus, motivado por varias causas: el auge de las áreas aplicadas de la Lingüística en general y de la Lingüística computacional en particular (necesidad de contar con datos del uso de la lengua), por su eclecticismo (no se concibe como incompatible con el recurso a ojos de los lingüistas), por la mayor disponibilidad de corpus electrónicos (avance de Internet) y el desarrollo de nuevas tecnologías para la introducción de textos de forma más rápida. Por lo que los corpus se caracterizarán por ser un conjunto de textos informatizados (formato electrónico), por ser cada vez más grandes, por tener una vertiente comercial (y no limitarse al campo de las investigaciones), por ampliarse el número de lenguas que disponen de corpus, por la automatización de diferentes tareas de procesamiento de textos, etc. ¿Cuáles son las ventajas e inconvenientes del trabajo con corpus? Algunas ventajas justifican el interés por los corpus electrónicos: proporcionan objetividad y permiten la posibilidad de verificar teorías construidas a partir de ellos, aportan rapidez y precisión a un bajo coste, facilitan el acceso y manipulación del material, permiten el procesamiento automático de textos así como la explicitación de diferentes tipos de información, responden a la necesidad de contar con grandes cantidades de datos reales fácilmente accesibles como una base más realista para el estudio del lenguaje y han permitido automatizar parcial o totalmente diversas tareas que antes requerían un trabajo manual, mediante programas diseñados para la extracción de información de los corpus. Además son un

recurso fructífero para los estudios contrastivos, y una herramienta imprescindible para los estudios diacrónicos, en los que no existe la posibilidad de recurrir a hablantes vivos. Estas son algunas desventajas : En algunas áreas, como la pragmática, es necesario acudir a los análisis manuales; en trabajos de lengua oral, que precisan una transcripción, se corre el riesgo de alejarse demasiado del texto original. En la actualidad, un corpus debe caracterizarse por: Ser un texto en formato electrónico, es decir, debe estar informatizado (el empleo del ordenador permite automatizar tareas como la búsqueda de información, la recuperación de la misma, comprobar el cómputo de frecuencia de aparición de una palabra y la clasificación de datos contenidos en el corpus según varios criterios); los textos recogidos en el corpus deben ser muestras reales de la lengua objeto de estudio, es decir, debe estar autentificados; los textos que forman parte del corpus deben haber sido elegidos según un criterio determinado, y deben responder a parámetros determinados que garanticen que los textos representan la variedad de lengua objeto de estudio; además pueden tener un tamaño determinado (millones de palabras o formas), o pueden ser abiertos.

DE LOS APUNTES DE CLASE:

CORPUS. Gran cantidad de texto informatizado. Verificando qué se dice, se conforma dicho corpus. Criterios para analizar un corpus: en un principio se identifica la cadena de caracteres (comparación). Después se lleva al etiquetado. Tras de sí, van las cuestiones de tipo discursivo. ¿Qué criterios se siguen en la conformación de un corpus? (Supongo que se refiere cuando estamos ante un trabajo de transcripción) El sentido común. Después, se lleva a cabo una clasificación de la información. ---FIN DE LA PRIMERA INTERVENCIÓN--- Los corpus orales plantean diversos problemas, los que éstos traen consigo (por su idiosincrasia) y otros añadidos: Problemas de derechos de autor (al tratar a los informantes); también la necesidad de un laboratorio para tratar la información de tipo fonético-fonológico; la dificultad de conseguir información en zonas rurales; la reticencia general a la información de tipo visual (con todo lo que esto conlleva, ya que el vídeo muestra información de la comunicación no verbal). Existen grandes dificultades para transcribir datos orales a textos (es necesario es todo momento un software especializado en la transcripción de corpus). La operación que se debe llevar a cabo es complicada: grabar archivos, bajo ciertos criterios (identificar la procedencia del hablante); identificar cada intervención; marcar al igual las zonas ininteligibles del audio; identificar las partes del habla coloquial; ¿en algún momento se interrumpe la elocución, qué tipos de pronunciación se escuchan? → multitud de hechos que hay que transcribir. Para la transcripción no hay procedimientos automáticos, con lo que conlleva mucho tiempo. ---FIN DE LA SEGUNDA INTERVENCIÓN--- Utilización de los corpus en diversas áreas, como la Wikipedia, en e-mails, los tweets , en hospitales, en marketing (para saber la opinión de los usuarios sobre un producto) o en la traducción. // En la creación de corpus, necesitamos reconocer las estructuras que poseen las lenguas naturales (desde caracteres unitarios, secuencias de datos, hasta el tratamiento de las frases). → Tokenization. Así podemos llevar a cabo procesamientos de tipo semántico, de tipo morfológico, o sintáctico.

Lingüística de corpus, Apuntes de Lingüística

Documentos relacionados

Vista previa parcial del texto

¡Descarga Lingüística de corpus y más Apuntes en PDF de Lingüística solo en Docsity!

LINGÜÍSTICA COMPUTACIONAL.

DE LOS APUNTES DE CLASE: