¡Descarga iteralmente como Biblioteca de Infraestructura de Tecnologías de Información. ITIL es una y más Apuntes en PDF de Técnicas de la Comunicación solo en Docsity! Métodos de captura de información [1.1] ¿Cómo estudiar este tema? [1.2] Datos, información y conocimiento [1.3] Evaluación de calidad [1.4] Fuentes de información [1.5] Casos de estudio [1.6] Referencias T E M A SeLIeQueq
S9UONIBSUBI
Y 059008 SP IV
AUNUO SOSANO
21GOS GSM ONIS
AP OJUATUNBSIDOIA
so91qnd q9m soniaes
A sapeyuoureuoqn3 h
:091/qud 059998 ap soyeq
vuosiad
eun od sopejordioqu1 Jas
u9q9p SOJep so] amb [a ua
OPeI9 :pepriqe9oIdioyur
so1JO aqua
eLreumbeu ap pesodio9
“Teyuerquie oro rpar
3P SOABISOASIZ :S9JOSUIS
S9UOLOIPRIquOo
3P USDIIBI SOYEP SOJAMD |
[9 U9 OPBIL :BIOUAISISUO)
SOJep ap soseq
3P O SBO[ 9P OJUSTUBSIDOLZ ||
EA ES
NÓ ÉS
(rexmeu
afen3ua] 9d) oyeuno¿ us Á
(INLIH “2'd) sopermonnsq +
:SOPe1m9n.9so
SOJUSUINIOP IP SISHRUY
€ Y
opeuorodold
IJUIWBIIPPPIDA
sa o3ep un anb
|? Lo OPeap :PeprIqIpolo
sOojep ap
ojyun(uo un u9 ue. 1quanoua
95 SAIO[BA SO] IND
T9 US OPe.D :pmnajduoo
mur
9 SAJO[RA “SEDUALISAXO
“epezrpen3xaJuoo
UQLOBULIOJUL
ap U9LyPuIquIo)
:0JUSTUIDOUO)
ugue3913e
A SAUOLDIILIO) SO]NI[BO
“UQIDBZLIOÍ9J89 “OJX9JUOD
AP SIAP] Y OPRIYLUBIS
109 SOY] :UQIDBULIOJUT
qam
JOPIAJOS IP SÍO|
3P OJUILUILSIDOJ
SAUOLDBALOSGO Á
SeIS9N9U :[enue ur emideo
JO[2A [9p Pnynoexa
AP [PAIN “UQISIDAIH
oJuaa9 un a1qos soanolqo
A SOJ9IISIP SOYIAY
ap o3un(uo) :soyeg
orpn3sa
3P SOSE)
SOJEP 9p S9JUIMH
| pepyreo ap u9poenTesg
UQIDIENSE IP SIJSAIN
UD I)PULIOJUT IP 2ANIALI IP SOPOA
Esquema
El conocimiento implica una combinación de experiencias, información contextual y relevancia sobre cierta información. Así como la información se genera a partir de datos, el conocimiento surge de la agregación de información. Ejemplos de métodos que generan esta transformación son: Comparación: Relación entre información obtenida en distintas experiencias. Repercusión: Implicación de la información en decisiones y acciones. Conexión: Relación entre distintos tipos de información. Conversación: Opinión de otras personas sobre la información. La jerarquía del conocimiento suele representarse gráficamente por una pirámide, siendo los datos la base y el conocimiento la cima. Distinguir estos conceptos básicos proporciona un nivel de abstracción útil para la separación de características en el proceso de análisis. El hecho de que un dato sea inválido o erróneo debe distinguirse fácilmente de que la información que se obtiene de dicho conjunto de datos sea adecuada o no al problema que se intenta resolver. Por ejemplo, es importante conocer si la malinterpretación de un análisis de datos se debe a un error en la fuente de datos, a un problema al combinar los datos en el proceso de análisis o a una confusión por parte del usuario final debido a experiencias en otros contextos. Datos Conocimiento Información 5 1.3. Evaluación de la calidad Las métricas o dimensiones utilizadas para describir la calidad de un conjunto de datos pueden agruparse en base a los actores que interactúan con los datos. Los diseñadores y administradores de almacenes de datos tratan con métricas que afectan el diseño o esquema de los datos obtenidos y no con los datos directamente. Entre estas métricas podríamos mencionar completitud de los tipos de datos obtenidos, y el minimalismo del conjunto de datos, el cual se interpreta como la eliminación de redundancias en el diseño del almacén de datos. Los desarrolladores de software tratan con métricas específicas de la producción de productos informáticos. Si bien en esta categoría entran métricas que no están relacionadas con los datos directamente, es importante tener en cuenta que estas métricas afectan el proceso de almacenar, acceder y manipular los datos. El último actor que interactúa con los datos es el usuario final, es decir, quien utilizará los datos presentados para crear una conclusión y tomar una decisión acorde. Las métricas relevantes para este actor pueden ser el nivel de disponibilidad de los datos y el nivel de interpretación requerido para entender los datos presentados. A partir de estas perspectivas, Jarke et al. (1998) presentan un conjunto de dimensiones para evaluar las propiedades de un conjunto de datos: La completitud o cobertura describe el porcentaje de datos disponibles respecto a la población total que representan dichos datos. Por ejemplo, un conjunto de datos con información de 90 de 100 tratamientos médicos realizados en un hospital presenta una cobertura de 90%. Esto también aplica a subconjuntos de los datos obtenidos (por ejemplo, es probable que el 5% de los tratamientos médicos no incluyan la fecha de finalización del tratamiento, lo cual disminuiría la cobertura para dicha característica). La credibilidad representa la fiabilidad que se le brinda al organismo que proporciona el conjunto de datos. Esta métrica puede reflejarse en el conjunto de datos por aquellas características que presenten un valor por defecto. La precisión indica el porcentaje de datos correctos respecto al total disponible. También se representa por medio de un porcentaje. 6 La consistencia describe el nivel con el que los datos son coherentes entre ellos. Un ejemplo de la aplicación de esta métrica se da en datos geográficos: se puede concluir que si una misma entidad tiene asociada una ciudad y un país que no tienen relación, existe un problema de consistencia. La interpretabilidad define el grado en el que los datos pueden ser entendidos correctamente por una persona. Entre los atributos que definen la interpretabilidad de un conjunto de datos podemos mencionar la documentación de elementos importantes y si el formato en el que se proporcionan los datos es entendible. 1.4. Fuentes de datos Los métodos para la captura de información se pueden clasificar en base a las características del elemento que genera el conjunto de datos. Nos enfocamos en las cinco categorías que se utilizan con más frecuencia en la actualidad. La captura manual de datos es la categoría más tradicional y también de las más frecuentes en el contexto de investigación en ámbitos sociales y naturales. Entre los métodos que encajan en esta categoría se encuentra el uso de encuestas y las mediciones a través de observaciones. Si bien esta es la única categoría que no tiene una dependencia directa de las tecnologías de información, para nuestro uso necesitaremos que la información se obtenga de forma digitalizada ya sea en el momento de la captura o en un procesado posterior. La siguiente categoría puede denominarse procesado de documentos estructurados y consiste en la obtención directa de datos disponibles en documentos, cuyo fin inicial no es el ser consultados como fuente de datos. Uno de los métodos más comunes en esta categoría es el procesado de páginas HTML en un sitio web, conocido como web scraping. Otro ejemplo es el análisis de logs, ficheros que contiene un listado secuencial de los eventos ocurridos dentro de un sistema y creados con el objetivo de tener una bitácora y no de ser accedido por otras aplicaciones. Una de las categorías más triviales es el acceso a datos generados como salida de aplicaciones. Los métodos de este tipo involucran el acceso a almacenes de datos tradicionales, tales como bases de datos relacionales, ficheros con valores separados por comas (CSV), etc. 7 Al no contar con un API que brinde acceso a los datos, la solución ha sido utilizar la herramienta de web scraping Scraper. Esta herramienta es una extensión del navegador Google Chrome y permite capturar los datos presentados de forma estructurada en formato HTML. Después de capturados, los datos se pueden exportar a una hoja de cálculo del servicio Google Docs. 3. Acceso a transacciones bancarias mediante API La tarea solicitada en este caso es crear un conjunto de visualizaciones sobre los patrones de compras de un conjunto de personas. Para esto, se dispone de acceso a información agregada sobre las compras realizadas con tarjeta de débito o crédito en una ciudad. Con el fin de evitar dar información personal de los clientes del banco, los datos publicados se agrupan por código postal, tipo de establecimiento (alimentación, supermercados, ocio, etc.), día de la semana y hora del día. Los datos disponibles son: Número total de compras. Suma total de las transacciones realizadas dentro de un código postal y por tipo de establecimiento. Diez códigos postales asociados a la tarjeta utilizada y que presentan la mayor frecuencia de aparición. Los datos se publican a través de un API con servicios web, por lo que el método utilizado se cae en la categoría acceso a datos públicos. El primer paso necesario para capturar estos datos ha sido crear una cuenta en el portal de acceso que contiene el catálogo de datos. A continuación se ha desarrollado una serie de scripts para la captura de datos, siguiendo la documentación proporcionada por el mismo portal. 1.6. Referencias Davenport, T. & Prusak, L. (2000). Working Knowledge: How Organizations Manage What They Know. Massachusetts: Harvard Business Review Press. Jarke, M., Jeusfeld, M.A., Quix, C., & Vassiliadis, P. (1998). Architecture and Quality of Data Warehouses: An Extended Repository Approach. Advanced Information Systems Engineering, Lecture Notes in Computer Science, 1413, 243-260. 10 Lo + recomendado No dejes de ver… How do scientists collect data? Este corto vídeo describe los datos obtenidos por un grupo de científicos especializados en biología marina. Es interesante observar la cantidad de datos contextuales que serán utilizados en el análisis. Accede al vídeo desde el aula virtual o a través de la siguiente dirección web: http://www.youtube.com/watch?v=mPmiW0x3s3k 11 + Información Webgrafía DataCatalogs.org Listado de catálogos de datos abiertos. Los catálogos están organizados por nivel (local, estatal, nacional, etc.) y por grupos. Accede a la página desde el aula virtual o a través de la siguiente dirección web: http://datacatalogs.org/ Quantified Self Varios ejemplos de la captura de datos en el contexto personal descritos por la empresa Quantified Self Labs. Accede a la página desde el aula virtual o a través de la siguiente dirección web: http://quantifiedself.com/ 12
[BuO[9P[91 SOJPp ap
3SEQ BUN US SAJUAO
310S UQIDPULIOJUL
3P OJUSIUBUad ey
NOSf OyBuLo]
u9 Ppez1[e90]093
UQIDBULIOJUL
ap u9reyuesoldoy
AS) 0199
un ue sojonpold
310S UQIDBULIOJUL
3P OJUSURUIDBUy
AJUALIBANDAASAL SONSIZOL
IP UQLOBULUO Á UQLOIPA
“UQL919SUI P| US puLIod
ALTEA AHLVAAN
“LAHSNI SOPUBUIOO SOT
Se][qe] ap UOLDPULIOJUL
Ry nsuoo apuned
LOTTAS OPUBUIOO [4
SO]EP 9p UQIDEIYIPOLI
A eynsuos ey exed ofen3ue]
un auyap TOS IPPUBISO [H
(so.1]s1B91)
se[y 4 (sodures) seuuun"oo
u09 “(SAUOP[AL) SELL
SP BULIO] US uBJuesodal as
SOPeua9RuI[e SOJ9yoy so]
SOPRua9e ue SoJayoy
U9 SO]S9 Á SOIISIBOL
ue sopedn.13e “odueo
[9 Sa OJUS[WRuUaoB ue
9p'Po159q PepruneT
so[¡e aqua
Sauope[sl ejuesoldal
o[nauja un Á d 44 el
u9 opejuasaudaz oJolqo
19mbeno sa pepgua
eun (4/3) OMouJa
-I8PqUg OJ9pou [9 ug
uoreode
ap seua]sIs Jod
Opez1[n “sajua]sisiad
soyep ap ojunfuog
sejonbro opuez ¡qn
3039] BULIOJ IP
UQBULIOJUI IBUSR Ue
apuuad “DEM
3P OT TAX IPpue]so
[9 US OJ119S9P “TINX
A)
saJoyooo Jod sejsI
S9AR[| 10d sopepnsdegua
“sojofqo aquosag
*POb-VIADH Á 6SIZ
DAN :SOPPUPISO SOP
U9 IQLIISIP IS NOSL
AOS,
seuoo Jod sodueo
so] 1exedas Á eau]
10d O1]51331 UN ILUYOP
U9 AISISUOJ) 'O8TH DAY
[9 U9 IQUISIP AS (SAN[EA
payexedas Bunuos) AS)
e)
TIOS Á S9[Buope"s.
SOJBP 9P SISVH
SOJEP 3P SISVEH
SOUe[d SOJ9UYIL
UQIBULIOJUT IP OJUITUIBUIIPUI[E DP SOPOITAL
Esquema
Ideas clave 2.1. ¿Cómo estudiar este tema? Para estudiar este tema, además de leer las Ideas clave, debes leer el capítulo 1 (páginas 2-32) del siguiente libro, disponible en el aula virtual: Date, J. C. (2001). Introducción a los sistemas de bases de datos. México: Pearson. ISBN: 978-968-444-419-5. Este capítulo te servirá tanto de introducción como de repaso de los conceptos básicos sobre bases de datos en general y bases de datos relacionales en específico. Este tema proporciona un repaso de los mecanismos comúnmente utilizados para el almacenamiento de información. Nos centraremos en dos aproximaciones: la utilización de ficheros planos y las bases de datos. El aprendizaje de formatos de ficheros de texto como CSV y JSON será de utilidad en los próximos temas, ya que son formatos utilizados por el sistema de almacenamiento con la que trabajaremos. Después de capturar información y poder utilizarla de forma eficiente, será necesario almacenarla de forma permanente. Así, la información obtenida no residirá únicamente en memoria volátil del ordenador sino que estará disponible para futuras ocasiones. El método más básico para almacenar datos es mediante el uso del sistema de ficheros del sistema operativo. Los ficheros pueden ser tener un formato plano, donde toda la información es legible para una persona, o un formato binario, donde la información puede escribirse y leerse de forma directa por una aplicación pero no pueden ser analizados directamente de forma manual. En este tema nos centraremos en los ficheros de texto plano, al ser comúnmente utilizados para el almacenamiento y compartición de datos. Además, el estudio de ficheros planos nos servirá en futuros temas al interactuar con sistemas de bases de datos. 3 Si bien los ficheros planos satisfacen las necesidades básicas de almacenamiento de información, en algunos contextos se necesita brindar características como consistencia de información y poder consultar y modificar de manera eficiente un conjunto de datos en específico. Es por esto que revisaremos el concepto de base de datos y, en específico, las bases de datos relacionales. Además de ser una de las herramientas más comunes en la actualidad, podremos hacer una analogía entre estas herramientas y el sistema que utilizaremos en otros temas de la asignatura. 2.2. Ficheros planos Los ficheros planos suelen ser un mecanismo utilizado para el intercambio de información entre sistemas. Una de sus ventajas es que una persona puede ver y editar el contenido del fichero con una herramienta de edición de texto. Estos ficheros suelen ser mucho más verbosos que los ficheros en formato binario, lo cual implica que su tamaño en el sistema de ficheros será mayor, así como las operaciones necesarias para procesar el contenido desde un programa de software. Entre los formatos de fichero plano más comunes podemos mencionar CSV, JSON y XML. A continuación se describen los detalles básicos de cada uno de ellos. El formato CSV (Comma Separated Values – valores separados por coma), se documenta en el RFC 4180 y presenta las siguientes características: Cada registro se delimita por un cambio de línea (combinación de dos caracteres: CR y LF). Como su nombre indica, los valores de cada registro se separan mediante el uso de comas. Es requerido que el número de valores sea constante para todos los registros disponibles en el fichero. Los valores pueden estar encapsulados con comillas dobles. Esto es obligatorio en aquellos casos donde el valor incluye un cambio de línea, una coma o comillas dobles. Si un valor contiene comillas dobles, estas deben escaparse precediéndolas con otro carácter de comillas dobles. Por ejemplo: “Encargado de ""Business Model""” Opcionalmente, puede incluir una primera línea con los nombres de los campos que se incluyen en el fichero. 4 2.3. Bases de datos Una base de datos es un conjunto de datos persistente utilizado por un sistema de software. Siguiendo con las definiciones, y como se menciona en la bibliografía, un sistema de base de datos es un sistema computarizado para el almacenamiento de registros. Podemos mencionar cuatro componentes de un sistema de esta categoría: Datos. Los datos en un sistema de base de datos pueden definirse como integrados, en aquellos casos en que todos los datos se mantienen unificados y comúnmente serán accedidos por solo una persona, así como compartidos, para aquellos casos en los que se desea mantener los conjuntos de datos separados y otorgar privilegios de acceso distintos a varias personas. Hardware. Como en otros métodos de almacenamiento, los componentes de hardware que intervienen en un sistema de base de datos son los volúmenes de almacenamiento, así como los procesadores y memoria principal. Software. La capa de software entre el usuario y la base de datos física se conoce como DBMS (Database Management System – Sistema Gestor de la Base de datos). Usuarios. Existen tres clases de usuarios en un sistema de bases de datos: o Programadores: encargados de crear aplicaciones que permitan la interacción con la base de datos. o Usuarios finales: utilizan las distintas aplicaciones y herramientas para interactuar con la base de datos. o Administrador de base de datos: se encarga de gestionar la estructura, disponibilidad y eficiencia del sistema de base de datos. En el contexto de bases de datos se utiliza el término entidad para describir a cualquier objeto que puede almacenarse en el sistema. Por ejemplo, en una base de datos utilizada por un almacén se puede tener una entidad «producto” para describir los productos disponibles en el almacén y el término «bodega” para describir las bodegas con las que cuenta. Además, se utiliza el término vínculo o relación para representar las relaciones entre las entidades. En el ejemplo del almacén puede haber una relación «bodega- producto” para indicar que un producto se almacena en una bodega específica. 7 Los datos almacenados en una base de datos se pueden categorizar de forma jerárquica. La unidad más pequeña es el campo, el cual es suele tener un tipo (número, fecha, etc.) y la base de datos tendrá muchas ocurrencias este. Al conjunto de datos que tienen relación entre sí se le denomina registro. Por ejemplo, un registro de tipo «producto” puede tener campos como «nombre”, «precio” y «descripción”. Finalmente, al conjunto de registros del mismo tipo se le denomina archivo almacenado. 2.4. Bases de datos relacionales y SQL En un sistema de base de datos relacional, los archivos de datos son representados por tablas. Cada columna de la tabla representa un campo del archivo, mientras que cada fila representa un registro de datos. Además, cuando un usuario realiza una operación sobre una tabla, el resultado de dicha operación también será una tabla. Para ejemplificar estos sistemas nos basaremos en el ejemplo de los productos en un almacén. En este caso, la información de los productos puede almacenarse en una tabla productos cuyo contenido podría ser el siguiente: Identificador Nombre Precio Bodega 1 Mesa 150,00 1 2 Silla 50,00 1 Para interactuar con una base de datos de manera programática, se utiliza el estándar SQL. Nos enfocaremos en los comandos para la manipulación de datos, que pueden resumirse en cuatro: SELECT: Utilizado para obtener un conjunto de datos a partir de una o varias tablas en un DBMS relacional. INSERT: Comando para agregar un conjunto de registros dentro de una tabla. UPDATE: Permite la modificación de un conjunto de campos sobre un conjunto de registros en una tabla específica. DELETE: Como su nombre lo indica, permite eliminar un conjunto de registros de una tabla. 8 2.5. Casos de estudio 1. Productos en formato CSV En este caso, contamos con información de un inventario de productos. Los datos capturados de cada producto son el identificador (de tipo numérico), el nombre (de tipo cadena de texto) y la cantidad (de tipo numérico). Se plantea el problema de definir el formato de un fichero CSV que almacene los datos del inventario. Una de las condiciones presentadas es incluir el nombre de los campos para que no se genere ninguna confusión al procesar el fichero. Un ejemplo del formato y el contenido del fichero CSV, siguiendo los requisitos planteados, es el siguiente: identificador, nombre, cantidad 1, Plato, 150 2, Sartén, 100 3, Jarra, 200 4, Vaso, 150 Como puede observarse, ninguno de los valores incluidos en el campo «nombre» incluye caracteres especiales tales como las comillas dobles, el cambio de línea o la coma. Por esta razón estos valores no están delimitados por comillas dobles. 2. Información geolocalizada en formato JSON En esta situación se cuenta con información de la actividad geolocalizada de una persona. Esta característica de geolocalización implica que entre los datos disponibles se encuentra la ubicación del usuario en términos de longitud y latitud, los cuales se representan por un número decimal. Además de la ubicación, se ha capturado un identificador de usuario, y el momento de la captura, en formato de fecha y hora. 9 Well-formed XML Un último vídeo del curso «Introducción a Bases de Datos» con relación al contenido de este tema. Este vídeo brinda una introducción muy ilustrativa al estándar XML, además de analizar las características de un documento con sintaxis correcta. Accede al vídeo desde el aula virtual o a través de la siguiente dirección web: https://www.youtube.com/watch?v=LdwBxsN-onw Introducción a SQL Este vídeo presenta de forma muy guiada el uso de SQL a través de una consola. Se muestran ejemplos tanto de comandos para la creación y modificación de tablas, así como consultas, actualización y eliminación de datos. Accede al vídeo desde el aula virtual o a través de la siguiente dirección web: http://www.youtube.com/watch?v=fDNgSTF1dVs 12 + Información A fondo 7 command-line tools for data science Post en el blog de Jeroen Janssens con una recopilación de herramientas para el tratamiento de ficheros JSON y CSV desde la línea de comando de Unix. Aún si Unix no es la plataforma que utilizas regularmente, es interesante analizar el uso de estos ficheros en un entorno real de analítica de datos. Accede al artículo desde el aula virtual o a través de la siguiente dirección web: http://jeroenjanssens.com/2013/09/19/seven-command-line-tools-for-data- science.html SQL for Web Nerds Completo tutorial sobre bases de datos relacionales y SQL. El autor, Philip Greenspun, profesor del Instituto Tecnológico de Massachussetts, describe de forma muy detallada las razones por las que los desarrolladores de aplicaciones web tienen la necesidad de utilizar bases de datos relacionales. Accede al tutorial desde el aula virtual o a través de la siguiente dirección web: http://philip.greenspun.com/sql/ Introducción a SQL Tutorial sobre SQL, incluyendo ejemplos de consultas, criterios de selección, agrupamiento de registros y actualización de información. Accede al tutorial desde el aula virtual o a través de la siguiente dirección web: http://www.maestrosdelweb.com/editorial/tutsql1/ 13 Webgrafía JSON.org Página oficial de la especificación del formato JSON. Accede a la página desde el aula virtual o a través de la siguiente dirección web: http://json.org/json-es.html Bibliografía Shafranovich, Y. (2005). Common Format and MIME Type for Comma-Separated Values (CSV) Files, Internet Engineering Task Force IETF RFC 4180. 14