Formulario Final Gestión de datos | Ejercicios de Sistemas de Gestión de Bases de Datos

Imports:

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

from sklearn.preprocessing import StandardScaler

Diccionarios

continentes = {

"America": ["Mexico", "USA", "Argentina"],

"Europa": ["Inglaterra", "Alemania", "Espana", "Francia",

"Italia", "Portugal", "Holanda"]

}

# DF de dicc

dicc = {'titulo':(‘Cien años de soledad', 'La catedral del mar',

'Frida Kahlo', 'El perfume'),

'editorial':('Planeta', 'Plaza y Janes', 'Planeta', 'DK Editores'),

'paginas':(400,680,320,140),

'origen':('Colombia', 'España', 'USA', 'Suecia')}

df = pd.DataFrame(dicc)

Leer archivos:

df = pd.read_csv ("path_name" , index_col = "columna que se usara de

indice", names = ["lista","de","nombres","de","columnas"],

skiprows = num_de_columnas_que_se_va_a_saltar,

usecols = ["lista","ConNombres","DeColumnas"],

nrows = numDeFilasALeer, skiprows =

numDeFilasAOmitir, sep = ‘,’)

Metodos:

df.info()

# Da numero de columnas, renglones, tipo de variables de cada

columna, cantidad de valores no nulos por cada columna

df.describe()

# Default: solo te describe las columnas con valores númericos

# Te da min, max, mean, quantiles

df[["lista","de","columnas"]].describe()

# Si son columnas no numericas te da:

#Cantidad de valores no nulos, cantidad de valores unicos,

valor que mas se repitio, veces que se repitio ese valor

df.head(n)

#Default: primeros 5 valores

#No default: Primeros n renglones

df.tail(n)

#Default: ultimos 5 renglones

#No default: ultimos n renglones

df[["lista","de","columnas"]].agg(["sum","mean"])

#Te junta los valores de sum, mean de las columnas en la lista en

un df nuevo

df.groupby("columna en la que se van a agrupar los valores")["columna

en la que se va a aplicar la funcion"].sum()

#.mean(),.count(),.max(),...

df["columna"].unique()

#Te da una lista con los valores unicos de la columna

df["columna"].value_counts()

#Cuenta cuantos hay de cada uno en esa columna

#Igual se puede hacer:

df.groupby("columna")["columna"].count()

df.rename(columns:{‘viejoNom’:’nuevoNom’})

Añadir columna

nueva_columna = [valores nuevos]

df["Nombrense Nueva Columna"] = nueva_columna

Buscar por Indices:

indices = [lista,de,indices]

df.loc[indices]

Ordenar

# Por indice:

df.sort_index(ascending = False/True)

# Por valores de una columna:

df.sort_values (by = "nom_columna", ascending = False/True)

Renglon menor/mayor de una columna:

valor_min = df["columna"].min() #.max()

renglon_valor_min = df.loc[df["columna"]==valor_min]

renglon_valor_min

# En caso de valores duplicados

renglon_valor_min.drop_duplicates(subset="columna que usamos de

parametro para repetidos")

Indice con valor minimo/max

min_index = df["columna"].idxmin() #.idxmax()

min_index

Formulario Final Gestión de datos, Ejercicios de Sistemas de Gestión de Bases de Datos

Documentos relacionados

Vista previa parcial del texto

¡Descarga Formulario Final Gestión de datos y más Ejercicios en PDF de Sistemas de Gestión de Bases de Datos solo en Docsity!

Imports:

Diccionarios

Leer archivos:

Metodos:

Te da min, max, mean, quantiles_

Añadir columna

Buscar por Indices:

Ordenar

Renglon menor/mayor de una columna:

Indice con valor minimo/max

Subplots

Graficas de barras:

Grafica de dispersión

Histogramas

Series

Valores faltantes:

Valores duplicados

Intepretación de MAE y MSE

media de las puntuaciones de cada fold_

Puntuacion de exactitud con los valores de predicción_

Ejemplo tarea determinar profundidad:_

'123'_

None_

Expresiones Regulares Comunes en Python

Metacaracteres y símbolos usados en expresiones regulares

Normalización/Lematización/Enraizamiento de texto:

Normalización de corpus:

Lematización de corpus:

Enraizamiento de corpus:

Remplazar elementos de una columna para convertir a float

Visualización en grafica de barras:

Visualización en nube de palabras:

Leer archivo en formato .shp

(todo el mapa es un mismo objeto)_

Leer archivo en formato geojason

Parametros de diseño

Existen parámetros para personalizar las gráficas obtenidas con .plot de geo df:

edgecolor="nombreDelColor" para especificar las líneas divisorias en el mapa

color="nombreColor" para el relleno de cada área delimitada en el mapa

column="nombreColumna" para colorear de diferente color empleando la columna

como atributo (sólo 10 tonos diferentes para elementos categóricos por default)

figsize=(ren,col) para especificar tamaño de la figura donde se desplegará el mapa

Desplegar información de un renglon:_

Cambio de coordenadas de latitud/longitud a metros

Métodos Geométricos: