Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Análisis de Probabilidad y Estadística en R: Importación de Datos y Gráficos, Apuntes de Probabilidad

Este documento ofrece una guía paso a paso para importar datos desde Excel a R Studio, limpiar y manipular los datos, instalar paquetes adicionales, calcular estadísticas básicas y crear gráficos. Se incluyen instrucciones para instalar y usar paquetes como ggplot2 y DESCTOOLS.

Tipo: Apuntes

2020/2021

Subido el 06/04/2022

Javieradonoso
Javieradonoso 🇨🇱

5 documentos

1 / 25

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Lec
probabilidad y
estadística
Lec
probabilidad y
estadística
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19

Vista previa parcial del texto

¡Descarga Análisis de Probabilidad y Estadística en R: Importación de Datos y Gráficos y más Apuntes en PDF de Probabilidad solo en Docsity!

Lec probabilidad y estadística Lec probabilidad y estadística

R studioR studio

limpia t todo

° IMPORTAR : file → Import dataset → from excel ( depende del archivo ) → buscar en archivos → importar

attachl (^) ) : (^) nos permite (^) trabajar con las columnas

detachll :^ *^ Ctrl^ , enter^ : para ejecutar una^ linea

$ : subdivisiones de la base de datos ( elegir columna ) de^ comando

Max 11 : valor máximo ( si no hay números , lo hace en orden alfabético )

Min II^ :^ valor^ mínimo variables : 2 formas → olas = 2 lenviroment ) (^) ( = asigno valor (^) ; = = comparación | → (^) ola 2 < - 5

operaciones :^ +^ ,^ - ,^ • ,^ etc^ →^ Igual que python

hist 1) : histograma

° PACKAGES : para instalar nuevos → linea de comando : library IT nombre del paquete que quiero

→ intentas : instan →^ buscamos el (^) package ( (^) ggplotz ) → (^) descargar → para usarlo (^) apretar ✓

  • (^) cada vez (^) que abra R debo " instalarlos " ✓ para usarlos / (^) ya están (^) descargados ) Vari ) :^ varianza

Meant ) : media . promedio

subsetl ) :^ de^ la^ base^ de^ datos^ or^. ,^ crea^ una^ BD^ más^ pequeña que cumple cierta^ condición^ →^ ej :^ avtitos^ ←^ subset^ IBBDD^ _^ AUTOS^ , BBDD^ _^ AUTOS^ $^ motor^ <^31

VIEW IT (^) base de datos → (^) otra forma de (^) verlo es solo apretando / a en (^) el environment.^ t

después de^ la^ , pueden^ haber^ varias^ cond^.

& :^ " y^ " van (^) las condiciones

| :^ " o^ "

head II :^ encabezado ( primeras 6 filas ) ( resumen ) table II^ : resumen (^ cuantas^ veces^ se^ repite cada valor ) Plot II^ : gráfico pie II^ :^ gráfico^ redondo

col =^ ( ( ) : asigno colores al Gráfico

main =^ '^ '^ :^ titulo del gráfico^ }^ ej^ :^ co,^ =^ [^ (^ "^ red^ "^ ,^ "^ blue^ "^ )^ ,^ Main^ =^ '^ Gráfico^ de^ torta^ "

mear 1) :^ media aritmética ( promedio )^ →^ ( solo^ se puede calcular con variables numéricas )

median 11 :^ mediana^ →^ /^ mediana^ de^ una^ variable^ no^ numérica^ :^ los^ agrupa en^ forma^ numérica^ y arroja el^ del^ medio^ /^ [median^1 ×^1 o^ median^ IBBDD^ _^ AUTOS^ $ ✗^ ) ]

° DESCTOOLS ( Package ) DESCTOOIS

Mode Il^ :^ moda

ej :^ base^ _^1 =^ Cl^ -^ 1.0.

base _^2 =^ (^ (^ - g. o^ ,^ ,^ ,^ }^ Vectores quiero hacer^ un^ solo^ vector^ combinando^ todos^ esos^ valores

plot (^ base^ -1 , ylim =^ Cl - 2. 2) ,^ WI^ =^ "^ red^ "^ )

Plot (^ base^ -2^ }^ GRÁFICOS^ (^ se^ puede^ ver^ cual^ es^ más^ disperso^ ) , ylim^ =^ (1-5,5)^ ,^ Col^ =^ '^ red^ '^ ) limite del (^) eje y

Sdl ) :^ desviación^ estándar

  • AH ← Svbset IBBDD _ AUTOS (^) , BBDD _ AUTOS $ (^) tipo = = 1) → (^) escoge todos los autos (^) que son (^) tipo 1 ( camionetas ) aatatrame

* calcular el promedio de todas las camionetas cuyo precio sea mayor a 20 :

dfz ← svbset ( BBDD ^ AUTOS^ , BBDD _ AUTOS $ (^) tipo =^ =^1 & BBDD^ AUTOS^ $ precio > 20 ) meanldf 2) → var ( BBDD _ AUTOS $ ancho ) → (^) Imprimen lo mismo

✗ Iab =^ '^ ' : etiqueta o nombre del eje ✗

Ylab =^ '^ '^ : etiqueta o nombre del eje y

print I^ )^ :^ imprimir^ →^ Igual^ que^ python

Código

(^1 ) 3 4 (^5 )

Cuartiles Datos atipicos Tablas de contingencia Boxplot o diagrama de caja

° Medida de posición que divide la muestra en cuatro partes iguales

° ¿ cuál es la diferencia con el percentil? : cuartil Ir - 4) , percentil ( cualquier porcentaje ) → Cuartil 2 = percentil 50

° ¿ Diferencia (^) entre (^) percentil 50 y cuartil 2? 25% 25% 25 % 25%

Y T T^ T 9

mínimo Qn^02 03 máximo

° Corresponden a valores que estar muy alejados en comparación al resto

÷

iii.í^.^ - ÷^.

.^ :^.^ .. i-^ i'-^ i = ° (^) Tabla (^) de frecuencia cruzada entre dos variables S E ✗ O hombre (^) mujer marginal Si 65 58 123 E^ NO^43 67 Í (^) Marginal 108 125 233 máx

  • | | IQR =^ 03- min → dato atípico

data =^ Mad. CSV / ti / e. ( hoose ( (^) ) ) : abrir documento

rm II :^ borrar algo en específico

summary II^ :^ resumen^ de^ todas^ las^ columnas^ que tiene^ la^ base^ de^ datos

qvantite 1)^ :^ revisar^ el^ cuartil^ de^ cierta^ columna^ →^ qvantile^ (^ ✗^ ✗^ ✗^ × .IE/- percentil que^ se^ quiere^ →^ no^ entre^0 y^1 :^ 0,5^ cuartil^2 o^ percentil^50

tablet ) :^ tabla de contingencia , muestra la frecuencia cruzada

° (^) CAR I (^) package ) qq Plot^ I^ )^ :^ gráfico^ con^ datos^ atípicos^ (^ zona^ de^ confianza^ )

boxplotll :^ otra^ forma^ para ver^ datos^ atípicos

o MOMENTS I package )

Skewness 1)^ : skewness > o : asimétrica a la derecha ( cola hacia la derecha )

Skewness < o : asimétrica a la izquierda ( cola hacia la izquierda )

skewness =^ o^ :^ simetría ( distribución normal )

Código

(^12) (^34) y^5 7

1 z 3 y 5 6 7

Variables aleatorias Funcion de distribucion acumulada Funcion de cuantia Funcion de densidad Bernoulli Binomial Poisson Distribucion normal

° función cuyo dominio es un conjunto de eventos posibles y su recorrido es un subconjunto de los IR

o (^) discretas o continuas ° (^) Sea ✗ una v. a (^) , se define su función de d. a (^) como :

FIN =^ PIXE × ) , la cual cumple con 2 propiedades :

  1. (^) III.• FIN =^ O^ * FIN : (^) función no decreciente (^) y
  2. (^) ✗11m→ + (^) aFIN^ =^1 continua a la^ derecha

o 1- IN =^ PIX =^ × ) , la cual cumple las siguientes propiedades :

1) 1-1× 170 Y^ ✗^ E^ IR

2) -21-1×^1 =^1

  1. 1- ( x) = P / ✗ =^ × ) I Es continuo?

o sea ✗ una v. a continua , entonces tu es una función de densidad de probabilidad para la v. a ✗ si satisface :

1) 1-1× 170 , ✗ E IR

  1. /^ HH^ dx =^1 ° Solo 2 resultados ☐ Se define con un (^) parámetro p , a la (^) probabilidad de obtener (^) un Exito (^) en el (^) experimento o ¿ Qué es n - p? : Falla ° Cuenta el n° de Exitos en una secuencia de n (^) ensayos Bernoulli Indep. entre si

° Sea ✗ una v. a que representa el numero de eventos que ocurren por unidad de tiempo , área o volumen

o Parámetros d^ : promedio de ocurrencias por unidad^ de tiempo ° Distribución de variable continua o Distribución (^) altamente utilizada en una variedad de temas (^) y Áreas

° Dos parámetros. Myr . media y vananta

Distribucion chi cuadrado Distribucion T student Estimacion de parametros o (^) Sea ✗ i -^ N 10,11 con i =p... n se define : c = É. xi

o te dice que C sigue una distribución chi - cuadrado con n grados de libertad , y se derrotará como C ~ ✗^ < Int

RELACIÓN CON LA DISTRIBUCIÓN^ GAMMA

o La distribución ×^ ' es un caso de la distribución gamma. le tiene que

ir = FIE. El

° La distribución t de student es la probabilidad de cociente

T = Z

ya = z donde : → (^) z : variable (^) aleatoria distribuida (^) según una normal (^) típica / de media nula (^) y varianza 1)

→ V : variable continua que sigue distribución x' con v grados de libertad

→ z (^) y V : son (^) independientes (^) y anotaremos (^) que T -^ t Iv ) APLICACIONES : ° (^) sean ×,.... ✗ n (^) una muestra (^) aleatoria de (^) tamaño n (^) desde una normal de parámetros n (^) y s '. Ent. se tiene (^) que : I (^) 5-- m -^ t In -^ n ) rn

  • la distribución t (^) es simétrica (^) con respecto al (^0).

o Suponga que ✗ ~^ N tu .at entonces nos gustaría estimar cuanto valen^. Para^ ello utilizaremos una aproximación de u

la cual será el periodo muestral I de n datos y anotaremos : sí = ☒

Además tenemos que :^ Ú -^ N (^) fu , TYN )

° Por otro lado , tambien nos gustaría poder estimar r '. Para ello aproximarnos T ' mediante la varianza muestral s^ '

con n datos y anotaremos^ :^ Ñ^ =^ S^ ' Ivar ,

Además (^) se cumple que : In - 1) ÷ -^ Min - N (^) j ~^ tln - 1)

Código

abrimos base (^) de datos

→ planteamos →una definimos^ semilla variablepara poder^ trabajar^ con^ el^ mismo^ nivel^ de^ aleatoriedad

→ gráfico →^ hacer^ datos

→ probabilidad → wantil

[ valores menores a no

* * sisi pongo un^ valor^ muy grande →^ n

pongo un^ valor^ muy^ chico^ 1-^ )^ →^ O → (^) grados de → libertadsimulo datos en dist. T- Stud ent Cant → toma datos valores + (^) y - → prob. ✗^ → < - dist^1.^ normal → cuartil qt Ir^ , f-^ d)^ infinito^ (^ toma^ todos^ los^ datos^ / INSTALAR

→ → quemientras tan puntiagudasea más cercano es^ la^ dista 0. → es normal ldist. )

→ (^) largo / no datos con los que estoy trabajando) → 1 ×^1 → limite svp. → limite int. → mostrar (^) de forma bonita

n grados de lib