Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


introduccion al r studio, Ejercicios de Análisis de Datos y Métodos Estadísticos

comandos basicos de r studio para ejecutar

Tipo: Ejercicios

2018/2019

Subido el 22/04/2019

gammi98
gammi98 🇪🇸

4 documentos

1 / 6

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
ANÀLISI DE DADES: INTRODUCCIÓ AL R I RSTUDIO
- Introducció al R-STUDIO i R
1. Informació bàsica
1.1 Què és R?
R és un llenguatge i un entorn per a la computació estadística i la representació gràfica de dades. És
gratuït i de codi obert i ha adquirit molta popularitat ara que les dades s'han incrementat en volum i
complexitat (l'anomenat «Big Data»).
Hi ha molts paquets estadístics diferents, com ara Stata, SPSS o SAS, entre d'altres. La taula següent
resumeix les característiques principals d'aquests paquets:
Característiques Stata SPSS SAS R
Corba
d'aprenentatge Inclinada/gradual Gradual/plana Molt inclinada Molt inclinada
Interfície d'usuari Programació/menús Principalment
menús Programació Programació
Manipulació de
dades Molt fort Moderat Molt fort Molt fort
Anàlisi de dades Poderós Poderós Poderós/versàtil Poderós/versàtil
Gràfiques Molt bo Molt bo Bo Excel·lent
Cost
Llicències accessibles,
sols es renova en
actualitzar
Car (però no es
renova
fins l'actualització,
llicències de llarg
termini)
Car(renovació
anual)
Codi obert
(gratuït)
1.2 Què és R-Studio?
R-Studio permet l'usuari executar R en un entorn més amigable per l'usuari. És de codi obert (o sigui,
gratuït).
Per usar R-Studio heu de tenir instal·lat l'R prèviament al vostre ordinador.
- La pantalla principal d’R-Studio
Quan comencem l'R-Studio obtenim la pantalla següent:
La finestra té tres subfinestres:
Console:
La consola és on entreu les ordres i veieu la sortida.
Workspace/History:
Aquestes són dues pestanyes a la part superior dreta
de la finestra. A la pestanya Workspace podeu veure
tots els objectes actius, mentre que a la pestanya
History es mostra una llista d'ordres que s'han usat.
Files/Plots/Packages/Help:
Aquestes quatre pestanyes estan ubicades a la part
inferior esquerra de la finestra. La pestanya Files
mostra tots els fitxers i carpetes al vostre espai de
treball predeterminat com si estiguéssiu a una
finestra del PC/Mac. La pestanya Plots mostra totes
les vostres gràfiques. La pestanya Packages mostra
una sèrie de paquets o complements que calen per executar alguns processos. I finalment la pestanya
Help us proveeix d'ajuda per a l'R i l'R-Studio.
2.1 La pestanya Console
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga introduccion al r studio y más Ejercicios en PDF de Análisis de Datos y Métodos Estadísticos solo en Docsity!

ANÀLISI DE DADES: INTRODUCCIÓ AL R I RSTUDIO

- Introducció al R-STUDIO i R 1. Informació bàsica 1.1 Què és R? R és un llenguatge i un entorn per a la computació estadística i la representació gràfica de dades. És gratuït i de codi obert i ha adquirit molta popularitat ara que les dades s'han incrementat en volum i complexitat (l'anomenat «Big Data»). Hi ha molts paquets estadístics diferents, com ara Stata, SPSS o SAS, entre d'altres. La taula següent resumeix les característiques principals d'aquests paquets: Característiques Stata SPSS SAS R Corba d'aprenentatge Inclinada/gradual Gradual/plana Molt inclinada Molt inclinada Interfície d'usuari Programació/menús Principalment menús Programació Programació Manipulació de dades Molt fort Moderat Molt fort Molt fort Anàlisi de dades Poderós Poderós Poderós/versàtil Poderós/versàtil Gràfiques Molt bo Molt bo Bo Excel·lent Cost Llicències accessibles, sols es renova en actualitzar Car (però no es renova fins l'actualització, llicències de llarg termini) Car(renovació anual) Codi obert (gratuït) 1.2 Què és R-Studio? R-Studio permet l'usuari executar R en un entorn més amigable per l'usuari. És de codi obert (o sigui, gratuït). Per usar R-Studio heu de tenir instal·lat l'R prèviament al vostre ordinador. - La pantalla principal d’R-Studio Quan comencem l'R-Studio obtenim la pantalla següent: La finestra té tres subfinestres: Console: La consola és on entreu les ordres i veieu la sortida. Workspace/History: Aquestes són dues pestanyes a la part superior dreta de la finestra. A la pestanya Workspace podeu veure tots els objectes actius, mentre que a la pestanya History es mostra una llista d'ordres que s'han usat. Files/Plots/Packages/Help: Aquestes quatre pestanyes estan ubicades a la part inferior esquerra de la finestra. La pestanya Files mostra tots els fitxers i carpetes al vostre espai de treball predeterminat com si estiguéssiu a una finestra del PC/Mac. La pestanya Plots mostra totes les vostres gràfiques. La pestanya Packages mostra una sèrie de paquets o complements que calen per executar alguns processos. I finalment la pestanya Help us proveeix d'ajuda per a l'R i l'R-Studio. 2.1 La pestanya Console

La pestanya console us mostra la línia d'ordres per interactuar amb el programa R (les nostres ordres i les respostes del programa). Els paràgrafs que veiem al principi d'aquesta finestra són els missatges inicials del programa. Anomenem a « > » la «línia d'ordres», és a dir el lloc on el programa pregunta per ordres: Encara no hem introduït l'ús d'R, però quelcom senzill que podem fer és simplement entrar alguna operació matemàtica senzilla, atès que R també pot funcionar com una calculadora de mà. Entrem doncs «5» i després prenem la tecla «Intro» a la consola: Trobareu totes les ordres entrades a la consola a la pestanya «History». Aprendrem com usar totes les altres pestanyes i menús a mesura que progressem en l'ús d'R-Studio i R.

- Instal·lació de swirl Per aprendre i practicar amb l'R, usarem el paquet «swirl». A les aules d'ordinador de la UPF ja està instal·lat, però si el voleu usar a la vostra pròpia instal·lació de l'R-Studio i l'R, primer l'haureu d'instal·lar. Aquí proveïm les instruccions per instal·lar swirl al vostre ordinador. «swirl» és un paquest. Els paquest són conjunts de programes addicionals que es poden instal·lar a l'R per realitzar diferents tasques. El paquet swirl s'ha escrit per proveir tutorials per a l'R usant l'R mateix. Podeu instal·lar paquets a l'R usant els menús d'Rstudio, o directament a la línia d'ordres entrant una ordre. Si voleu usar els menús, podeu trobar l'opció d'instal·lar nous paquets a Tools -> Install Packages: Si cliqueu sobre "Install package", obteniu un diàled on podeu escriure el paquet que voleu instal·lar: Això instal·larà el vostre paquet a la vostra instal·lació base de R. Alternativament, podeu instal·lar swirl directament des de la línia d'ordres:

install.packages("swirl") Per poder iniciar l'ús de swirl, un cop instal·lat, heu d'habilitar-lo a la vostra sessió d'R. Podeu fer-lo amb l'ordre següent: library("swirl") - Instal·lació dels tutorials Ara que teniu swirl instal·lat, podeu accedir els tutorials que us cal per aprendre l'R. Primer heu d'habilitar swirl a l'R, cosa que podeu fer a R-Studio entrant l'ordre següent: install_course_github("wagafo","Analisi_Dades_Catala",multi=TRUE) Ara podeu iniciar swirl, entrant l'ordre següent: swirl()

a. 1: Tendencia Central b. 2: Dispersio c. 3: Visualitzacio de Dades d. 4: Dades Agrupades e. 5: Transformacio de Dades

1. Tendencia Central:

| Avui, aprendrem els elements bàsica de l'anàlisi de dades. Probablement té | sentit començar per definir la paraula DADES. | D'acord amb la Wikipedia, «Dades són valors de variable qualitatives o | quantitatives, que pertanyen a un conjunt d'elments.» | Sovint, el «conjunt d'elements» en els quals estem interessats es refereixen | com la POBLACIÓ. L'anàlisi de dades en general implica l'estudi d'un | subconjunt, o MOSTRA, d'una població sencera. | L'anàlisi de dades hauria de començar sempre amb una pregunta específica | d'interès. Per exemple, ens podríem preguntar «Quin percentatge de la | població de Catalunya té una alçada de més de 1.80 metres?» | Aquí, la nostra població d'interès és tothom que viu a Catalunya. Atès que no | és pràctic mesurar l'alçada de més de 8 milions de persones, podríem en canvi | escollir 100 persones a l'atzar i mesurar les seves alçades. La nostra | esperança és que aquesta mostra de 10 persones és REPRESENTATIVA de tota la | població de Catalunya. Anem a comprovar ràpidament la vostra comprensió del terme REPRESENTATIVA. Si | tinguéssiu interès d'estudiar la salut dels homes del tram d'edat 18-25 a | Catalunya, quina mostra seria més representativa de la població objectiu: una | mostra d'homes d'una llar d'avis o una mostra d'homes entre 18-25 anys | escollits a l'atzar a tot Catalunya? 1: Homes 18-25 a tot Catalunya 2: Homes de la llar 1 | L'objectiu d'analitzar una mostra és extraure conclusions sobre la població | de la qual la mostra ha estat extreta. Això s'anomena INFERÈNCIA i és | l'objectiu principal de l'ESTADÍSTICA INFERENCIAL. | Per fer inferències sobre la població, primer hem de descriure la mostra. | Aquest és l'objectiu principal de l’Estadística DESCRIPTIVA (TROBAR UNA BONA MOSTRA!) | Si volem descriure la nostra mostra usant sols un número, quina seria la | millor manera de fer-ho? Un bon inici és trobar el centre, la meitat, o | l'element més comú de les nostres dades. A l'estadística això l'anomenem la | TENDÈNCIA CENTRAL. | Hi ha tres mètodes diferents per trobar un valor així i l'aplicabilitat de | cada mètode depèn de la situació. Aquests tres mètodes s'anomenen la MITJANA, | la MEDIANA, i la MODA. | La mitjana, la mediana i la moda són mesures de ____________. 1: tendència central

| Quin dels termes següents són de la màxima importància quan s'està descrivint | la tendència central d'un conjunt de dades? 1: estadística, població, moda 2: moda, mediana, mitjana 3: població, mostra, representativa 4: mediana, moda, rang 2 | Per il·lustrar aquests conceptes, ara mirarem a un conjunt de dades reals del | paquet «openintro» de R, que ja us hem carregat. Escriviu «cars» a la línia | d'ordres i premeu Intro per veure el conjunt de dades amb el qual | treballarem.

CARS | Haureu notat que les files estan numerades de l'1 al 34, cadascuna | representant exactament un cotxe (car) al conjunt de dades. Per a cada cotxe, | les següents VARIABLES, o característiques, es reporten: «type» (small, | midize, large), és a dir el tipus, que pot ser petit, mitjà o gran, «preu» en | dòlars americans, «mpgCity» que és quantes milles per galó de combustible pot | fer a la ciutat, «driveTrain» (4WD, front, rear) que és la tracció que pot | ser de les quatres rodes (4WD), frontal (front) o posterior (rear), | «passengers» que és la capacitat de passatgers que té i «weight», el pes en | lliures. Ens enfocarem a la variable «mpgCity» en aquesta lliçó. Per simplicitat, anem | a extraure-la del nostre conjunt de dades i emmagatzemar-la en una nova | variable. | Accediu la variable «mpgCity» del conjunt de dades «cars» usant | «conjunt_de_dades$variable» cars$mpgCity [1] 25 18 19 22 22 19 16 19 16 16 21 17 20 20 29 23 21 29 20 31 23 21 18 46 42 [26] 29 22 20 17 18 18 17 18 29 28 19 19 29 18 29 21 23 19 31 19 19 28 33 25 39 [51] 32 22 25 20 | Great job! | Emmagatzemeu ara els continguts de «cars$mpgCity» en una nova variable | anomenada «myMPG». Cars$MPG | La MITJANA ARITMÈTICA, o simplement la MITJANA, és la mesura més comuna | utilitzada per descriure la tendència central. Per calcular la mitjana d'un | conjunt de dades, primer heu de sumar tots els valors i després dividir | aquesta suma pel nombre total de valors al conjunt de dades. | Tanmateix, quan hi ha molts valors d'interès, esdevé tediós fer aquest càlcul | a mà. Afortunadament, l'R té una funció incorporada per calcular la mitjana. | La sintaxi d'aquesta funció és «mean(variable)». No he pogut guardar però posant cars$mpgCity m’ha donat que la mitjana es 23.