



Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Anàlisi de Dades, Profesor: David Altimira, Carrera: Dret + Administració i Direcció de Empreses o Economia, Universidad: UPF
Tipo: Apuntes
1 / 6
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!




UNIVERS O POBLACIÓ: És el conjunt de tots els elements que són objecte d un determinat estudi0 3 0 1 estadístic. Exemple: Persones amb dret a vot a Espanya.
INDIVIDU: Cadascun dels elements que formen la població o univers i que venen descrits per un conjunt de dades. Els ‘individus’, en termes estadístics, poden ser persones, però també poden ser animals o coses. Exemple: En un estudi estadístic sobre les vendes dels comerços d una certa ciutat,0 3 0 1 cada establiment és un ‘individu’ i la ‘població’ estaria formada per tots els comerços d aquesta ciutat. 0 3 0 1 MOSTRA: És un subconjunt que s extreu de la població, utilitzant tècniques de mostreig adequades,0 3 0 1 l estudi del qual ens serveix per a treure conclusions sobre les característiques de tota la població. La0 3 0 1 selecció d una ‘bona’ mostra és clau per a la fiabilitat dels resultats. 0 3 0 1 MOSTREIG: És la tècnica estadística emprada per a la selecció d una mostra. El més habitual en0 3 0 1 quant a fiabilitat és el mostreig probabilístic , en el qual tots els individus de la població poden formar part de la mostra. Dins dels mostrejos probabilístics, destaquem el mostreig aleatori simple , en el qual tots els individus tenen la MATEIXA probabilitat de ser seleccionats per a la mostra. Els mostrejos aleatoris simples s acostumen a dur a terme mitjançant taules de nombres aleatoris o amb generadors 0 3 0 1 informàtics de nombres aleatoris. VARIABLE: És qualsevol característica d un individu. Una variable pot prendre diferents valors0 3 0 1 depenent de cada individu. Exemples: Si estem fent un cert estudi estadístic sobre les persones d una0 3 0 1 CC.AA. d Espanya, diferents ‘variables’ podrien ser l edat, el sexe, el nivell d estudis, el lloc de 0 3 0 1 0 3 0 1 0 3 0 1 residència, etc. OBSERVACIÓ O CAS: En un conjunt de dades, és el conjunt format per l individu i les seves0 3 0 1 variables associades. Exemple: Si fem un estudi estadístic sobre els habitants de la CC.AA de Castella la Manxa, una ‘observació’ podria seria la persona de nom i cognoms JOSÉ ÁLVAREZ CUESTA, de sexe masculí, edat 42 anys, resident a Toledo i amb nivell d estudis de llicenciat. 0 3 0 1 VARIABLE CATEGÒRICA és aquella que col.loca un individu en un o diversos grups o categories. Exemples: Sexe, nivell d estudis, estat civil, etc.0 30 1 VARIABLE NUMÈRICA és aquella que prèn valors numèrics pels quals certes operacions 0 3 aritmètiques com sumar o fer el promig tenen sentit. Els valors d una variable numèrica0 1 normalment tenen una unitat de mesura. Exemples: Edat, pes, alçada, puntuació en un examen, sou mensual, etc. DISTRIBUCIÓ d una variable ens diu els valors que prèn i amb quina regularitat els prèn.0 30 1 0 3 En el cas de variables categòriques, s entén que els seus valors són les etiquetes de les seves0 1 categories. FREQÜÈNCIA ABSOLUTA és el nombre de vegades que apareix un determinat valor en un estudi estadístic. FREQÜÈNCIA RELATIVA és el valor que resulta de fer la divisió de la freqüència absoluta 0 3 d un determinat valor i el nombre total de dades.0 1 VALOR ATÍPIC (‘outlier’, en anglès) és un valor individual que cau fora del model o 0 3 comportament general relatiu a la distribució d una variable. Per tant, els valors atípics0 1 formen part de les desviacions del model.
L ́Estadística és la ciència que s ́ocupa dels mètodes i procediments per a recollir, classificar, resumir i analitzar dades , sempre i quan la variabilitat i l incertesa ́ en siguin una causa intrínseca dels mateixos; així com també de realizar inferències a partir d ́ells amb la finalitat d ́ajudar a prendre decisions i a formular prediccions.
En aquesta definició hi podem incloure dues branques diferenciades de l ́estadística:
En la majoria d ́estudis es tracta amb un gran volum de dades. Un dels objectius de l ́estadística és utilizar aquestes dades de manera efectiva i, per tant, és important tractar les dades amb rigor per tal de treure ́n conclusions precises i acurades. Cal tenir en compte els aspectes següents:
Les dades solen ser nombres, però no són només això. Les dades són nombres en un context determinat, que ens permet emetre opinions i conclusions.
En els estudis estadístics, s ́acostuma a prendre una mostra d ́individus a partir dels quals en volem extreure conclusions sobre el total, el que s ́anomena univers. Per tant, la procedència de la mostra ha de ser el més aleatòria i heterogènia possible i en cap cas pot venir predeterminada. No totes les mostres són fiables. Tota enquesta rigorosa NO pot deixar que els individus que formen part d ́una mostra escolleixin ells mateixos si hi participen o no. El que cal fer és escollir la mostra a l ́atzar, de tal manera que cada individu té la mateixa probabilitat de ser a la mostra o de no ser-hi.
De vegades, en estadística són molt més útils segons quins gràfics que no pas un gran conjunt de dades. L ́avantatge dels gràfics és que ens permeten visualitzar millor el que les dades ens diuen i, per tant, detectar fenòmens que només amb les dades podrien passar desapercebuts. Així doncs, és important analitzar meticulosament el que les dades ens diuen.
A l ́hora de treure conclusions a partir d ́unes dades, hem d ́anar amb compte amb altres possibles relacions entre aquestes i que, potser per la seva manca d ́evidència aparent, no vol dir que no hi intervinguin i, per tant, també les hem de considerar a fi i efecte d ́evitar deduccions errònies.
Les variables categòriques i numèriques porten associades diferents tipus de gràfics:
Aquest tipus de diagrames mostren la distribució d una variable categòrica en forma de ‘pastís’, cada 0 3 0 1 porció del qual té una grandària proporcional al nombre d observacions o de percentatges de cada 0 3 0 1 categoria. Han d incloure totes les categories que conformen el total. Només els utilitzem quan volem 0 3 0 1 emfatitzar la relació de cada categoria respecte el total.
FET MÀ: Plantejar una regla de 3
Els diagrames de barres representen cada categoria mitjançant una barra, l ́alçada de la qual es correspon amb el nombre d ́observacions o amb el tant per cent d ́aquella categoria. Són més senzills de dibuixar que els diagrames de sectors i, fins i tot, més visuals, en el sentit que l ́alçada de les barres és més fàcil d ́identificar que la grandària de la porció d ́un sector circular en el cas dels diagrames de sectors.
Són la representació gràfica d ́una taula de freqüències distribuint les dades en intervals adequats. Sol passar que les variables quantitatives acostumen a prendre valors repetits i, en alguns casos, aquests valors es repeteixen moltes vegades. Per tant, el que fa l ́histograma és agrupar aquest valors en rangs de nombres i d ́aquesta manera obtenim un visualització simplificada i precisa de les dades.
Per a representar un histograma, seguirem els següents passos:
PAS 1: Dividirem el conjunt de dades en classes o intervals de la mateixa amplitud. Això és important fer-ho seguint criteris lògics i raonables, ja que, en cas contrari, l ́histograma pot resultar poc concloent i representatiu.
PAS 2: Comptem el nombre d ́individus que hem observat en cadascuna de les classes o intervals.
PAS 3: Procedim a dibuixar l ́histograma. Per a fer-ho, marquem a l ́eix horitzontal la divisió d ́intervals a partir de les observacions de la nostra variable, mentre que a l ́eix vertical marquem el nombre d ́observacions detectades a cada interval. Finalment, dibuixem barres consecutives d ́amplitud la de cada interval i d ́alçada la del nombre d ́observacions corresponent.
Els histogrames s ́assemblen als diagrames de barres, però els seus detalls i usos són diferents. Un histograma ens mostra la distribució d ́una variable quantitativa. L ́eix horitzontal d ́un histograma ve determinat per les unitats de mesura de la variable. Un diagrama de barres, en canvi, compara les grandàries de diferents quantitats. L ́eix horitzontal d ́un diagrama de barres no ha de tenir necessàriament cap escala de mesura. En el cas dels diagrames de barres separem les barres per a distingir les
quantitats que comparem. En canvi, quan dibuixem histogrames les barres apareixen juntes, ja que volem indicar que tots els valors de la variable queden coberts.
Cal saber interpretar els histogrames. El primer que cal fer és observar el comportament general i després fixar-nos en les desviacions d ́aquest comportament. Els histogrames s ́interpreten en funció de 3 aspectes:
Aquest tipus de diagrames són més adients per a conjunts petits de dades. Són més ràpids de dibuixar i ens aporten informació detallada. Els histogrames normalment són preferibles per a conjunts grans de dades.
PAS 1: Separem cadascuna de les observacions en un tronc, que conté tots els dígits menys el darrer, i en una fulla, que conté el darrer dígit. En el cas de les xifres que comencen per 59, el tronc seria precisament el valor 59 i, en el cas de les fulles, depèn de cada observació. Pel valor 59.2, la fulla seria 2, i pel valor 59.0, la fulla seria 0.
PAS 2: Escrivim els troncs en una columna vertical, ordenats de manera creixent, i dibuixem una línia vertical a la dreta d ́aquesta columna. També cal incloure els troncs que no tinguin cap fulla.
PAS 3: Per a cada tronc, escrivim a la seva dreta totes les seves fulles ordenades de manera creixent.
En un histograma podem triar les classes. En un diagrama de tronc-i-fulles, les classes (els troncs) ja venen determinades. Els histogrames són més flexibles que els diagrames de tronc-i-fulles, perquè permeten la tria de classes. No obstant, els diagrames de tronc-i-fulles tenen l ́avantatge de preservar el valor de cada observació.
Per a conjunts grans de dades, els diagrames de tronc-i-fulles són poc efectius, ja que cada tronc ha de contenir un gran nombre de fulles. En aquests casos, aquest tipus de diagrames són poc informatius i no permeten distingir bé el que passa.