Introducció a l'estadística: conceptes i eines
Enviado por Programa Chuletas y clasificado en Física
Escrito el en catalán con un tamaño de 7,09 KB
Conceptes bàsics d'estadística
Definicions clau
- Població: Conjunt de persones del qual es fa l'estudi.
- Elements: Persones o coses que formen part de la població.
- Variables: El tema del qual es fa l'estudi.
- Mostra: Part de la població de la qual es fa l'estudi per després generalitzar els resultats.
Tipus de variables
- Variables quantitatives: S'expressen en valors numèrics.
- Discretes: S'expressen en valors numèrics sencers, no admeten decimals.
- Contínues: S'expressen en valors numèrics, admeten decimals.
- Variables atributs: S'expressen en valors textuals.
- Ordenables: Admeten un ordre.
- No ordenables: No admeten ordre.
Fonts d'informació
- Fonts primàries: Donen informació de primera mà (entrevistes i enquestes).
- Fonts secundàries: Són reflexions de les primàries (censos, padrons com INE i IBESTAT).
Taules estadístiques
Per realitzar un estudi, primer s'han d'obtenir les dades i després recopilar-les en una taula.
- Freqüència absoluta: Nombre de vegades que apareix a la mostra un mateix valor de la variable, és a dir, la quantitat d'aquesta variable que té la mostra.
- Freqüència relativa: Resultat de dividir la freqüència absoluta amb la mida de la mostra.
- Freqüència absoluta acumulada: És el nombre de vegades que ha aparegut a la mostra un valor menor o igual; s'acumulen els valors i es van sumant.
Com més gran sigui el nombre d'intervals, més detalls d'informació tindrem. Si és massa gran, pot dificultar la lectura, i si és massa petit, es perd molta informació. Quan el nombre de valors de la variable és molt elevat, cal ajuntar les dades en grups. Si el nombre és reduït, es pot fer la taula directament.
Gràfics estadístics
Per fer un gràfic correctament, els eixos han de començar de 0, els espais entre cada interval han de ser iguals, i el tipus de gràfic ha de ser l'adequat tenint en compte la informació que hi volem representar.
- Gràfic de columnes: No cal que els intervals estiguin de manera contínua a l'eix horitzontal ja que, a diferència de l'histograma, els valors no són continus. L'altura dels rectangles dependrà del valor de la variable.
- Gràfic de barres: És semblant al gràfic de columnes, però els eixos estan girats. Els rectangles estan disposats de manera horitzontal.
- Gràfic de línies: Consisteix en una sèrie de punts situats on coincideixen els valors de cada eix. Aquests punts s'uneixen amb una línia.
- Gràfic de proporcions: S'utilitza per representar percentatges de la freqüència de les variables.
- Gràfic de dispersió: Mostra la dispersió entre les observacions realitzades. Han de ser variables quantitatives contínues.
Mesures de centralització
- Mitjana aritmètica: Sumatori de tots els valors de la variable dividit entre la mida de la mostra.
- Mediana: Valor central d'una sèrie de dades ordenades de forma creixent o decreixent.
- Moda: Valor de la variable que té més freqüència absoluta; el que més es repeteix.
- Quartil: Cada un dels tres punts que divideix la freqüència en quatre parts iguals.
Mesures de dispersió
- Desviació mitjana: Consisteix a trobar la diferència entre cada un dels valors de la variable i dividir entre la mida de la mostra.
- Variància: Consisteix a elevar al quadrat les desviacions per eliminar els signes negatius.
- Desviació típica: És l'arrel quadrada de la variància.
- Coeficient de variació: Consisteix a dividir la desviació típica entre la mitjana aritmètica. El resultat s'expressa en tant per cent.
- Corba de Lorenz: És una representació gràfica que mostra si una distribució de freqüències té molta concentració o no. Es fa una diagonal recta partint des del punt 0. Si la corba està més a prop de la diagonal, voldrà dir que hi ha menys concentració, i viceversa.
Associacions bivariables
- Variable independent: Aquella variable que no es veu modificada per l'altra.
- Variable dependent: Aquella que es veu afectada pel comportament de la variable independent.
- Forma: Es pot aconseguir traslladant els valors de les dues variables a un sistema de coordenades. Si els punts se situen sobre una recta o corba, és que hi ha relació entre les dues variables.
- Força: Ens indica si la relació entre dues variables és important o no.
- Coeficient de correlació: Determina la força d'una relació i el sentit. Serà positiva si el sentit és ascendent i serà negativa si el sentit és descendent.
- Coeficient de Spearman: Permet calibrar la correlació entre dues variables a partir dels valors ordinals. Els valors reals són substituïts per nombres ordinals per tal d'organitzar-los millor.
- Coeficient de Pearson: Permet calibrar la correlació entre dues variables partint dels seus valors reals.
Introducció a l'anàlisi multivariant
- Anàlisi factorial: És una tècnica que pretén una reducció de la dimensió de dades. Té com a objectiu cercar el mínim de dimensió de dades amb el màxim d'informació continguda a les dades. Aquest pot ser exploratori o confirmatori.
- Confirmatori:
- Matriu d'informació espacial (cada variable té uns valors que el permeten situar-se a un espai, com uns eixos de coordenades).
- Matriu de correlacions (estudia el grau de connexió entre dues variables).
- Matriu factorial, extracció de factors (indica la relació entre els factors i les variables).
- Rotació de factors (pretén fer girar els eixos de coordenades que representen els factors, per tal d'aconseguir que s'aproximin al màxim a les variables; intenta que millori la correlació entre variables i factors).
- Interpretació de factors (pretén conèixer el contingut de cada factor, estudiar la seva composició).
- Exploratori:
- Selecció de variables (no triar les variables de manera aleatòria; pot ser positiu factoritzar prèviament les variables).
- Mesures de similitud o de distància (defineix proximitat, i el seu tipus ve donat per l'escala de mesura de variables).
- Algorisme d'agrupació, mètodes jeràrquics (consisteix en processos d'agrupació o desagrupació).
- Confirmatori: