Variables i mesures estadístiques en R: definicions i exemples
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
catalán con un tamaño de 6,12 KB
Tipus de variables
Variable numèrica de raó: es refereix a un tipus de variable numèrica que té un punt de referència o un valor zero absolut, i en la qual les operacions matemàtiques com la suma, la resta, la multiplicació o la divisió tenen sentit si són significatives. Són variables quantitatives (pes, alçada, ingressos, velocitat).
Variable categòrica o nominal
Variable categòrica o nominal: aquestes variables qualitatives poden ser categòriques nominals o ordinals. Les variables categòriques nominals representen categories sense un ordre específic, com ara el color dels ulls o el país de naixement. Les variables categòriques ordinals, en canvi, tenen un ordre inherent però la distància entre les categories no és uniforme, com ara la classificació socioeconòmica (alta, mitjana, baixa).
Mesures de tendència central
Mitjana
Mitjana: és la suma de tots els valors en un conjunt de dades dividida pel nombre total de valors. Es calcula sumant tots els valors i després dividint aquesta suma pel nombre total de valors. És sensible als valors extrems, ja que cada valor contribueix igualment a la suma total.
Moda
Moda: és el valor que apareix amb més freqüència en un conjunt de dades. En altres paraules, és el valor que es repeteix més sovint. Un conjunt de dades pot tenir una moda, dues modes... o, en canvi, no tenir moda si tots els valors són únics.
Mediana
Mediana: és el valor que divideix el conjunt de dades ordenat en dues parts iguals. Per calcular la mediana, primer s'ordenen les dades de menor a major (o de major a menor) i després s'identifica el valor del mig. Si el nombre d'observacions és senar, la mediana és simplement el valor del mig; en canvi, si el nombre d'observacions és parell, la mediana és la mitjana dels dos valors del mig.
Fal·làcia ecològica
Fal·làcia ecològica: és un error d'inferència que es pot produir quan la unitat d'anàlisi no coincideix amb la unitat d'observació. Per exemple, si en un gràfic la unitat d'observació és l'estat i diem "els governs regionals d'Azerbaidjan tenen l'estat de dret més alt que a Argentina", estaríem fent un enunciat sobre dades que no tenim: parlem dels governs regionals quan només tenim dades a nivell estatal.
Exemples i consultes en R
Què retorna la següent operació?
Operació:
c(4, 10, 1, 12, 22) > 11Resultat: FALSE, FALSE, FALSE, TRUE, TRUE
Comparació de cadenes
Què retorna la següent operació?
"SPAIN" == "Spain"Resultat: FALSE
Tipus de variable
Quin tipus de variable és la variable tenure_months?
És una variable numèrica de ratio o raó.
Filtrar lideratges femenins
Volem estudiar els lideratges femenins. Quin codi faries servir per filtrar les dades per tal de conservar les observacions que compleixin aquesta característica?
Exemple amb l'operador pipe de R:
reign |>
filter(male == 0)Comentari: si la variable male val 0 per a líders femenins, cal utilitzar filter(male == 0). Si la codificació fos diferent (p. ex. 1 = dona), cal ajustar la condició. També es podria usar filter(male != 1) depenent de la codificació; cal verificar l'esquemàtic de la variable.
Consultar categories de govern
En el marc de dades observem que una de les categories del tipus de govern és "Presidential Democracy", però ens agradaria saber quines altres categories hi ha registrades a les dades. Escriu un codi que t'ho permeti saber:
unique(reign$government)Canvi de la unitat d'observació
Si apliquem aquest codi, quina seria la nova unitat d'observació?
reign |>
group_by(leader) |>
filter(tenure_months == max(tenure_months))Resposta: leader → normalment group_by canvia la unitat d'observació a la que s'agrupa; en aquest cas, la unitat passa a ser el leader.
Indicadors per a "capacitats materials"
Proposa dos indicadors que et serveixin per operacionalitzar el concepte "capacitats materials" d'un estat:
- Població urbana → Població total
- Personal militar → Despesa militar
Validesa vs. fiabilitat
Si tenim dades de casos de COVID de diferents comunitats autònomes i sabem que cada hospital utilitza un mètode propi per calcular els casos. Això seria un problema de validesa o de fiabilitat?
És un problema de fiabilitat, que es produeix quan les dades es recullen amb instruments de mesura diferents. Si cada hospital utilitza un mètode diferent, no podem estar segurs que els casos recomptats per una unitat d'observació siguin comparables amb els d'una altra.
Normalització Min–Max (empírica)
Escriu com quedaria la normalització d'aquests 5 valors mitjançant MinMax empíric en què el màxim sigui 1 i el mínim 0:
Valors originals: 100, 200, 150, 160, 120
Normalització (min = 100, max = 200):
- 100 → 0.0
- 200 → 1.0
- 150 → 0.5
- 160 → 0.6
- 120 → 0.2
Creació i indexació de vectors en R
Utilitzant el llenguatge d'R crea un vector de caràcters de nom HFR que contingui els valors 6, 7 i 8:
HFR <- c("6", "7", "8")Tenint en compte que s'ha creat correctament l'objecte HFR de l'exercici anterior, què retornaria la següent operació?
HFR[2]Resultat: "7" (com a caràcter). Si s'haguessin creat com a numèrics: HFR <- c(6, 7, 8), el resultat seria 7 numèric.