Variables i mesures estadístiques en R: definicions i exemples

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en catalán con un tamaño de 6,12 KB

Tipus de variables

Variable numèrica de raó: es refereix a un tipus de variable numèrica que un punt de referència o un valor zero absolut, i en la qual les operacions matemàtiques com la suma, la resta, la multiplicació o la divisió tenen sentit si són significatives. Són variables quantitatives (pes, alçada, ingressos, velocitat).

Variable categòrica o nominal

Variable categòrica o nominal: aquestes variables qualitatives poden ser categòriques nominals o ordinals. Les variables categòriques nominals representen categories sense un ordre específic, com ara el color dels ulls o el país de naixement. Les variables categòriques ordinals, en canvi, tenen un ordre inherent però la distància entre les categories no és uniforme, com ara la classificació socioeconòmica (alta, mitjana, baixa).

Mesures de tendència central

Mitjana

Mitjana: és la suma de tots els valors en un conjunt de dades dividida pel nombre total de valors. Es calcula sumant tots els valors i després dividint aquesta suma pel nombre total de valors. És sensible als valors extrems, ja que cada valor contribueix igualment a la suma total.

Moda

Moda: és el valor que apareix amb més freqüència en un conjunt de dades. En altres paraules, és el valor que es repeteix més sovint. Un conjunt de dades pot tenir una moda, dues modes... o, en canvi, no tenir moda si tots els valors són únics.

Mediana

Mediana: és el valor que divideix el conjunt de dades ordenat en dues parts iguals. Per calcular la mediana, primer s'ordenen les dades de menor a major (o de major a menor) i després s'identifica el valor del mig. Si el nombre d'observacions és senar, la mediana és simplement el valor del mig; en canvi, si el nombre d'observacions és parell, la mediana és la mitjana dels dos valors del mig.

Fal·làcia ecològica

Fal·làcia ecològica: és un error d'inferència que es pot produir quan la unitat d'anàlisi no coincideix amb la unitat d'observació. Per exemple, si en un gràfic la unitat d'observació és l'estat i diem "els governs regionals d'Azerbaidjan tenen l'estat de dret més alt que a Argentina", estaríem fent un enunciat sobre dades que no tenim: parlem dels governs regionals quan només tenim dades a nivell estatal.

Exemples i consultes en R

Què retorna la següent operació?

Operació:

c(4, 10, 1, 12, 22) > 11

Resultat: FALSE, FALSE, FALSE, TRUE, TRUE

Comparació de cadenes

Què retorna la següent operació?

"SPAIN" == "Spain"

Resultat: FALSE

Tipus de variable

Quin tipus de variable és la variable tenure_months?

És una variable numèrica de ratio o raó.

Filtrar lideratges femenins

Volem estudiar els lideratges femenins. Quin codi faries servir per filtrar les dades per tal de conservar les observacions que compleixin aquesta característica?

Exemple amb l'operador pipe de R:

reign |>
  filter(male == 0)

Comentari: si la variable male val 0 per a líders femenins, cal utilitzar filter(male == 0). Si la codificació fos diferent (p. ex. 1 = dona), cal ajustar la condició. També es podria usar filter(male != 1) depenent de la codificació; cal verificar l'esquemàtic de la variable.

Consultar categories de govern

En el marc de dades observem que una de les categories del tipus de govern és "Presidential Democracy", però ens agradaria saber quines altres categories hi ha registrades a les dades. Escriu un codi que t'ho permeti saber:

unique(reign$government)

Canvi de la unitat d'observació

Si apliquem aquest codi, quina seria la nova unitat d'observació?

reign |>
  group_by(leader) |>
  filter(tenure_months == max(tenure_months))

Resposta: leader → normalment group_by canvia la unitat d'observació a la que s'agrupa; en aquest cas, la unitat passa a ser el leader.

Indicadors per a "capacitats materials"

Proposa dos indicadors que et serveixin per operacionalitzar el concepte "capacitats materials" d'un estat:

  • Població urbana → Població total
  • Personal militar → Despesa militar

Validesa vs. fiabilitat

Si tenim dades de casos de COVID de diferents comunitats autònomes i sabem que cada hospital utilitza un mètode propi per calcular els casos. Això seria un problema de validesa o de fiabilitat?

És un problema de fiabilitat, que es produeix quan les dades es recullen amb instruments de mesura diferents. Si cada hospital utilitza un mètode diferent, no podem estar segurs que els casos recomp­tats per una unitat d'observació siguin comparables amb els d'una altra.

Normalització Min–Max (empírica)

Escriu com quedaria la normalització d'aquests 5 valors mitjançant MinMax empíric en què el màxim sigui 1 i el mínim 0:

Valors originals: 100, 200, 150, 160, 120

Normalització (min = 100, max = 200):

  • 100 → 0.0
  • 200 → 1.0
  • 150 → 0.5
  • 160 → 0.6
  • 120 → 0.2

Creació i indexació de vectors en R

Utilitzant el llenguatge d'R crea un vector de caràcters de nom HFR que contingui els valors 6, 7 i 8:

HFR <- c("6", "7", "8")

Tenint en compte que s'ha creat correctament l'objecte HFR de l'exercici anterior, què retornaria la següent operació?

HFR[2]

Resultat: "7" (com a caràcter). Si s'haguessin creat com a numèrics: HFR <- c(6, 7, 8), el resultat seria 7 numèric.

Entradas relacionadas: