Concepto de distribución de frecuencia

Enviado por joxii y clasificado en Matemáticas

Escrito el en español con un tamaño de 17,84 KB

 

TEMA 1: ESTADÍSTICA DESCRIPTIVA


Estadística


Es la ciencia que estudia los métodos y procedimientos para recoger, clasificar, resumir y analizar datos y para realizar inferencia a partir de los mismo cuyo carácter esencial es la variabilidad.

CLASIFICACIÓN DE LA ESTADÍSTICA:


Estadística descriptiva:

se utiliza para recoger, clasificar, resumir y analizar datos, deduciendo co nclusiones sobre su estructura y composición.

Estadística inferencial o confirmatoria

Se usa para realizar estimaciones a partir de resultados obtenidosdel análisis de una muestra sobre el conjunto de elementos (población) de la que se ha extraído esa muestra.

Estadística exploratoria

Se trata de encontrar estructuras significativas de los datos para poder crearmodelos o hipótesis de trabajo.

TIPOS DE VARIABLES

Cuantitativas


Se usan números. Pueden ser discretas ( valores enteros) o continuas ( con decimales demodo que entre dos valores hay infinitos valores) y se mide con escalas numéricas.

Semicuantitativas

Se mide con escalas ordinales ( poco, mucho...)

Cualitativas

Se utilizan atributos en lugar de números, pueden ser dicotómicas (solo toman dos valores,ejemplo: alto o bajo) o no dicotómicas.
Se mide con escalas nominales y se pueden codificar connúmeros.

TIPOS DE ESCALAS

Nominal:


se usa como medida de identificación para variables cualitativas y solo permite la operación deigual o desigual.

Ordinal:

refleja el orden de observaciones y se establecen rangos, se usa para variables Semicuantitativasy se pueden hacer operaciones de igual, desigual, mayor y menos, también se llama categórica.

Numérica:

los números definen el valor de la variable, se usa para variables cuantitativas y ser puedenrealizar con esta escala todas las operaciones que se pueden hacer con números. Hay dos tipos: la deintervalo ( se pueden cambiar de escala y de origen de las medidas como es la temperatura) y de razón (se puede cambiar la escala de la unidad de medida pero no el origen de coordenadas que será un puntode origen natural de medida ( el cero) como es el caso del peso o la altura).

FRECUENCIAS

Frecuencia absoluta: (ni)


indica el número de veces que se presenta una modalidad de la variable.

Frecuencia relativa: (fi)

indica el numero de veces que se presenta la modalidad de una variable respectoal número total de veces.

Frecuencia acumulada: (niac) y (fiac)

se usa tanto en caso de relativas como de absolutas y se acumulanfrecuencias.

Frecuencia conjunta

Cuando usamos más de una variable, indica el número de veces que aparecen dosdeterminadas modalidades de dos variables.

Frecuencia condicionada

Indica el numero de veces que aparecen varias determinadas modalidades devariables respecto a una variable.

MEDIDAS DE FRECUENCIAS EN EL ÁMBITO SANITARIO


-Número:

en relación de frecuencia absoluta.

-Proporción

En relación a frecuencia relativa, es decir el numero de veces que aparece en relación al total, elnumerador está incluido en el denominador.

-Razón:

el numerador no se incluye en el denominador.

-Odds

Es una razón y se suele usar en factores de riesgo.-

Tasas

Proporción con carácterísticas especiales, hace referencia a un lugar y un tiempo determinado.

-Riesgo

Son razones o proporciones y el riesgo relativo es una razón.

Presentación DE LOS DATOS

Generalmente tenemos datos procedentes de una muestra y los vamos a ordenar para poder presentarmediante tablas, gráficos… así la síntesis de datos (medidas de tendencia central, medidas de dispersión, medidasde posición y medidas sin dimensión).

1.Tablas estadísticas para variables unidimensionales:

las tablas estadísticas deben presentar los datos deforma ordenada, resumida e inteligible, deben respetar una serie de normas básicas: rotualadas claramente,indicar los valores totales..Generalmente la tabla consta de tres partes : titulo, tabal y fuente.El título responde a que cuando donde y como.En el encabezamiento indica a que se refieren los datos que van inscritos en las restantes casillas de la partecentral.En la columna matriz se colocaran los valores de la variable en la escala de clasificación correspondiente.En el cuerpo van los datos numéricos indicados por las diferentes clasificaciones del encabezamiento y columnamatriz.La fuente indica la procedencia.La marca de clase es la media de los dos valores limites.

Pasos para construir intervalos: 1º

calcular el recorrido o amplitud de la distribución (diferencia entre el valormás grande y el más pequeño)

calcular el número de intervalo

determinar la amplitud de los intervalos 4 º
calcular el límite superior del intervalo máximo y el límite inferior del intervalo mínimoLuego construimos una tabla con 4 columnas, una con el intervalo, otracon la marca, otra con la frecuencia absoluta (contar uno a uno e indicar el número de veces que vemos valoresque se encuentran dentro de cada intervalo) y también podemos hacer la frecuencia absoluta acumulada(sumamos los anteriores).

2. Presentación en gráficos:

el objetivo es ayudar al análisis de una información. Existen normas básicas comoexplicación por si mismo… y tiene partes ( titulo, grafico y notas explicativas si es necesario).Existen distintos tipos de gráficos para distintas variables: COMPLETARVariables cualitativas y cuantitativas discretas:

Diagrama de barras, sectores, y pictogramas, cartogramas

Variables cuantitativas discretas y continuas:

Diagrama de caja, de tallo y hoja, diagrama logarítmico


DIAGRAMA DE BARRAS

Podemos tener barras simples, barras dobles o barras compuestas. En abscisa la variablecon sus distintas modalidades y en ordenadas la frecuencia. Por ejemplo con las barras simples nodiferenciaríamos el sexo, pero con las dobles sí, en el caso de la compuesta lo que hace es repartir la barra dehombres y mujeres y dentro diferencia las distintas modalidades. Para datos cualitativos y cuantitativos discretos.

SECTORAMA:

para datos cualitativos y cuantitativos discretos. En este caso hay que hacer el tanto por ciento pararepartir y hay que repartir los grados según los porcentajes.

PICTOGRAMAS

Para datos cualitativos y cuantitativos discretos, en este caso se usan dibujitos que representen eltamaño o también por ejemplo sobre mapas.

CARTOGRAMAS:

para datos cualitativos y cuantitativos discretos, sobre mapas por ejemplo con puntos quemuestren intensidad.

HISTOGRAMA Y POLIGÓNO DE FRECUENCIAS

Para datos cuantitativos continuos. Siempre un histograma en laordenada tiene que tener la frecuencia relativa nunca la absoluta, ya que el área debe sumar uno. Y uniendo lospuntos del histograma construimos un polígono de frecuencia también con frecuencias relativas. No hayhuequitos en blanco. Las dos rallitas en el eje de abscisas indican que hay un corte es para no dejar tanto huecoen blanco. Se intenta que los intervalos tengan la misma longitud. Para el polígono de frecuencias entoncesusamos la marca de clase de cada intervalo y la frecuencia relativa y unimos.

***Histograma y polígono de frecuencias acumulado

En este caso en abscisas hay también frecuencias relativaspero en el caso de las barritas ahora hay frecuencias relativas acumuladas y se puede hacer también un polígonode frecuencias de las frecuencias relativas acumuladas y se pueden hacer superposiciones de varios polígonos defrecuencias.

DIAGRAMA DE TALLO Y HOJAS

Es para cuantitativas discretas y continuas. En el tallo se colocan los caloresenteros y en las hojas los valores decimales, los distintos decimales se separan con comas, en el caso del cero hayque poner 0 y -0.

NOMOGRAMA

Interviene más de una variable y es para datos cuantitativos discretos y continuos. La idea es quedado dos valores de cada una de las variables se puede calcular el tercero. Es decir uniendo dos valores de dosvariables con una línea entonces se puede obtener el valor de la tercera. Se utiliza para los percentiles.

DIAGRAMA SEMILOGARÍTMICO

Cuando se quieren comparar dos series distintas, relacionadas y medidas encuantías muy diferentes. Uno tiene valores muy elevados y el otro muy bajos entonces lo que hacemos es usar undiagrama semilogaritmicos, por ejemplo cuando hablamos de casos y defunciones que el numero de caso s esmucho más grande que el de defunciones.

SERIE TEMPORAL

Vemos la evolución temporal

**********TEMA 2. SÍNTESIS DE DATOS



Las distintas medidas van a ser de tendencia central, de dispersión ( como se dispersan los datos respecto al centro); posición y sin dimensión.

2.1 TENDENCIA CENTRAL

2.1.1 media aritmética


Cuando hablamos de muestras la media viene representada como X y encima - ( media muestral) y cuandohablamos de poblaciones μ .Cuando hacemos polígono de frecuencia necesitamos hacer la media.Cálculo de la media : Es decir multiplicamos x1 por n1, luego x2 por n2 y dividimos para n.

Propiedades de la media aritmética:

1. La suma de las diferencias dará cero.2. La diferencia cuadrática respecto de la media es menor o igual a la diferencia con otro valor. : cada valor lo restode la media y lo elevo al cuadrado y sumo los distintos resultados, ese valor será igual o menor que la diferenciarespecto a la media.3. La media es un operador lineal4. Es muy sensible a la variación de los datos es decir cuando varía uno entonces se nota la diferencia en la media.

Usos de la media

1. Cuando los datos están distribuidos simétricamente alrededor de un valor central. (Cuando la distribución esnormal)2. Se desee una media relativamente estable, de gran uso y fácil interpretación.3. Posteriormente haya que calcular otros estadísticos cuya obtención se facilite conociendo la media.

2.1.2 Mediana

Es el valor de la variable que deja a la izquierda y a la derecha el mismo número de observaciones. Se debe utilizarcuando se quiera conocer el punto exacto que deja por encima o por debajo el 50% y cuando existan datosextremos que afecten a la media. También es de posiciónPropiedades:
1. La suma de las diferencias de las puntuaciones respecto a la mediana en valor absoluto es igual o menos querespecto a cualquier otro valor de la variable, igualmente en valor absoluto.Σxini /n =fixi2. La vertical levantada sobre ella divide el área total del histograma y polígono de frecuencias en dos áreas deidéntica superficie.3. Es menos sensible a valores extremos que la media.

2.1.3 La moda

Es el valor de la variable para la cual la frecuencia es máxima.Matemáticamente se corresponde con los máximos de una función. ( el valor que más veces se repite)

Propiedades:

1. Es fácil de calcular.2.En una serie de datos pueden aparecer dos o mas valores de frecuencia máxima y su distribución ser bimodalCálculo en datos no agrupados: el valor que más veces serepiteRelación ENTRE LA MEDIA , LA MEDIANA Y LA MODA:

1.Cuando la media la mediana y la moda coincidenentonces la distribución es simétrica y por tanto tendráforma de campana de Gauss.
2. Cuando la media es más pequeña que la mediana y lamediana menor que la moda entonces son asimétricasizquierdas y la elevación está desplazada hacia la derecha.Esto es porque los valores menores tiran de la media hacia debajo y por tanto será menor que la mediana.
3. Cuando la media es mayor que la mediana, y esta a la vez mayor que la moda entonces es asimética a la derechay la elevación está desplazada hacia la izquierda.

2.2 MEDIDAS DE POSICIÓN

Son valores de la variable que señalán una posición de la distribución de frecuencias que por algún motivo esinteresante.Se les denomina cuantiles si las subdivisiones obtenidas del conjunto de datos son análogas1.Cuartiles:
dividimos en 4 partes2.Percentiles en cien partes3.Mililes en mil partes4. Deciles en diez
Cálculo en datos no agrupados: Primer cuartil deja por debajo un 25%y por encima un 75%1. Ordenar datos de menor a mayor2. Cuando el total es impar entonces se elige el valor que ocupa la posición (n+1)/43. Cuando sea par, entonces es el valor que ocupa la semisuma entre n/4 y (n/4)+1El segundo cuartil es la mediana.

2.3 MEDIDAS DE DISPERSIÓN

Son: recorrido, recorrido intercuartilico y la diferencia cuartilica. También la varianza, la desviación típica o cuasi yel error estándar.1. El recorrido es la diferencia entre el valor mayor y el menor.2. El recorrido intercuartilico es la diferencia entre el tercer cuartil y el primero3. . La desviación media es el sumatorio de las diferencias entre cada valor y la media, dividido este sumatorio para n.4.La desviación cuartilica es el recorrido intercuartilico /2.

Diagramas de cajas

Recoge la información del primer cuartil, el segundo y el tercero. Se representa con una cajaque indica el recorrido intercuartilico. También la caja tiene bigotes que informa hasta donde llega el máximo valorque no llega a ser atípico, hace lo mismo con el mínimo que no llega a ser atípico. También ubica con círculos losvalores atípicos extremos y con estrellas los atípicos muy extremos. Refleja como atípico extremo todo valor quesupere al valor Q3 el recorrido intercuartilico en 1.5 veces se considera así, si se supera 3 veces entonces sereconoce como muy atípico extremo. Lo mismo sucede en el caso de los mínimos pero ahora nos fijamos en Q1.

Varianza y desviación típica

La varianza se puede calcular con datos poblacionales o con datos muéstrales, en elcaso de poblacionales la llamamos sigma cuadrado y la muestral como s2.En el caso de la muestral la llamamos cuasivarianza muestral y este es el mejor estimador de la varianza muestral.Hay que hacer una variancion en la varianza muestral para que se llame cuasivarianza.La varianza es una media de desviaciones cuadráticas respecto de la media.Para calcular la desviación típica hacemos la raíz de la varianza y para la cuasidesviacion típica se hace para la lacuasivarianza.

Carácterísticas

1. Toman siempre valores positivos y solo se aplican a variables cuantitativas ( quitar siempre el valor negativo quesale de la raíz):2. Si todos los valores de la variable son iguales, ambas salen cero.3. Son muy sensibles a la variación de los valores de las variables.4. No se recomienda usar cuando no lo sea el uso de la mediaEn el caso de la población usamos lavarianza y en las muestrascuasivarianzas, la primera fila dalugar a las formulas de la segundafila que son con las que operaremos5. La interpretación física no es tan sencilla como lamedia; en el caso de la varianza al ser medidas cuadráticascorresponde con el momento de inerciaRelación ENTRE LA MEDIA Y LA Desviación Típica

En una distribución normal: si le sumamos el valor de lmedia mas el valor de la desviación típica y restamos a lamedia la desviación típica vamos a contener entre esosvalores el 68.26 % del área . SI ahora sumamos dos vecesla desviación típica y restamos dos veces la desviacióntípica a la media entonces encerramos el 95.45 % del área y si hacemos lo mismo pero ahora la media menos ladesviación típica tres veces o sumándola tres veces entonces encerramos el 99.73 % del área.

2.4 SIN DIMENSIÓN

El coeficiente de variación


Se utiliza cuando queremos comparar la variación de dos poblacionesindependientemente de la magnitud de sus medidas y para comparar la variabilidad de diferentes variables. Ytambién cuando la unidad de medida es muy distinta.

Propiedades:

Solo debe usarse con variables con todos los valores positivos.No es invariante ante cambios de origen ya que si a los valores de la variables le sumamos una cantidad positivaentonces el CV de esta nueva variable será menor que el CV de la variabl0e.Es invariable ante los cambios de escala.

Interpretación:

CV < 30%="" distribución="" homogénea="" y="" cv="">50% distribución no homogénea.

Coeficiente de asimetría de Fisher

Se usa en poblaciones, es similar a la varianza peroelevada al cubo.Cuando es igual a acero: simétricaCuando es mayor que cero: asimetría derechaCuando es menor que cero: asimetría izquierdaCoeficiente de curtosis de Fisher

Nos muestra como de alta o baja es esa distribución.La distribución normal es simétrica, mesocúrtica.Si es mayor que cero entonces es leptocúrtica es decir más altaY si es menor que cero entonces platicúrtica es decir más aplastada.Podría ser una platicúrtica asimétrica derecha… es decir hay múltiples combinaciones.La hipótesis de asimetría y1=0 y de curtosis y2=0 por tanto denormalidad, se rechazan cuando los estimadores y1 y y2 sealejan de cero más de dos veces el error estándar de estoscoeficientes.

Entradas relacionadas: