Cambios de escala y de origen en la covarianza

Enviado por joxii y clasificado en Matemáticas

Escrito el en español con un tamaño de 13,11 KB

Las tablas para las variables bidimensionales depende de si los datos son agrupados o no.
Y también depende dela cantidad de información que tengamos es decir cantidad de individuos y tamaño de la muestra.

Tabla tipo 1:

Puede ser que una de las variables se repita pero la otra no , es decir que tengamos un individuocon dos valores… Es decir que en conjunto sean parejas distintas. Entonces cada pareja de valores permanezcana un individuo, es decir no los puedo agrupar.

Tabla tipo 2:

con los valores, el número de individuos que presenta el mismo valor. Ahora los ni ya cuentan en laexpresión de la formula.

Tabla tipo 3

Tabla de doble entrada, en este caso vamos a tener gran cantidad de repeticiones, también lousaremos en chi cuadrado y se llama tabla de contingencia.
Ahora tenemos que poner la información de lasvariables x y de las variables y, la x en una columna y la Y en la cabecera de la tabla. En el cuerpo de la tabla esdonde tenemos la frecuencia pero en este caso la llamamos nij, frecuencia conjunta, es el número de individuosque presenta el valor ni y el valor nj simultáneamente.Si sumamos las filas entonces el resultado es nr. Que sería el total de la suma. Se llama frecuencia marginal.
En elcaso de la variable y entonces al sumar la columna tendremos n.S y así tendremos todos los individuos quepresentan una determinada carácterística pero que varía la otra carácterística. Y sumar n.S y nr. Obtenemos N que es el total DISTRIBUCIONES MARGINALES
:
Son las formadas por la primera y ultima columna por un lado y la primera y laultima fila por otro. Corresponden a las frecuencias absolutas de dos distribuciones independientes, una para lavarible y y otra para la variable X. Para cada una de estas distribuciones marginales

FRECUENCIAS CONDICIONADAS


Es decir la frecuencia de x condicionada a y o viceversa.Se denomina distribución de x condicionada a y a la frecuencia de las observaciones de un valor determinadox=xi dentro de las que se haya verificado un valor determinado de y = yjGráficos PARA BIDIMENSIONALES
:
Son los diagramas de dispersión o NUBE DE PUNTOS
Relacionamos en este caso el numero de cigarrillos consumidos por lamadre y el peso del bebe, es decir relacionamos las dos variables y marcamos con un punto.Si la serie de puntos tienen una tendencia ascendente tienen una dependencia directa entre las dos variables. Síes descendente entonces es inversa. Y si no se puede observar una tendencia clara estaríamos antes unadependencia muy débil que no se puede observar mediante nube de puntos.

COVARIANZA:

para dos variables usamos una medida de dispersión que es la covarianza, en población llamasigma xy y en muestras sxy. Ahora como hay dos variables hay valores de ambas y por tanto va a haber dosmedias el de la x y el de la y , que es un producto de desviaciones y luego dividimos por n o tamaño de lamuestra o población. También hay cuasicovarianza muetral y poblacional.Esta forma abreviada es para datos no agrupadosy tabla tipo 1, es decir quitamos nij ya que en la tabla de tipo I no existe este valor .La cuasicovarianza puede ser positiva o negativa la covarianza solo positiva.

Interpretación de la covarianza:

Sxy>0 ambas variables covarían en el mismo sentido, cuando los valores de una aumentan los de la otra también y alrrevesSxy<0 covarían="" en="" sentido="" inverso="">0>

***************TEMA 4. REGRESIÓN Y CORRELACIÓN****************

En las variables cualitativas solo podemos hablar de frecuencias y moda pero ninguna medida más ya que estasson para cuantitativas. La regresión y la correlación son para variables cuantitativas.

Regresión

Define la línea que mejor se ajuste a la nube de puntos (xiyj) para conseguir la mejor predicción, enmedia de una variable a partir de otra variable ya conocida. En este curso nos referiremos a linealidad.La idea fundamental es hacer predicciones con la rectaCORRELACIÓN:
Mide la fuerza de asociación entre variables cuantitativas bidimensionales.

4.1 REGRESIÓN

Cuando dibujamos una recta tenemos que cumplir y=a + bx.
MODELO Matemático DE LA REGRESIÓN LINEAL (en este caso es y dependiente de x) ( no es lo mismo que xdependiente de y), así :
X es la variable aleatoria independiente, predictora, exposión y causaY es la variable aleatoria dependiente, respuesta o efectoA es la ordenada en el origenB es la pendiente de la rectaE ( con letra) es el error observablePara cada valor de X hay uno de Y, pero cuandoajustamos la recta entonces vamos a tener un error entre lo que vemos y lo que pronosticamos con la ecuaciónde la recta. Así el error se calcula como la diferencia de lo que observo y lo que espero (cuadradito verde), en este caso es Yporque Y es la variable dependiente si fuera al revés seria X.Los residuales es la diferencia entre los valores observados y los pronosticados. Estos nos informan sobre elgrado de exactitud de los pronósticos, cuanto más pequeño es su desviación típica entonces mejor ajusta larecta a los puntos de la nube de puntos.

Analizar las carácterísticas de los casos con residuales
grandes nos va a ayudar a detectar casos atípicos yconsecuentemente a perfeccionar el modelo.La suma de los errores siempre es cero, ya que secompensan los datos positivos y los negativos.

La suma de errores al cuadrado es igual al cuadrado de ladiferencia de observados y esperados

Se trata de hacerlo mínimo este error para ello usaremos distintos métodos:1. Mínimos cuadrado2. Método de los momentos3. Método de máxima verosimilitudNos centraremos en los dos primeros.El Yj con gorrito es el Y esperado mientras que singorrito es el observado.**La homocedasticidad es la igualdad de varianzasMÉTODO DE LOS MÍNIMOS CUADRADOS

Si la recta se obtiene como y=a+bx entonces hay que obtener a y b. Así a través de la derivación obtenemos dosecuaciones con las cuales despejaremos a y b:

MÉTODO DE LOS MOMENTOS

En este caso en lugar de orden r que tratábamos en el primer tema, sin embargo ahora tenemos dos variables yentonces hay dos, es decir uno respecto a la X y otro respecto a la Y. Podemos hacer momentos respecto de alorigen (01) o referirnos a la media y entonces colocamos la media.Así tras diversos cálculos volvemos a obtener las mismas ecuaciones para poder obtener a y b.

VERIFICACIÓN DE LAS CONDICIONES DEL MODELO

Para hallar una ecuación de la recta hay que verificar elmodelo: así la linealidad (con la nube de puntos); la normalidad ( con chi cuadrado, K-S, test S’agostino,residuales, también con la media, la moda, la mediana…), la homocedasticidad ( con residuales) y laindependencia ( con el diseño del estudio), esto es necesario ya que es una media paramétrica-linealidad-Normalidad ( los puntos se deben acercar a una recta, si están cerca respecto a la recta está alineado) (tambiéncon el K-S si el valor que sale en la significativa es mayor de 0.05 entonces no se rechaza la hipótesis nula, si es menor de 0.05 entonces rechazamos la hipótesis nula).Para llegar a unas formular hay que derivar yrealizar diversos cálculos… y Así llegamos a lasdos ecuaciones en el caso de b es lacuasicovarianza partido por la cuasivarianza de x.Y para A hay que hacer las medias de X y las de Y

-Homocedasticidad

Si x dependiera de y entonces habría que colocar en el denominador la cuasivarianza de la y :

4.2COEFICIENTE DE DETERMINACIÓN

Definición de la varianza residual


La recta de regresión tiene carácter de media, por lo tanto deberá iracompañada de una medida de dispersión que evalúe los errores o residuales o que nos informe de lo bien quese ajusta los puntos a la recta, si esta se aproxima entonces es que es que es fiel a los puntos y se ajusta bien larecta a estos y si se aleja la varianza residual entonces no se ajusta a la nube de puntos .Para deducir el coeficiente de determinación en primer lugar nos encontramos con la varianza residual ( s2y.)( es el error dividido para n) y esa suma de errores se convierte en una varianza residual, ahora desarrollamos laexpresión, así lo primero trasladamos el origen de coordenadas al centro de gravedad de la nube de puntos.Hacemos cero X media e Y media de modo que se reduce mucho la formula ya que no hay distancia. Al final nosobtenemos el coeficiente de determinación (r2) que es igual a la covarianza al cuadrado partido de la varianzade x y la varianza de y.Y la formula de la varianza residual es:La varianza residual puede tomar valores iguales a cero o superiores a cero. Así cuando la varianza residual escero hay dos opciones: s2y = 0 entonces todo valor de x recibe el mismo valor de y. Otra opción es que (1-r2)=0entonces todos los puntos están en la recta y por tanto no hay ningún error entonces el tope superior de r2 es 1y el inferior es 0.Cuando la varianza residual es mayor que cero entonces (1-r2) mayor que 0 por tanto r2 es menor que 1 y mayorque 0 entonces si r2 vale 0 entonces todos los puntos no están en la recta (+ disperso) Y entre 1 y 0 hay un granabanico de posibilidades, más próximo a 1 mas alineado más aproximado a 0 más disperso.El coeficiente de determinación:
Mide si la recta de regresión lineal se ajusta bien a la nube de puntos. Sedenota como r2 (aunque en el ordenador sale como R), varía entre 0-1. Expresa la proporción de variabilidad deY que se explica por su relación con la variable X. R2 x100 expresa el porcentaje de variabilidad de Y que seexplica por su relación con la variable X.

4.3 COEFICIENTE DE CORRELACIÓN LINEAL

Es la raíz cuadrada del coeficiente de determinación. Mide los valores entre -1 y +1 y por tanto la asociaciónlineal. Por tanto la r llevará el signo que lleve la covarianza al igual que la pendiente.El peso es la variable dependiente y la talla laindependiente, pero en el ejemplo está al revés, estomuestra que la R2 no va a cambiar sea cual seadependiente o independiente pero sin embargo larecta si que cambiará.

Advertencias sobre r

1. Solo mide el grado de efectividad de relaciones lineales.2. Si r es igual a 0.8 entonces el 64% de la variación de y se explica por su relación con x a través de la recta.3. Los coeficientes calculados se refieren al intervalo de datos considerado ( es decir si mido pesos hasta 70 kgno debo coger los de 80kg quedan fuera)4. Lo mismo ocurre para predicciones futuras ( si cambia el tiempo puedo usar ese modelo si no cambian lascaracterísticas).5. La falta de relación medida a través de r no implica ausencia de relación entre las variables ( solo sabemosque no hay relación lineal pero no sabemos de otro tipo)6. Causalidad implica correlación pero no a la inversa. ( podemos tener relaciones entre dos cosas muyrocambolescas pero que únicamente sea casual)(ej: el numero de cigüeñas en la torre de Londres y el numerode nacimientos)

Diferencias entre la b ( pendiente de la ecuación de la recta ) y r:

ambos tienen el mismo numerador perodistinto denominador ya que la covarianza es la misma, r es simétrica y b ( pendiente de la recta) no.

4.4 COEFICIENTE DE Rho DE SPEARMAN

Este es el coeficiente que puedo utilizar cuando los datos no cumplen el coeficiente de correlación lineal,también se usa para variables cuantitativas o para el caso de una escala ordinal.Es por tanto un coeficiente no parametrico. El cálculo se basa en rangos, estima el grado de asociación sea cualsea la función que relaciona a las variables y se interpreta como la r de Pearson.
En la expresión esta el tamaño de la muestra y un tamaño de diferencia entre lostamaños y si hay empates se aplica una corrección de empates. Con “n” nos referimos al número de casosparejas.

Correcciones por continuidad

U’: es el numero de empates respecto a la primera carácterística ( en este caso las horas)V’: es el numero de empaters respecto a la segunda carácterística ( en este caso la nota)En U’ y V’ entonces lo que hacemos es ver los valores quese repetían y lo elevamos al numero de veces que se repite y luego le restamos ese numero ( ejemplo como 4se repite dos veces entonces lo elevamos al cuadradado y restamos un 4).Luego volvemos a aplicar rho de spearman pero en este caso usando los valores de corrección ( mirar imagensuperior).

Entradas relacionadas:

Etiquetas:
diferencias entre cambios de escala y origen corelacion lineal cambios de escala y de origen cmabos de origen y de escala como le afecta a la covarianza los cambios de origen y escala formulas cambios de escala informatica industrial coeficiente de correlación cambios de origen y escala DESVIACIÓN TIPICA Y CAMBIOS DE ESCALA Y ORIGEN covarianza origen el coeficiente de variacion se veria afectado ante un cambio de origen y de escala simultaneamente? varianza cambios de escala y de origen cambio de escala y varianza qué es un cambio de escala y que es un cambio de origen la varianza de una distribucion no se ve afectada por los cambios de formula cambio de escala el cambio de origen afecta a la varianza estudio de marginales con cambio de origen y escala coeficiente de correlación lineral cambios de origen ejemplos cambios de origen y escala varianza la covarianza se ve afectada por cambios de origen Covarianza cambios de escala ¿se vería afectado el coeficiente de variacion ante un cambio de origen y de escala simultáneamente? que es un cambio de origen y un cambio de escala el coeficiente de determinacion se ve afectado por cambios de escala la covarianza cambia cuando se efectua un cambio de escala en alguna de las dos distribuciones cambios origen y escala covarianza como afecta un cambio de origen y de escala a la mediana como le afecta un cambio de escala a la covarianza afectan los cambio de escala u origen a la covarianza coeficiente de correlación ajustado al origen coeficiente correlacion afectan cambios escala