lunes, 8 de junio de 2020

TEMA 12: CONCORDANCIA Y CORRELACIÓN

1. Relación entre variable y regresión


El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de
la regresión universal”  Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media,
en un grado menor. 

Regresión a la media: Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una
variable) a partir de los de sus padres (otra variable).  
Pearson (su amigo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación
del tipo: Altura del hijo =85cm + 0,5 altura del padre (aprox).
  
Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque
tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos. Hoy en
día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.


2. Relación entre dos variables cuantitativas


Una variable cuantitativa toma valores que son cuantificables, por ejemplo  la talla de una persona, el peso,
presión arterial, el sueldo que gana, los  gastos que tiene, etc.














Ejemplo…


En el siguiente ejemplo, tenemos una tabla de datos, con una variable “X” y otra  variable “Y”. Posteriormente
se dibujara sobre unos ejes cartesianos, en el eje  de abscisa (horizontal) tendremos la variable “X” y en el eje
de ordenadas (vertical) tendremos la variable “Y”, obteniendo una nube de puntos con el siguiente aspecto.




Cada individuo vendrá representado por un punto (Xi, Yi) en el  gráfico.




Podemos observar que existe una clara tendencia que en medida que aumenta los valores de la “X”, disminuye
los valores de la “Y”.




     


Dependencia Funcional: puntos  exactamente sobre la línea recta o curva.  Pero en estadística no se suele
dar este  tipo de casos.

Dependencia Estocástica: no están todos  los puntos exactamente sobre el modelo,  sino que existe una
tendencia.




3. Regresión lineal simple: Correlación y determinación


Se trata de estudiar la asociación lineal entre dos  variables cuantitativas.

Ejemplo: influencia de la edad en las cifras de Tensión  arterial Sistólica.

- Regresión lineal simple: una sola variable  independiente.
- Regresión lineal múltiple: más de una variable  independiente.

Análisis de relación entre dos variables cuantitativas: Modelos de regresión.




Regresión lineal simple: correlación y  determinación


Ecuación de la recta: y = a + bx (ej: TAS=a +b· edad)
- Pendiente de la recta 7 → b
- Punto de intersección con el eje de coordenadas →  7 a
“b” expresa la cantidad de cambio que se produce en la variable dependiente por unidad de cambio de la
variable independiente.
“a” expresa cuál es el valor de la variable dependiente (eje y) cuando la independiente vale cero (eje x).
Si x=0 7 → y= a 




-Modelos lineales deterministas: la variable independiente  determine el valor de la variable dependiente.
Entonces para cada  valor de la variable independiente sólo habría un valor de la  dependiente.


-Modelos lineales probabilísticos: Para cada valor de la variable  independiente existe una distribución de
probabilidad de valores  de la dependiente, con una probabilidad entre 0 y 1.


- La recta a determinar es aquélla con la menor distancia de cada punto a ella.




Coeficiente de Correlación de Pearson


Por lo que ya podemos decir que si la “r” es menor que 0, tenemos  una relación lineal inversa. Si la “r” es
mayor de 0, la relación es  lineal directa, y si “r” es igual a 0, podemos tener una variables  independientes o
por otro lado una relación que no sea lineal.


















Análisis de relación entre dos variables cuantitativas: Modelo de regresión.


- La recta tiene una ecuación que sería: y=a+bx; a esta ecuación la  vamos a llamar Modelo de regresión. Y los
términos que aparecen  en ella, tenemos “X” e “Y”, que son las variables.

- El término “b” es el coeficiente que va a acompañar a la “X”, el cual vamos a llamar coeficiente de
regresión.

-Indica cuánto cabe esperar que cambie la respuesta por cada  incremento unitario de la “X”. Es
decir indica la pendiente o inclinación  de la recta.

También aparece un término independiente que sería “a”, (punto  de intersección con el eje de coordenadas) el
cual indica lo que  vale la variable respuesta cuando la “X” es cero. Cuando la “X” es cero, el producto seria
cero, y la “y” seria igual a “a” (y=a).




Regresión lineal simple: correlación y  determinación


Ejemplo: TAS = a + b · EDAD


- Si a= 89 y b = 0,9 la recta será:

- TAS = 89 + 0,9 · EDAD


- Para EDAD = 20 7 → TAS = 107 (TAS = 89 + 0,9 · 20 = 107).

- ¿Siempre que EDAD = 20 → 7 TAS = 107?


NO: en el grupo de individuos de 20 años de edad, la media de  TAS será de 107. El valor exacto de la TAS en
un individuo de 20 años concreto será 122+/-e1.


- Interpretación del modelo: por cada año (edad, variable indep.) la TAS varía en 0,9 mmHg (variable dep.)



Calculamos los valores de “a” y “b” que proporcionan la recta que mejor se ajusta.


- Se parte de un criterio, y el más utilizado es el criterio de los mínimos  cuadrados. Que consiste en obtener un
punto sobre la gráfica que se  denomina (Yi), que es el punto observado, y posteriormente en coger un  punto
sobre la recta que hemos dibujado, denominado (Yi*), este punto es  el que estima el modelo.


- A continuación se calcula la diferencia entre ambos y nos interesa que la  diferencia sea lo más pequeña
posible, por eso se llama el criterio de los  mínimos, y también se denomina cuadrado porque se calcula con
un  término al cuadrado.


- Se trata de la recta que hace mínimo el cuadrado de la suma de las distancias verticales desde ella hasta
cada uno de los puntos de la nube.




Criterio de los mínimos cuadrados. ¿Cómo se calcula a y b?




Coeficiente de correlación (Pearson y Spearman):  Número adimensional (entre -1 y 1) que mide la fuerza y 
el sentido de la relación lineal entre dos variables.




Coeficiente de determinación: número adimensional  (entre 0 y 1) que dá idea de la relación entre las
variables  relacionadas linealmente. Es r2.


Coeficiente de Correlación de Pearson.


Ejemplo en el que se pone de manifiesto cómo va cambiando el valor del coeficiente de  correlación “r”, a
medida que la nube va siendo más dispersa. Sucede que cuando los  puntos están muy concentrados en torno
al modelo, es decir, en torno a la recta, cuando  hay una clara tendencia la “r” es grande, y cuando no hay
tendencia la “r” es pequeña.


 






Coeficiente de correlación, en este caso hipotético es (– 0.940), el cual es muy próximo a  1, el coeficiente de
correlación está acotado entre (-1 y +1) y su valor absoluto  independientemente del signo es entre 0 y 1. De
manera que cuanto más próximo a 1  más relación y cuanto más próximo a 0 menor relación.


De manera que si tenemos un signo negativo (-0,940) quiere decir que hay una relación inversa, que
además es fuerte porque el valor es grande.




¿Cómo evaluamos la bondad de ajuste de modelo?


- Se evalúa a través de un coeficiente, que se denomina como Coeficiente de  Determinación y se denota
normalmente como R2. Ese valor está acotado  entre 0 y 1. Cuanto más se aproxime a 1, mayor poder
explicativo, mayor  bondad de ajuste, es decir más cantidad de puntos de la nube están cerca  realmente ese
modelo.


- En la práctica solemos presentarlo multiplicado por 100, y presentarlo como  porcentaje de variaciones
explicadas por el modelo o porcentajes de puntos  bien representados, porque así es más fácil su manejo.


- También existe una relación que facilita los cálculos, y es que se ha  demostrado que el Coeficiente de
Determinación se puede calcular sin más  que elevar al cuadrado el Coeficiente de Correlación de Pearson.


Por último…


Se realiza el cálculo del test de hipótesis t para  modelos de regresión lineal simple (t de Kendall)-





No hay comentarios:

Publicar un comentario