1. Relación entre variable y regresión
El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de
la regresión universal” Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media,
en un grado menor.
Regresión a la media: Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (unala regresión universal” Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media,
en un grado menor.
variable) a partir de los de sus padres (otra variable).
Pearson (su amigo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación
del tipo: Altura del hijo =85cm + 0,5 altura del padre (aprox).
Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque del tipo: Altura del hijo =85cm + 0,5 altura del padre (aprox).
tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos. Hoy en
día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.
2. Relación entre dos variables cuantitativas
Una variable cuantitativa toma valores que son cuantificables, por ejemplo la talla de una persona, el peso,
presión arterial, el sueldo que gana, los gastos que tiene, etc.
presión arterial, el sueldo que gana, los gastos que tiene, etc.
Ejemplo…
En el siguiente ejemplo, tenemos una tabla de datos, con una variable “X” y otra variable “Y”. Posteriormente
se dibujara sobre unos ejes cartesianos, en el eje de abscisa (horizontal) tendremos la variable “X” y en el eje
de ordenadas (vertical) tendremos la variable “Y”, obteniendo una nube de puntos con el siguiente aspecto.
se dibujara sobre unos ejes cartesianos, en el eje de abscisa (horizontal) tendremos la variable “X” y en el eje
de ordenadas (vertical) tendremos la variable “Y”, obteniendo una nube de puntos con el siguiente aspecto.
Cada individuo vendrá representado por un punto (Xi, Yi) en el gráfico.
Podemos observar que existe una clara tendencia que en medida que aumenta los valores de la “X”, disminuye
los valores de la “Y”.
los valores de la “Y”.
Dependencia Funcional: puntos exactamente sobre la línea recta o curva. Pero en estadística no se suele
dar este tipo de casos.
dar este tipo de casos.
Dependencia Estocástica: no están todos los puntos exactamente sobre el modelo, sino que existe una
tendencia.
3. Regresión lineal simple: Correlación y determinación
Se trata de estudiar la asociación lineal entre dos variables cuantitativas.
Ejemplo: influencia de la edad en las cifras de Tensión arterial Sistólica.
- Regresión lineal simple: una sola variable independiente.
- Regresión lineal múltiple: más de una variable independiente.
Análisis de relación entre dos variables cuantitativas: Modelos de regresión.
Regresión lineal simple: correlación y determinación
Ecuación de la recta: y = a + bx (ej: TAS=a +b· edad)
- Pendiente de la recta 7 → b
- Punto de intersección con el eje de coordenadas → 7 a
“b” expresa la cantidad de cambio que se produce en la variable dependiente por unidad de cambio de la
variable independiente.
variable independiente.
“a” expresa cuál es el valor de la variable dependiente (eje y) cuando la independiente vale cero (eje x).
Si x=0 7 → y= a
-Modelos lineales deterministas: la variable independiente determine el valor de la variable dependiente.
Entonces para cada valor de la variable independiente sólo habría un valor de la dependiente.
Entonces para cada valor de la variable independiente sólo habría un valor de la dependiente.
-Modelos lineales probabilísticos: Para cada valor de la variable independiente existe una distribución de
probabilidad de valores de la dependiente, con una probabilidad entre 0 y 1.
probabilidad de valores de la dependiente, con una probabilidad entre 0 y 1.
- La recta a determinar es aquélla con la menor distancia de cada punto a ella.
Coeficiente de Correlación de Pearson
Por lo que ya podemos decir que si la “r” es menor que 0, tenemos una relación lineal inversa. Si la “r” es
mayor de 0, la relación es lineal directa, y si “r” es igual a 0, podemos tener una variables independientes o
por otro lado una relación que no sea lineal.
mayor de 0, la relación es lineal directa, y si “r” es igual a 0, podemos tener una variables independientes o
por otro lado una relación que no sea lineal.
Análisis de relación entre dos variables cuantitativas: Modelo de regresión.
- La recta tiene una ecuación que sería: y=a+bx; a esta ecuación la vamos a llamar Modelo de regresión. Y los
términos que aparecen en ella, tenemos “X” e “Y”, que son las variables.
términos que aparecen en ella, tenemos “X” e “Y”, que son las variables.
- El término “b” es el coeficiente que va a acompañar a la “X”, el cual vamos a llamar coeficiente de
regresión.
regresión.
-Indica cuánto cabe esperar que cambie la respuesta por cada incremento unitario de la “X”. Es
decir indica la pendiente o inclinación de la recta.
decir indica la pendiente o inclinación de la recta.
También aparece un término independiente que sería “a”, (punto de intersección con el eje de coordenadas) el
cual indica lo que vale la variable respuesta cuando la “X” es cero. Cuando la “X” es cero, el producto seria
cero, y la “y” seria igual a “a” (y=a).
cual indica lo que vale la variable respuesta cuando la “X” es cero. Cuando la “X” es cero, el producto seria
cero, y la “y” seria igual a “a” (y=a).
Regresión lineal simple: correlación y determinación
Ejemplo: TAS = a + b · EDAD
- Si a= 89 y b = 0,9 la recta será:
- TAS = 89 + 0,9 · EDAD
- Para EDAD = 20 7 → TAS = 107 (TAS = 89 + 0,9 · 20 = 107).
- ¿Siempre que EDAD = 20 → 7 TAS = 107?
NO: en el grupo de individuos de 20 años de edad, la media de TAS será de 107. El valor exacto de la TAS en
un individuo de 20 años concreto será 122+/-e1.
un individuo de 20 años concreto será 122+/-e1.
- Interpretación del modelo: por cada año (edad, variable indep.) la TAS varía en 0,9 mmHg (variable dep.)
Calculamos los valores de “a” y “b” que proporcionan la recta que mejor se ajusta.
- Se parte de un criterio, y el más utilizado es el criterio de los mínimos cuadrados. Que consiste en obtener un
punto sobre la gráfica que se denomina (Yi), que es el punto observado, y posteriormente en coger un punto
sobre la recta que hemos dibujado, denominado (Yi*), este punto es el que estima el modelo.
punto sobre la gráfica que se denomina (Yi), que es el punto observado, y posteriormente en coger un punto
sobre la recta que hemos dibujado, denominado (Yi*), este punto es el que estima el modelo.
- A continuación se calcula la diferencia entre ambos y nos interesa que la diferencia sea lo más pequeña
posible, por eso se llama el criterio de los mínimos, y también se denomina cuadrado porque se calcula con
un término al cuadrado.
posible, por eso se llama el criterio de los mínimos, y también se denomina cuadrado porque se calcula con
un término al cuadrado.
- Se trata de la recta que hace mínimo el cuadrado de la suma de las distancias verticales desde ella hasta
cada uno de los puntos de la nube.
cada uno de los puntos de la nube.
Criterio de los mínimos cuadrados. ¿Cómo se calcula a y b?
Coeficiente de correlación (Pearson y Spearman): Número adimensional (entre -1 y 1) que mide la fuerza y
el sentido de la relación lineal entre dos variables.
el sentido de la relación lineal entre dos variables.
Coeficiente de determinación: número adimensional (entre 0 y 1) que dá idea de la relación entre las
variables relacionadas linealmente. Es r2.
variables relacionadas linealmente. Es r2.
Coeficiente de Correlación de Pearson.
Ejemplo en el que se pone de manifiesto cómo va cambiando el valor del coeficiente de correlación “r”, a
medida que la nube va siendo más dispersa. Sucede que cuando los puntos están muy concentrados en torno
al modelo, es decir, en torno a la recta, cuando hay una clara tendencia la “r” es grande, y cuando no hay
tendencia la “r” es pequeña.
medida que la nube va siendo más dispersa. Sucede que cuando los puntos están muy concentrados en torno
al modelo, es decir, en torno a la recta, cuando hay una clara tendencia la “r” es grande, y cuando no hay
tendencia la “r” es pequeña.
Coeficiente de correlación, en este caso hipotético es (– 0.940), el cual es muy próximo a 1, el coeficiente de
correlación está acotado entre (-1 y +1) y su valor absoluto independientemente del signo es entre 0 y 1. De
manera que cuanto más próximo a 1 más relación y cuanto más próximo a 0 menor relación.
correlación está acotado entre (-1 y +1) y su valor absoluto independientemente del signo es entre 0 y 1. De
manera que cuanto más próximo a 1 más relación y cuanto más próximo a 0 menor relación.
De manera que si tenemos un signo negativo (-0,940) quiere decir que hay una relación inversa, que
además es fuerte porque el valor es grande.
además es fuerte porque el valor es grande.
- Se evalúa a través de un coeficiente, que se denomina como Coeficiente de Determinación y se denota
normalmente como R2. Ese valor está acotado entre 0 y 1. Cuanto más se aproxime a 1, mayor poder
explicativo, mayor bondad de ajuste, es decir más cantidad de puntos de la nube están cerca realmente ese
modelo.
normalmente como R2. Ese valor está acotado entre 0 y 1. Cuanto más se aproxime a 1, mayor poder
explicativo, mayor bondad de ajuste, es decir más cantidad de puntos de la nube están cerca realmente ese
modelo.
- En la práctica solemos presentarlo multiplicado por 100, y presentarlo como porcentaje de variaciones
explicadas por el modelo o porcentajes de puntos bien representados, porque así es más fácil su manejo.
explicadas por el modelo o porcentajes de puntos bien representados, porque así es más fácil su manejo.
- También existe una relación que facilita los cálculos, y es que se ha demostrado que el Coeficiente de
Determinación se puede calcular sin más que elevar al cuadrado el Coeficiente de Correlación de Pearson.
Determinación se puede calcular sin más que elevar al cuadrado el Coeficiente de Correlación de Pearson.
Por último…
Se realiza el cálculo del test de hipótesis t para modelos de regresión lineal simple (t de Kendall)-
No hay comentarios:
Publicar un comentario