sábado, 9 de mayo de 2009

REGRESION Y CORRELACION SIMPLE
ECONOMETRIA
Repaso de Estadística:
Variables aleatorias: Son aquellas cuyo valor está relacionado a cierta probabilidad de ocurrencia. Por ejemplo, la ocurrencia de que caiga cara al lanzar una moneda al aire es de 50 % de los casos, de que caiga un uno al lanzar un dado es 1/6 por cada cara del dado.
Variables discretas: Toman valores enteros.
Variables continuas: Toman valores tanto enteros así como fracciones.

Medidas estadísticas:
· Medidas de tendencia central:
o Media: Es el valor representativo de la población. La media de una variable, intuitivamente, es la medida de su tendencia central. En otras palabras esperaríamos que la media sea el promedio de las observaciones de un experimento o de varios experimentos.
SX / n = X

o Moda: Es el valor más frecuente.
o Mediana: Es el valor central.

· Medidas de variabilidad:
o Varianza: Es la sumatoria de las desviaciones al cuadrado de las observaciones con respecto a su media.
S(X – X)2 =s2
o Desviación estándar: Es la raíz cuadrada de la varianza. Se presta a ser interpretado en los valores mismos de la variable.

s= S(X – X)2

Muestra aleatoria: Es aquella en la cual cada uno de los elementos del marco muestral tiene igual probabilidad de ser escogido dentro de la muestra.

Estimador insesgado: Un estimador insesgado es una medida estadística, cuya media es igual al parámetro poblacional del cual él es estimador.

Estimador consistente: Es aquel en el cual la probabilidad de existir diferencia con respecto al parámetro es mínima o prácticamente nula mientras el tamaño de muestra se incrementa.

Nota: Cuanto más grande es una muestra, más cercano será el valor del estimador (muestra) al valor del parámetro (población).

Herramientas de análisis y descripción de relaciones entre variables

Uno de los problemas centrales en econometría es el desarrollo de técnicas efectivas para la estimación de las relaciones cuantitativas entre las variables económicas.

Descripción de las relaciones estadísticas entre dos variables: Esta será mediante el uso de la covarianza y la correlación.

Las relaciones entre variables puede observarse a través de diagramas de dispersión.

La covarianza: Nos sirve para saber si dos variables están relacionadas positiva o negativamente. El valor de la covarianza puede ser mayor a 0 cuando la relación entre las variables es positiva, o ya sea menor a cero en el caso de existir una relación negativa. Sin embargo, el valor de la relación puede ser igual a 0. Esta última situación se puede presentar en dos circunstancias básicas: La primera es que ambas variables son independientes; el segundo caso es cuando las dos variables no estén relacionadas de una forma no lineal.

s2x,y = [S (X – X)(Y – Y)]/ n - 1



Coeficiente de correlación: Además de conocer si dos variables están positiva o negativamente relacionadas, también es necesario conocer qué tan fuertemente están relacionadas. La medición de la covarianza es inconveniente para medir el grado de fuerza de asociación, ya que su valor es calculado en base a las unidades propias de cada variable.
El grado de fuerza de relación entre dos variables puede ser medido a través del coeficiente de correlación, cuyo valor es independiente de las unidades particulares de cada variable.

El coeficiente de correlación se calcula de la siguiente manera:

sx,y
rx,y = --------- , donde:
sxsy


sx= E(X-mx)2 y sy= E(Y-my)2 .



Algunas propiedades del coeficiente de correlación son:
· Siempre tiene el mismo signo de la covarianza.
· Si el coeficiente de correlación es menor a cero la correlación es negativa, si es mayor a cero la correlación será positiva.
· Podemos ver que el coeficiente de correlación posee todas las características de la covarianza en términos de indicar el tipo de relación existente entre las variables.
· El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables.
· Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables.
· Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables.

Si en una relación exacta entre dos variables Y= a + bX , decimos que a es el intercepto en Y y que b es la pendiente de la función. En este caso si b<>0 el coeficiente de correlación será positivo.




REGRESIÓN SIMPLE


El análisis de regresión es un conjunto de métodos estadísticos para la formulación matemática de modelos de relaciones entre variables, las cuales pueden ser usados para predecir o hacer inferencias estadísticas. El análisis de regresión tiene los siguientes usos, el primero es obtener los estimadores de los parámetros, estimar la varianza del error, obtener los errores estandares de los parámetros estimados, probar las hipótesis sobre los parámetros, calculo de valores estimados basados en la ecuación estimada, estimar el ajuste o la falta de ajuste del modelo.

PROPIEDADES DEL MODELO DE REGRESION

La forma del modelo es correcta, o sea que todas las variables independientes importantes están incluidas.
El valor estimado del error es igual a cero.

La varianza de los errores es constante para todas las observaciones.

Los errores no están correlacionados, o sea que son independientes.

Como nosotros sabemos, teniendo Y=a+bX, a es el intercepto, b es la pendiente de la función la que nos indica el cambio marginal de Y respecto a X.

b=[S(x-X)(yt-Y)]/[S(xt-X)2]

a=Y-bX



COEFICIENTE DE DETERMINACIÓN

Al haber ya tenido, el modelo de regresión necesitamos saber la fuerza de la relación entre las variables analizadas, para lo cual necesitamos una medida de esa fuerza, para ello utilizaremos el coeficiente de determinación.

R2= [RSS]/[TSS] =[ S(Yt-Y)2 ]/[ S(Yt-Y) 2]=Suma de cuadrados de la regresión/suma de cuadrados.

Suma de cuadrados del error = TSS-RSS = ESS


R2=1, Existe una relación lineal perfecta.
R2=0, El modelo de regresión lineal no explica la relación entre variables.
R2=0.63, Decimos que la relación estimada puede explicarse 63 % de la variación la variable dependiente.
R2=0.99, Explica que existe una relación extrema entre las variables analizadas, o sea que el modelo de regresión explica el 99% de la variación y que solo el 1% es inexplicada.



EJEMPLO DE UNA REGRESION Y CORRELACION SIMPLE

EN EXCEL:

Los datos de X pongalos en la columna 1 y los de Y en la columna 2. Después de esto vaya a INSERTAR, seleccione Fx Función, seleccione ESTADÍSTICAS y por último selecciona COEF. DE CORREL, nos va a dar el coeficiente de correlación.

Para el cálculo del Coeficiente de determinación de la regresión, seleccionamos dentro de las medidas estadísticas de excel, el COEFICIENTE R2. Nos va aparecer seleccionar los valores de X y de Y.
Se puede definir a la Regresión, como una correlación matemática basada en la ecuación de la recta modificada. Existen varios tipos de regresión y todos se basan en modificaciones de la formula de regresión lineal :
Y = a + b . X (ecuación matemática de la recta)
Y es la variable dependiente (de estudio) y X la variable independiente.
a y b son factores derivados de la ecuación matemática de la recta.
Básicamente, por medio de la regresión se pretende predecir el valor de una variable llamada genéricamente “Y”, a través de otra variable llamada “X”.
La regresión se representa mediante un coeficiente R que oscila entre - 1 y + 1. Cuando la variable dependiente Y aumenta ante incrementos de la variable independiente X , el R es positivo y oscila entre 0 y 1. A su vez cuando Y disminuye ante incrementos de X el R es negativo, entre 0 y –1. Veamos algunos ejemplos para una mejor comprensión :




El gráfico muestra la relación existente entre sumatoria de puntos del Sistema Apache II a las 24 horas del ingreso y la probabilidad de mortalidad en terapia intensiva. El valor de R es 0,98 para un nivel de p < 0.001. El valor de R2 es 0.97. El R2 es un coeficiente importante en regresión. Se deduce de la elevación al cuadrado de R y es representativo del grado de relación entre variables. Un R2 de 0.97, significa que el valor de la probabilidad de mortalidad podrá ser predecido en un 97% de las veces por el valor del Apache II.
Por lo tanto el valor de R2 indica el porcentaje de variabilidad de los valores de Y que pueden ser explicadas en función de la variabilidad de los valores de X.
Los modelos de regresión no siempre son lineales y se basan en loa ecuación pura de la recta. Existen también modificaciones de esta ecuación de tal manera que se pueden practicar análisis de regresión cuadrática, cúbica, logarítmica, logística, etc. Además la regresión puede ser simple o múltiple, constituyendo un tipo de análisis multivariado.

.
USANDO BIOSTAT
http://jlopezco.topcities.com/biostat/biostat_main.htm

X * 1 Prueba nueva
Y * 2 Prueba estandarizada
X Y
50 61
55 61
60 59
65 71
70 80
75 76
80 90
85 106
90 98
95 100
100 114





Date: 28/02/2002 05:18:56 p.m.
Regression Analysis
Analisis Of Variance. Dependent Variable: Prueba estandarizada

Source DF SS MS Fc P-value

Model 1 3472.0364 3472.0364 95.811 0.00000
Error 9 326.1455 36.2384
Total 10 3798.1818

R2: 0.9141

Regression Analysis
Model Parameters and Standard Error

Parameter Estimate Std Error t Ho:B=0 P-value
Intercept -1.0000 8.7988 -0.114 0.9120
Prueba nueva 1.1236 0.1148 9.788 0.0000

Regression Analysis
Residuals, Hi and D-Cook statistics

Observed Predicted Std Res Hi D-Cook
61.0000 55.1818 1.1705 0.3182 0.3197
61.0000 60.8000 0.0380 0.2364 0.0002
59.0000 66.4182 -1.3548 0.1727 0.1916
71.0000 72.0364 -0.1843 0.1273 0.0025
80.0000 77.6545 0.4107 0.1000 0.0094
76.0000 83.2727 -1.2671 0.0909 0.0803
90.0000 88.8909 0.1942 0.1000 0.0021
106.0000 94.5091 2.0433 0.1273 0.3044
98.0000 100.1273 -0.3885 0.1727 0.0158
100.0000 105.7455 -1.0922 0.2364 0.1846
114.0000 111.3636 0.5304 0.3182 0.0656

Regression Analysis
Variance-Covariance Matrix follows:
Intercept Prueba nueva
Intercept 77.41837 -0.98832
Prueba nueva -0.98832 0.01318

1 comentario:

  1. Como bien se sabe la Estadistica se utiliza siempre cuando se quieren tener resultados mas confiables y exactos, dentro de la astadistica existen medidas que nos sirven para el analisis y la determinacion a la hora de calcular una serie de datos..dentro de ellos estan:
    Moda: Es el valor más frecuente.
    o Mediana: Es el valor central.

    · Medidas de variabilidad:
    o Varianza: Es la sumatoria de las desviaciones al cuadrado de las observaciones con respecto a su media.
    S(X – X)2 =s2
    o Desviación estándar: Es la raíz cuadrada de la varianza. Se presta a ser interpretado en los valores mismos de la variable.

    ResponderEliminar