Evaluación de impacto

Ejemplo de análisis de datos para evaluación de impacto, tomando como base la prueba parcial del curso.

1. Base de datos

Carga de la base de datos, transformación y limpieza de los datos.

gen tiempo edad sexo estado_civil nota aprobacion experiencia preparacion
I 66 27 Hombre solt 56.0 0 5 1
I 78 40 Mujer solt 79.3 1 18 2
I 48 28 Hombre solt 67.6 0 6 1
I 120 36 Hombre solt 72.4 1 14 2
I 136 34 Mujer solt 86.0 1 12 2
I 124 46 Hombre casad 86.0 1 24 2
I 144 25 Hombre unlib 82.0 1 3 2
I 223 37 Mujer solt 80.9 1 15 2
I 174 32 Hombre casad 70.0 1 10 1
I 70 34 Hombre unlib 78.4 1 12 2

1.1 Descripción de los datos

A continuación podemos revisar las principales características del dataset.

Exploremos el dataset, primero interesa conocer qué dimensión tiene, cuales son las características:

## Rows: 182
## Columns: 9
## $ gen          <chr> "I", "I", "I", "I", "I", "I", "I", "I", "I", "I", "I", "I…
## $ tiempo       <dbl> 66, 78, 48, 120, 136, 124, 144, 223, 174, 70, 83, 50, 113…
## $ edad         <dbl> 27, 40, 28, 36, 34, 46, 25, 37, 32, 34, 23, 26, 42, 63, 2…
## $ sexo         <chr> "Hombre", "Mujer", "Hombre", "Hombre", "Mujer", "Hombre",…
## $ estado_civil <chr> "solt", "solt", "solt", "solt", "solt", "casad", "unlib",…
## $ nota         <dbl> 56.0, 79.3, 67.6, 72.4, 86.0, 86.0, 82.0, 80.9, 70.0, 78.…
## $ aprobacion   <dbl> 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ experiencia  <dbl> 5, 18, 6, 14, 12, 24, 3, 15, 10, 12, 1, 4, 20, 41, 7, 12,…
## $ preparacion  <dbl> 1, 2, 1, 2, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, …
##       gen         tiempo           edad           sexo    estado_civil
##  VI     :34   Min.   : 13.0   Min.   :23.00   Hombre:85   casad: 55   
##  IV     :21   1st Qu.: 59.0   1st Qu.:31.25   Mujer :97   solt :106   
##  I      :20   Median : 93.0   Median :35.50               unlib: 21   
##  III    :19   Mean   :101.0   Mean   :36.98                           
##  V      :19   3rd Qu.:139.5   3rd Qu.:41.00                           
##  VII    :19   Max.   :245.0   Max.   :63.00                           
##  (Other):50                                                           
##       nota        aprobacion  experiencia    preparacion
##  Min.   : 46.80   0: 35      Min.   : 1.00   0:  1      
##  1st Qu.: 71.42   1:147      1st Qu.: 9.25   1: 38      
##  Median : 81.62              Median :13.50   2:106      
##  Mean   : 80.05              Mean   :14.98   3: 37      
##  3rd Qu.: 88.80              3rd Qu.:19.00              
##  Max.   :100.00              Max.   :41.00              
## 

Posteriormente podemos ir estableciendo algunas visualizaciones para representar la información.

1.1.1 ¿Cual es la distribución por estado civil?

1.1.2 Edades del grupo

¿Cuál es el promedio de edad de las y los estudiantes?

El 75% de las edades de los grupos se encuentra por debajo de los 41 años. La persona de menor edad tiene 23 años y la mayor 63.

## # A tibble: 9 × 2
##   gen   promedio
##   <fct>    <dbl>
## 1 VII       40.1
## 2 VI        39.1
## 3 II        38.2
## 4 IV        37.8
## 5 V         36.8
## 6 VIII      36.8
## 7 III       34.9
## 8 I         34.4
## 9 IX        32.9

1.1.3 Experiencia según sexo

1.1.4 Aprobación de la prueba según edad

1.1.5 ¿Promedio de notas por generación?

## # A tibble: 9 × 2
##   gen   promedio
##   <fct>    <dbl>
## 1 V         86.6
## 2 IX        85.0
## 3 VIII      82.6
## 4 VI        81.7
## 5 II        78.9
## 6 III       78.1
## 7 I         77.5
## 8 VII       76.1
## 9 IV        74.1

1.1.6 ¿Existe diferencia en las notas según el sexo de la persona?

## # A tibble: 2 × 2
##   sexo   `mean(nota)`
##   <fct>         <dbl>
## 1 Hombre         79.2
## 2 Mujer          80.8

1.1.7 Diferencia en promedio de calificación en su generación

## # A tibble: 2 × 2
##   sexo   `mean(nota)`
##   <fct>         <dbl>
## 1 Hombre         82.5
## 2 Mujer          86.4
## # A tibble: 3 × 2
##   estado_civil `mean(nota)`
##   <fct>               <dbl>
## 1 casad                80.4
## 2 solt                 79.5
## 3 unlib                81.9

1.1.8 Relación entre la experiencia/edad y nota

2. Evaluación de impacto

Se quiere observar el efecto de X (tiempo) sobre Y (nota)

2.0 Correlación entre variables

2.1 Desempeño en la prueba parcial

Hipótesis nula= el tiempo dedicado a la prueba no tiene incide con la nota obtenida.

Evaluación= Se debe encontrar evidenca para rechazar o aprobar la hipótesis.

X = Dedicación en la prueba (tiempo)

Y = Calificación/nota

2.2 Regresión lineal simple

## 
## Call:
## glm(formula = nota ~ tiempo, data = datos)
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 80.60528    1.87521  42.985   <2e-16 ***
## tiempo      -0.00554    0.01662  -0.333    0.739    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 127.1282)
## 
##     Null deviance: 22897  on 181  degrees of freedom
## Residual deviance: 22883  on 180  degrees of freedom
## AIC: 1402.3
## 
## Number of Fisher Scoring iterations: 2
mod1  <- glm(nota~tiempo, data = df)
  summary(mod1)
## 
## Call:
## glm(formula = nota ~ tiempo, data = df)
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 80.60528    1.87521  42.985   <2e-16 ***
## tiempo      -0.00554    0.01662  -0.333    0.739    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 127.1282)
## 
##     Null deviance: 22897  on 181  degrees of freedom
## Residual deviance: 22883  on 180  degrees of freedom
## AIC: 1402.3
## 
## Number of Fisher Scoring iterations: 2

A- signo: El resultado de la evaluación indica que existe una relación negativa entre las variables

B- Valor: Se determina que por cada minuto dedicado a la prueba la nota decrece en 0,007 puntos en promedio.

## [1] "-0.00007341"
## [1] -0.007341

Interpretación: De lo anterior se puede concluir que el tiempo dedicado a la prueba no parece ser la razón de obtener una puntuación alta, ya que se muestra una relación inversa.

2.2.1 Pvalor-significancia estadística

El P valor indica la probabilidad de obtener los datos observados si la hipótesis nula es cierta. Entre más pequeño es el valor sugiere una evidencia más sólida contra la hipótesis nula.

Significancia Valor % Signos Interpretación

p < 0.001 99,9% *** 🌟extremadamente significativo
p < 0.01 99% ** ⭐️ altamente significativo
p < 0.05 95% * ✅ significativo
p < 0.10 90% . ↘️ con tendencia
p < 0.20 <80% 🌅 en el horizonte
p < 0.50 <50% 🪙 una moneda al aire

pvalor <- summary(mod1)$coefficients[2,4]

prueba <- pvalor <= 0.05
prueba
## [1] FALSE

Significancia estadística: Dado que el pvalor es mayor que 0.05, la evidencia aportada no permite rechazar la hipótesis nula, por ende a partir del análisis realizado la Ho se acepta.

Conclusión: Se concluye que el tiempo dedicado en la prueba no incide sobre el puntaje obtenido en la prueba parcial.

2.2.2 Visualización de regresión

En la siguiente gráfica podemos observar la tendencia, concentración y las variables utilizadas en el análisis.

2.2.3 ¿El estado civil incide sobre las notas?

mod2 <- lm(nota ~ estado_civil, 
                 datos)
summary(mod2)
## 
## Call:
## lm(formula = nota ~ estado_civil, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -32.709  -8.352   0.786   8.693  20.491 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        80.3595     1.5213  52.821   <2e-16 ***
## estado_civilsolt   -0.8506     1.8749  -0.454    0.651    
## estado_civilunlib   1.5753     2.8942   0.544    0.587    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.28 on 179 degrees of freedom
## Multiple R-squared:  0.004843,   Adjusted R-squared:  -0.006276 
## F-statistic: 0.4356 on 2 and 179 DF,  p-value: 0.6476

2.2.4 ¿La edad incide sobre las notas?

mod3 <- lm(log(nota) ~ log(edad), 
                 df)
summary(mod3)
## 
## Call:
## lm(formula = log(nota) ~ log(edad), data = df)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.52448 -0.10468  0.02704  0.11386  0.23680 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.31884    0.19493  22.156   <2e-16 ***
## log(edad)    0.01487    0.05422   0.274    0.784    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1474 on 180 degrees of freedom
## Multiple R-squared:  0.0004175,  Adjusted R-squared:  -0.005136 
## F-statistic: 0.07519 on 1 and 180 DF,  p-value: 0.7842

2.3 Regresión lineal múltiple

Añadiendo más variables al modelo para mejorar la ecuación = disponer de una lectura mayor para comprender los datos.

mod4  <- lm(nota~., data = datos)
  summary(mod4)
## 
## Call:
## lm(formula = nota ~ ., data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -12.573  -3.335   0.284   3.422   9.317 
## 
## Coefficients: (1 not defined because of singularities)
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       47.343174   5.713838   8.286 3.98e-14 ***
## genII              0.624140   1.723410   0.362  0.71770    
## genIII            -0.430602   1.600001  -0.269  0.78817    
## genIV             -0.184857   1.627891  -0.114  0.90973    
## genIX              0.589286   1.713469   0.344  0.73135    
## genV               2.109125   1.636697   1.289  0.19934    
## genVI              1.144630   1.469027   0.779  0.43700    
## genVII            -0.424865   1.715811  -0.248  0.80474    
## genVIII           -0.288741   1.719666  -0.168  0.86686    
## tiempo             0.004990   0.008299   0.601  0.54854    
## edad              -0.042947   0.052690  -0.815  0.41620    
## sexoMujer          0.321696   0.772283   0.417  0.67755    
## estado_civilsolt  -0.227091   0.916349  -0.248  0.80458    
## estado_civilunlib -1.742685   1.346704  -1.294  0.19747    
## aprobacion1        5.744352   2.728726   2.105  0.03680 *  
## experiencia              NA         NA      NA       NA    
## preparacion1      17.365781   5.190232   3.346  0.00102 ** 
## preparacion2      28.627606   5.817612   4.921 2.08e-06 ***
## preparacion3      42.297763   5.863365   7.214 1.91e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.945 on 164 degrees of freedom
## Multiple R-squared:  0.8249, Adjusted R-squared:  0.8067 
## F-statistic: 45.44 on 17 and 164 DF,  p-value: < 2.2e-16

Significancia estadística -¿Me creo los datos?

prueba2 <- 0.54854 <= 0.05
prueba2
## [1] FALSE

El P-valor es menor que 0.05 por ende no se tiene la evidencia para rechazar la hipótesis nula.

Se acepta: No hay impacto de X sobre Y.

2.3.1 ¿Cómo es ese impacto? positivo o negativo?

Se visualiza una relación ligeramente positiva entre el tiempo dedicado a la prueba y la nota, cuando x aumenta y aumenta.

2.3.2 ¿Qué tan grande es? magnitud del impacto

Por cada minuto destinado a la prueba, la nota aumenta en 0.4 puntos.

El resultado no es estadísticamente representativo, por ende no podemos afirmar que dedicar más tiempo a la prueba asegura una mayor calificación.

2.3.3 ¿Cuál variable es significativa en el modelo?

Existen variables en el modelo que inciden sobre la nota obtenida en la prueba, como la aprobación, y la preparación.

Una preparación “alta”, supone un incremento en 42 puntos en la nota obtenida, siendo significativo con el 99.9% de certeza.

Modelo final

tinytable_w02zvkfplc34brclpof6
(1)
Comparacion de modelos
Est. p
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001
(Intercept) 74.866*** <0.001
genII 1.349 0.713
genIII 0.752 0.830
genIV -3.664 0.297
genIX 7.391* 0.045
genV 8.960* 0.012
genVI 3.709 0.244
genVII -2.186 0.550
genVIII 4.697 0.210
sexoMujer 1.289 0.446
edad 0.047 0.669
tiempo 0.005 0.788
Num.Obs. 182
R2 0.122
RMSE 10.51
Std.Errors IID

La única variable que incide en las notas es la generación.

El hecho de pertenecer a la generación V brinda una probabilidad de tener una calificación 8.9 puntos en promedio y para la generación IX de 7.3, dicha afirmación es válida para el 95% de los casos analizados en este conjunto de datos.