Ejemplo de análisis de datos para evaluación de impacto, tomando como base la prueba parcial del curso.
Carga de la base de datos, transformación y limpieza de los datos.
gen | tiempo | edad | sexo | estado_civil | nota | aprobacion | experiencia | preparacion |
---|---|---|---|---|---|---|---|---|
I | 66 | 27 | Hombre | solt | 56.0 | 0 | 5 | 1 |
I | 78 | 40 | Mujer | solt | 79.3 | 1 | 18 | 2 |
I | 48 | 28 | Hombre | solt | 67.6 | 0 | 6 | 1 |
I | 120 | 36 | Hombre | solt | 72.4 | 1 | 14 | 2 |
I | 136 | 34 | Mujer | solt | 86.0 | 1 | 12 | 2 |
I | 124 | 46 | Hombre | casad | 86.0 | 1 | 24 | 2 |
I | 144 | 25 | Hombre | unlib | 82.0 | 1 | 3 | 2 |
I | 223 | 37 | Mujer | solt | 80.9 | 1 | 15 | 2 |
I | 174 | 32 | Hombre | casad | 70.0 | 1 | 10 | 1 |
I | 70 | 34 | Hombre | unlib | 78.4 | 1 | 12 | 2 |
A continuación podemos revisar las principales características del dataset.
Exploremos el dataset, primero interesa conocer qué dimensión tiene, cuales son las características:
## Rows: 182
## Columns: 9
## $ gen <chr> "I", "I", "I", "I", "I", "I", "I", "I", "I", "I", "I", "I…
## $ tiempo <dbl> 66, 78, 48, 120, 136, 124, 144, 223, 174, 70, 83, 50, 113…
## $ edad <dbl> 27, 40, 28, 36, 34, 46, 25, 37, 32, 34, 23, 26, 42, 63, 2…
## $ sexo <chr> "Hombre", "Mujer", "Hombre", "Hombre", "Mujer", "Hombre",…
## $ estado_civil <chr> "solt", "solt", "solt", "solt", "solt", "casad", "unlib",…
## $ nota <dbl> 56.0, 79.3, 67.6, 72.4, 86.0, 86.0, 82.0, 80.9, 70.0, 78.…
## $ aprobacion <dbl> 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ experiencia <dbl> 5, 18, 6, 14, 12, 24, 3, 15, 10, 12, 1, 4, 20, 41, 7, 12,…
## $ preparacion <dbl> 1, 2, 1, 2, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, …
## gen tiempo edad sexo estado_civil
## VI :34 Min. : 13.0 Min. :23.00 Hombre:85 casad: 55
## IV :21 1st Qu.: 59.0 1st Qu.:31.25 Mujer :97 solt :106
## I :20 Median : 93.0 Median :35.50 unlib: 21
## III :19 Mean :101.0 Mean :36.98
## V :19 3rd Qu.:139.5 3rd Qu.:41.00
## VII :19 Max. :245.0 Max. :63.00
## (Other):50
## nota aprobacion experiencia preparacion
## Min. : 46.80 0: 35 Min. : 1.00 0: 1
## 1st Qu.: 71.42 1:147 1st Qu.: 9.25 1: 38
## Median : 81.62 Median :13.50 2:106
## Mean : 80.05 Mean :14.98 3: 37
## 3rd Qu.: 88.80 3rd Qu.:19.00
## Max. :100.00 Max. :41.00
##
Posteriormente podemos ir estableciendo algunas visualizaciones para representar la información.
¿Cuál es el promedio de edad de las y los estudiantes?
El 75% de las edades de los grupos se encuentra por debajo de los 41 años. La persona de menor edad tiene 23 años y la mayor 63.
## # A tibble: 9 × 2
## gen promedio
## <fct> <dbl>
## 1 VII 40.1
## 2 VI 39.1
## 3 II 38.2
## 4 IV 37.8
## 5 V 36.8
## 6 VIII 36.8
## 7 III 34.9
## 8 I 34.4
## 9 IX 32.9
## # A tibble: 9 × 2
## gen promedio
## <fct> <dbl>
## 1 V 86.6
## 2 IX 85.0
## 3 VIII 82.6
## 4 VI 81.7
## 5 II 78.9
## 6 III 78.1
## 7 I 77.5
## 8 VII 76.1
## 9 IV 74.1
## # A tibble: 2 × 2
## sexo `mean(nota)`
## <fct> <dbl>
## 1 Hombre 79.2
## 2 Mujer 80.8
## # A tibble: 2 × 2
## sexo `mean(nota)`
## <fct> <dbl>
## 1 Hombre 82.5
## 2 Mujer 86.4
## # A tibble: 3 × 2
## estado_civil `mean(nota)`
## <fct> <dbl>
## 1 casad 80.4
## 2 solt 79.5
## 3 unlib 81.9
Se quiere observar el efecto de X (tiempo) sobre Y (nota)
Hipótesis nula= el tiempo dedicado a la prueba no tiene incide con la nota obtenida.
Evaluación= Se debe encontrar evidenca para rechazar o aprobar la hipótesis.
X = Dedicación en la prueba (tiempo)
Y = Calificación/nota
##
## Call:
## glm(formula = nota ~ tiempo, data = datos)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 80.60528 1.87521 42.985 <2e-16 ***
## tiempo -0.00554 0.01662 -0.333 0.739
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 127.1282)
##
## Null deviance: 22897 on 181 degrees of freedom
## Residual deviance: 22883 on 180 degrees of freedom
## AIC: 1402.3
##
## Number of Fisher Scoring iterations: 2
##
## Call:
## glm(formula = nota ~ tiempo, data = df)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 80.60528 1.87521 42.985 <2e-16 ***
## tiempo -0.00554 0.01662 -0.333 0.739
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 127.1282)
##
## Null deviance: 22897 on 181 degrees of freedom
## Residual deviance: 22883 on 180 degrees of freedom
## AIC: 1402.3
##
## Number of Fisher Scoring iterations: 2
A- signo: El resultado de la evaluación indica que existe una relación negativa entre las variables
B- Valor: Se determina que por cada minuto dedicado a la prueba la nota decrece en 0,007 puntos en promedio.
## [1] "-0.00007341"
## [1] -0.007341
Interpretación: De lo anterior se puede concluir que el tiempo dedicado a la prueba no parece ser la razón de obtener una puntuación alta, ya que se muestra una relación inversa.
El P valor indica la probabilidad de obtener los datos observados si la hipótesis nula es cierta. Entre más pequeño es el valor sugiere una evidencia más sólida contra la hipótesis nula.
Significancia Valor % Signos Interpretación
p < 0.001 99,9% *** 🌟extremadamente significativo
p < 0.01 99% ** ⭐️ altamente significativo
p < 0.05 95% * ✅ significativo
p < 0.10 90% . ↘️ con tendencia
p < 0.20 <80% 🌅 en el horizonte
p < 0.50 <50% 🪙 una moneda al aire
## [1] FALSE
Significancia estadística: Dado que el pvalor es mayor que 0.05, la evidencia aportada no permite rechazar la hipótesis nula, por ende a partir del análisis realizado la Ho se acepta.
Conclusión: Se concluye que el tiempo dedicado en la prueba no incide sobre el puntaje obtenido en la prueba parcial.
En la siguiente gráfica podemos observar la tendencia, concentración y las variables utilizadas en el análisis.
##
## Call:
## lm(formula = nota ~ estado_civil, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -32.709 -8.352 0.786 8.693 20.491
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 80.3595 1.5213 52.821 <2e-16 ***
## estado_civilsolt -0.8506 1.8749 -0.454 0.651
## estado_civilunlib 1.5753 2.8942 0.544 0.587
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.28 on 179 degrees of freedom
## Multiple R-squared: 0.004843, Adjusted R-squared: -0.006276
## F-statistic: 0.4356 on 2 and 179 DF, p-value: 0.6476
##
## Call:
## lm(formula = log(nota) ~ log(edad), data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.52448 -0.10468 0.02704 0.11386 0.23680
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.31884 0.19493 22.156 <2e-16 ***
## log(edad) 0.01487 0.05422 0.274 0.784
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1474 on 180 degrees of freedom
## Multiple R-squared: 0.0004175, Adjusted R-squared: -0.005136
## F-statistic: 0.07519 on 1 and 180 DF, p-value: 0.7842
Añadiendo más variables al modelo para mejorar la ecuación = disponer de una lectura mayor para comprender los datos.
##
## Call:
## lm(formula = nota ~ ., data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.573 -3.335 0.284 3.422 9.317
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 47.343174 5.713838 8.286 3.98e-14 ***
## genII 0.624140 1.723410 0.362 0.71770
## genIII -0.430602 1.600001 -0.269 0.78817
## genIV -0.184857 1.627891 -0.114 0.90973
## genIX 0.589286 1.713469 0.344 0.73135
## genV 2.109125 1.636697 1.289 0.19934
## genVI 1.144630 1.469027 0.779 0.43700
## genVII -0.424865 1.715811 -0.248 0.80474
## genVIII -0.288741 1.719666 -0.168 0.86686
## tiempo 0.004990 0.008299 0.601 0.54854
## edad -0.042947 0.052690 -0.815 0.41620
## sexoMujer 0.321696 0.772283 0.417 0.67755
## estado_civilsolt -0.227091 0.916349 -0.248 0.80458
## estado_civilunlib -1.742685 1.346704 -1.294 0.19747
## aprobacion1 5.744352 2.728726 2.105 0.03680 *
## experiencia NA NA NA NA
## preparacion1 17.365781 5.190232 3.346 0.00102 **
## preparacion2 28.627606 5.817612 4.921 2.08e-06 ***
## preparacion3 42.297763 5.863365 7.214 1.91e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.945 on 164 degrees of freedom
## Multiple R-squared: 0.8249, Adjusted R-squared: 0.8067
## F-statistic: 45.44 on 17 and 164 DF, p-value: < 2.2e-16
Se visualiza una relación ligeramente positiva entre el tiempo dedicado a la prueba y la nota, cuando x aumenta y aumenta.
Por cada minuto destinado a la prueba, la nota aumenta en 0.4 puntos.
El resultado no es estadísticamente representativo, por ende no podemos afirmar que dedicar más tiempo a la prueba asegura una mayor calificación.
Existen variables en el modelo que inciden sobre la nota obtenida en la prueba, como la aprobación, y la preparación.
Una preparación “alta”, supone un incremento en 42 puntos en la nota obtenida, siendo significativo con el 99.9% de certeza.
(1) | ||
---|---|---|
Est. | p | |
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001 | ||
(Intercept) | 74.866*** | <0.001 |
genII | 1.349 | 0.713 |
genIII | 0.752 | 0.830 |
genIV | -3.664 | 0.297 |
genIX | 7.391* | 0.045 |
genV | 8.960* | 0.012 |
genVI | 3.709 | 0.244 |
genVII | -2.186 | 0.550 |
genVIII | 4.697 | 0.210 |
sexoMujer | 1.289 | 0.446 |
edad | 0.047 | 0.669 |
tiempo | 0.005 | 0.788 |
Num.Obs. | 182 | |
R2 | 0.122 | |
RMSE | 10.51 | |
Std.Errors | IID |
La única variable que incide en las notas es la generación.
El hecho de pertenecer a la generación V brinda una probabilidad de tener una calificación 8.9 puntos en promedio y para la generación IX de 7.3, dicha afirmación es válida para el 95% de los casos analizados en este conjunto de datos.