Validación de datos

Orden de entrada de las variables

Se crea un data.frame de acuerdo al orden de importancia de las variables

Dependiendo del proceso, el DP2 adoptará diferentes valores. Por lo tanto, es importante que el método de como resultado un orden de entrada único de los indicadores parciales.

Variables_sort <- ind_2020$variables_sort
Variables sort
Ind_2020
SBASC
OVHAC
OVSINT
OVSREF
OVPT
OVSCEL
OVSDE
OVSAE
OVSEE
P6A14NAE
PSDSS

Coeficiente de correlación

El coeficiente de correlación es una medida que se utiliza para jerarquizar a los indicadores simples de acuerdo con el grado de correlación absoluta con respecto al indicador sintético resultante, es decir, ayuda a visualizar que variable tiene un mejor o peor apego con el fenómeno.

Se crea un data.frame de acuerdo a la correlación de cada variable con el indicador sintético (DP2)

cor.coeff <- ind_2020$cor.coeff
colnames(cor.coeff) <- c("cor.coeff")
Correlation Coefficient
Ind_2020 cor.coeff
P6A14NAE 0.473
SBASC 0.832
PSDSS 0.464
OVSDE 0.526
OVSEE 0.479
OVSAE 0.523
OVPT 0.730
OVHAC 0.796
OVSREF 0.756
OVSINT 0.783
OVSCEL 0.616

Factor de corrector

El factor corrector, como se mencionó anteriormente, indica la proporción de información con la que contribuye el indicador simple al nuevo índice sintético, además, evita la duplicidad e incorpora información útil que retiene cada indicador simple.

Se crea un data.frame de acuerdo al factor corrector de cada indicador parcial

correction_factors <- ind_2020$correction_factors %>% 
                       as.data.frame() %>%
                        rename("Correction Factor" = ".")
Correction Factors
Ind_2020 Correction Factor
SBASC 1.000
OVHAC 0.429
OVSINT 0.262
OVSREF 0.495
OVPT 0.598
OVSCEL 0.504
OVSDE 0.828
OVSAE 0.742
OVSEE 0.831
P6A14NAE 0.815
PSDSS 0.796

Coeficiente de Discriminación

El coeficiente de discriminación de Ivanovic mide el poder discriminante de la variable \(j\) en el conjunto de observaciones \(i\).

\[CD_{j}=\frac{2}{m\left(m-1\right)}\sum_{i,l>i}^{k_{j}}m_{ij}m_{lj}\left|\frac{x_{ij}-x_{lj}}{{\overline{X}}_{i}}\right|\]

donde:

\(\circ\:m_{ij}\): El número de observaciones de la variable \(x_{j}\)
\(\circ\:k_{j}\): El número de diferentes valores que toma \(x_{i}\) en el conjunto \(j\).

Esta medida está comprendida entre \([0, 2]\). Si una variable toma el mismo valor para todos los estados, el CD vale cero, indicando que posee un valor nulo de poder discriminante. Por el contrario, si una variable toma el valor teórico de máximo poder discriminante, el discriminante de la variable es total.

Se crea un data.frame de acuerdo al Coeficiente de discriminación (CD) de cada indicador parcial

discrimination_coefficient <- ind_2020$discrimination.coefficient %>% 
                               as.data.frame() %>%
                                rename("Discrimination Coefficient" = ".")
Discrimination Coefficient
Ind_2020 Discrimination Coefficient
P6A14NAE 0.676
SBASC 0.616
PSDSS 0.471
OVSDE 1.691
OVSEE 1.579
OVSAE 1.707
OVPT 1.374
OVHAC 0.633
OVSREF 1.143
OVSINT 0.665
OVSCEL 0.837

“Cantidad de Información Global de Ivanovic Pena Relativa Individual”

\[\alpha_{i}=\frac{CD_{i}\left(1-R^{2}_{i,i-1,...,1} \right)}{\sum_{i=1}^{n}CD_{i} \left(1-R^{2}_{i,i-1,...,1} \right)}\] Esta medida, comprendida entre 0 y 1, combina la información útil y el poder discriminante de cada indicador simple y mide la cantidad de información (combinada) relativa que aporta individualmente cada indicador simple, cuando entra de forma ordenada a formar parte del indicador sintético DP2. La suma de todos los valores de \(\alpha_{i}\) es la unidad. [Zarsosa 1996, págs 158-174]

alpha <- correction_factors * discrimination_coefficient/sum(correction_factors * discrimination_coefficient)
colnames(alpha) <- c("alpha")
Cantidad de Información Global de Ivanovic Pena Relativa Individual
Ind_2020 alpha
SBASC 0.090
OVHAC 0.035
OVSINT 0.017
OVSREF 0.112
OVPT 0.126
OVSCEL 0.115
OVSDE 0.152
OVSAE 0.063
OVSEE 0.127
P6A14NAE 0.073
PSDSS 0.089