🧩 5. Reducción de Dimensionalidad

Ejemplos: PCA (Análisis de Componentes Principales), t-SNE, UMAP.
Uso: Fundamental para visualizar datos de alta dimensión, haciéndolos más comprensibles. También es un paso clave de preprocesamiento para eliminar ruido o multicolinealidad antes de aplicar otros modelos.
Ventajas: Puede mejorar significativamente el rendimiento y la velocidad de otros algoritmos de machine learning.
Limitaciones: A veces se pierde la interpretabilidad de los datos originales y no siempre garantiza una mejora en el desempeño de los modelos.


Flexible Discriminant Analysis (FDA)

Flexible Discriminant Analysis (FDA) es un método de clasificación que generaliza el Análisis Discriminante Lineal (LDA) para manejar relaciones no lineales entre las variables predictoras y las clases. A diferencia de LDA, que asume límites de decisión lineales y distribuciones gaussianas con matrices de covarianza iguales, FDA es mucho más adaptable.

FDA logra esta flexibilidad al combinar dos conceptos: 1. Optimal Scoring: Transforma las variables de respuesta categóricas en valores numéricos (scores óptimos) de manera que las clases sean más fácilmente separables linealmente. 2. Modelos de Regresión No Paramétricos: En lugar de usar una regresión lineal simple (como en LDA), FDA utiliza métodos de regresión no paramétricos más flexibles, como las Multivariate Adaptive Regression Splines (MARS). Esto permite que la relación entre las variables transformadas y los scores óptimos sea no lineal, lo que a su vez se traduce en fronteras de decisión no lineales en el espacio original de los datos.

Es decir, FDA toma los datos, los transforma de una manera inteligente para que sean más fáciles de separar, y luego aplica una discriminación lineal en ese espacio transformado, lo que resulta en una frontera de decisión compleja y flexible en el espacio original.

En el contexto del aprendizaje global vs. local, FDA se considera un modelo que integra aspectos de ambos.

  • Aspecto Global: El objetivo final de FDA es encontrar una función discriminante global que separe las clases en el espacio transformado. Los scores óptimos y las funciones base del método de regresión (como MARS) se aprenden considerando la estructura general de los datos para lograr la mejor separación a nivel global. El modelo resultante es una función que se aplica de manera consistente a cualquier nueva observación.

  • Aspecto Local (debido al uso de modelos no paramétricos como MARS): La flexibilidad de FDA proviene de su uso de métodos como MARS, que dividen el espacio de las características en regiones locales y ajustan relaciones simples dentro de cada una. Esto permite que el modelo se adapte a no linealidades y a cambios en la relación entre las variables en diferentes partes del espacio de datos. Así, si los datos no se distribuyen linealmente, FDA puede construir fronteras de decisión que capturan esas complejidades al “localizar” las relaciones importantes.

Guía rápida para elegir FDA
Flexible Discriminant Analysis (FDA)
Criterio Aplica Detalles
Tipo de modelo ✅ Supervisado (clasificación) Extensión de LDA que permite relaciones no lineales entre predictores y clases mediante técnicas como splines o regresión flexible.
Variable respuesta ✅ Categórica (clases) Clasifica observaciones en clases categóricas basándose en predictores transformados.
Variables predictoras ✅ Numéricas (puede usar transformaciones) Admite variables numéricas, las cuales pueden ser transformadas de forma no lineal.
Relación entre variables ✅ No lineal (usa regresión flexible en el espacio transformado) Usa regresión no lineal flexible (como splines) para modelar relaciones complejas en el espacio de discriminación.
Normalidad de residuos ❌ No aplica (no es regresión de residuos) No genera residuos como regresión tradicional; es un modelo de clasificación.
Independencia de errores ❌ No aplica directamente No se enfoca en errores secuenciales o dependientes.
Homoscedasticidad ⚠️ FDA suaviza este supuesto al modelar relaciones no lineales Relaja la homocedasticidad al no asumir distribución gaussiana estricta.
Sensible a outliers ⚠️ Puede ser sensible a outliers, dependiendo del método de ajuste Puede verse afectado por valores extremos, según el método de suavizado.
Multicolinealidad entre predictores ⚠️ Puede mitigar multicolinealidad si se usa penalización La transformación flexible puede reducir colinealidad, pero no siempre la elimina.
Interpretabilidad ⚠️ Menos interpretable que LDA, pero permite mayor flexibilidad Los coeficientes y funciones discriminantes pueden ser difíciles de interpretar si se usan transformaciones complejas.
Velocidad y eficiencia ⚠️ Menor eficiencia que LDA por mayor complejidad computacional Mayor costo computacional que LDA, pero más potente en patrones no lineales.
Validación cruzada ✅ Validación cruzada útil para seleccionar transformaciones o suavizados Se recomienda CV para evaluar desempeño y evitar overfitting en el proceso de ajuste flexible.
No funciona bien si... ❌ En datos con pocos casos o ruido excesivo puede sobreajustarse Si los datos no requieren flexibilidad o el tamaño muestral es bajo, FDA puede ser innecesariamente complejo.
Fuente: Elaboración propia

Independent Component Analysis (ICA)

Kernel PCA (KPCA)

Linear Discriminant Analysis (LDA)

El Análisis Discriminante Lineal (LDA) es un método de clasificación y reducción de dimensionalidad utilizado para encontrar una combinación lineal de características que mejor separe dos o más clases de objetos o eventos. Su objetivo principal es modelar la diferencia entre las clases, lo que lo hace muy útil para tareas de clasificación supervisada.

LDA funciona proyectando los puntos de datos a un espacio de menor dimensión (generalmente una o pocas dimensiones) de tal manera que las clases estén lo más separadas posible. Para lograr esto, busca una dirección (un eje) que maximice la separación entre las medias de las clases (varianza entre clases) mientras minimiza la varianza dentro de cada clase (varianza intraclase). En un problema de clasificación binaria, esto significa encontrar la línea óptima para proyectar los datos de modo que las dos clases se superpongan lo menos posible.

A diferencia de modelos como la Regresión Logística, que buscan modelar la probabilidad de pertenencia a una clase, LDA modela directamente la distribución de los datos dentro de cada clase y luego utiliza el Teorema de Bayes para asignar una nueva observación a la clase más probable. LDA asume que las varianzas (o matrices de covarianza) de las clases son iguales y que los datos están distribuidos normalmente.

Aprendizaje Global vs. Local:

El Análisis Discriminante Lineal (LDA) es un modelo de aprendizaje puramente global.

  • Aspecto Global: LDA busca una única transformación lineal o un conjunto de direcciones (ejes) que se aplican a todos los datos para lograr la máxima separación entre las clases en un espacio de menor dimensión. La frontera de decisión que resulta de LDA es siempre lineal y se define globalmente a partir de las medias y las varianzas combinadas (asumidas como iguales) de todas las clases. El modelo es “fijo” y se aplica uniformemente a cualquier nueva observación, sin importar su ubicación específica en el espacio de características. No se ajustan modelos diferentes para distintos vecindarios de datos, sino que se aprende una regla de separación que es válida para todo el dominio.

Por lo tanto, si los datos no se distribuyen linealmente o las fronteras de decisión entre las clases son inherentemente no lineales (por ejemplo, si una clase rodea a otra), LDA puede no ser el método más adecuado. En esos escenarios, modelos de aprendizaje local o más flexibles (como los árboles de decisión, SVM con kernels no lineales, o FDA que extiende LDA para no linealidades) suelen ofrecer un mejor rendimiento.

Guía rápida para elegir LDA
Linear Discriminant Analysis (LDA)
Criterio Aplica Detalles
Tipo de modelo ✅ Supervisado (clasificación) Modelo supervisado clásico para clasificación que encuentra combinaciones lineales de predictores que separan clases.
Variable respuesta ✅ Categórica (clases) Requiere una variable categórica como objetivo, con dos o más clases.
Variables predictoras ✅ Numéricas (preferentemente) Mejor con predictores numéricos continuos; categóricos requieren codificación previa.
Relación entre variables ✅ Asume relaciones lineales entre variables y clases Calcula funciones discriminantes lineales que maximizan la separación entre clases.
Normalidad de residuos ✅ Supone normalidad multivariante de los predictores dentro de cada clase Cada grupo debe seguir una distribución normal multivariante para resultados óptimos.
Independencia de errores ✅ Supone independencia entre observaciones Las observaciones deben ser independientes para validez de inferencia.
Homoscedasticidad ✅ Asume varianza-covarianza igual entre clases (homocedasticidad) Supone igual matriz de covarianzas entre grupos; si no se cumple, usar QDA.
Sensible a outliers ⚠️ Sensible a valores atípicos Outliers influyen en la media y la varianza estimada, distorsionando fronteras.
Multicolinealidad entre predictores ⚠️ Puede verse afectado negativamente por alta colinealidad Multicolinealidad puede hacer que los coeficientes discriminantes sean inestables.
Interpretabilidad ✅ Alta, coeficientes discriminantes son interpretables Las funciones discriminantes se interpretan como direcciones de máxima separación.
Velocidad y eficiencia ✅ Muy eficiente computacionalmente Requiere bajo costo computacional y se entrena rápidamente.
Validación cruzada ✅ Se recomienda para evaluar estabilidad y evitar sobreajuste Se puede usar validación cruzada para elegir el número de componentes o verificar precisión.
No funciona bien si... ❌ Mal desempeño si no se cumplen supuestos de normalidad y homocedasticidad Cuando los datos no cumplen normalidad ni homocedasticidad, el modelo pierde precisión.
Fuente: Elaboración propia

Locally Linear Embedding (LLE)

Mixture Discriminant Analysis (MDA)

El Análisis Discriminante de Mezclas (MDA) es una extensión del Análisis Discriminante Lineal (LDA) y del Análisis Discriminante Cuadrático (QDA) que aborda la limitación de que estas técnicas asumen que cada clase proviene de una única distribución normal (o gaussiana). MDA relaja esta suposición al permitir que cada clase sea modelada como una mezcla de múltiples distribuciones gaussianas. Esto le otorga una capacidad significativamente mayor para manejar clases con formas complejas o multimodales, que no pueden ser descritas adecuadamente por una sola distribución normal.

MDA funciona de la siguiente manera:

  1. Modelado por Componentes de Mezcla: Para cada clase, MDA estima los parámetros (media y matriz de covarianza) de varias distribuciones gaussianas (“componentes de mezcla”) en lugar de solo una. Es similar al proceso de agrupamiento de mezclas gaussianas (Gaussian Mixture Models - GMM) aplicado dentro de cada clase.
  2. Asignación a la Clase: Una vez que se han modelado las distribuciones de mezcla para cada clase, para una nueva observación, MDA calcula la probabilidad de que esa observación pertenezca a cada componente de mezcla en cada clase. Luego, asigna la observación a la clase que maximiza la probabilidad posterior, es decir, la clase que es más probable que haya generado esa observación.
  3. Fronteras de Decisión Flexibles: Al modelar cada clase como una mezcla de gaussianas, MDA puede generar fronteras de decisión que son mucho más flexibles y no lineales que las de LDA (que son lineales) o QDA (que son cuadráticas). Esto le permite adaptarse a clases con estructuras complejas, que pueden tener “agrupaciones” internas o formas irregulares.

Los parámetros del modelo (las medias, covarianzas y pesos de los componentes de mezcla para cada clase) se suelen estimar utilizando un algoritmo iterativo como la Maximización de Expectativas (Expectation-Maximization - EM).

Aprendizaje Global vs. Local:

El Análisis Discriminante de Mezclas (MDA) se encuentra en un punto intermedio, inclinándose hacia un modelo que combina aspectos de aprendizaje global y local, con una mayor flexibilidad para capturar la estructura local de los datos en comparación con LDA o QDA.

  • Aspecto Global: Al igual que LDA, el objetivo final de MDA es crear un clasificador global que pueda asignar cualquier nueva observación a una de las clases. Las distribuciones de mezcla para cada clase se aprenden a partir de todo el conjunto de datos de entrenamiento para esas clases, y el clasificador resultante se aplica de manera consistente en todo el espacio de características. La regla de decisión final es una función que se deriva de las distribuciones aprendidas para todas las clases.

  • Aspecto Local: La “flexibilidad” de MDA y su capacidad para manejar no linealidades proviene de su suposición de que cada clase puede estar compuesta por múltiples componentes gaussianos. Esto significa que, dentro de una misma clase, puede haber sub-agrupaciones o densidades locales que son modeladas individualmente. Al permitir estas múltiples distribuciones gaussianas dentro de cada clase, MDA puede adaptarse mejor a las características y densidades de los datos en diferentes vecindarios o subregiones del espacio de características. Si los datos no se distribuyen linealmente y tienen formas complejas (como clusters separados dentro de una clase), MDA puede “localizar” y modelar estas estructuras, llevando a fronteras de decisión mucho más complejas y no lineales que se ajustan mejor a la forma real de las clases.

Guía rápida para elegir MDA
Mixture Discriminant Analysis (MDA)
Criterio Aplica Detalles
Tipo de modelo ✅ Supervisado (clasificación) Modelo supervisado de clasificación que combina regresión discriminante con mezclas gaussianas dentro de cada clase.
Variable respuesta ✅ Categórica (clases) Se usa para clasificar observaciones en grupos definidos por una variable categórica.
Variables predictoras ✅ Numéricas Requiere predictores numéricos para ajustar distribuciones normales multivariadas.
Relación entre variables ✅ No lineal (usa mezclas de gaussianas para modelar clases) Modela cada clase como una combinación de distribuciones gaussianas, permitiendo formas no lineales.
Normalidad de residuos ❌ No aplica como en regresión No hay residuos como en regresión, ya que se trata de una tarea de clasificación.
Independencia de errores ❌ No se evalúa como en regresión No evalúa independencia clásica de errores; se enfoca en estimar la densidad condicional.
Homoscedasticidad ⚠️ Supone varianza homogénea dentro de componentes, pero puede variar entre clases Permite varianza distinta entre componentes, pero se puede ajustar homogeneidad según implementación.
Sensible a outliers ⚠️ Puede ser sensible a outliers (afectan las medias y covarianzas) Outliers pueden afectar las medias y varianzas estimadas de las mezclas gaussianas.
Multicolinealidad entre predictores ⚠️ Puede verse afectado, aunque usa reducción dimensional La multicolinealidad puede dificultar la estimación de matrices de covarianza.
Interpretabilidad ⚠️ Moderadamente interpretable (depende de componentes gaussianos) Interpretar los componentes internos (medias y pesos) puede ser complejo, pero ofrece buena visualización.
Velocidad y eficiencia ⚠️ Más lento que LDA/QDA, pero más flexible Es más lento que LDA o QDA por su naturaleza iterativa y uso de EM (Expectation-Maximization).
Validación cruzada ✅ Recomendable para elegir número de componentes y evitar sobreajuste Se puede usar validación cruzada para seleccionar el número óptimo de mezclas por clase.
No funciona bien si... ❌ Mal desempeño si la distribución dentro de clases no es bien modelada por gaussianas Si las clases no se ajustan bien a combinaciones de gaussianas, el modelo pierde precisión.
Fuente: Elaboración propia

Multidimensional Scaling (MDS)

El Escalamiento Multidimensional (MDS) es una técnica de reducción de dimensionalidad utilizada para visualizar y explorar las similitudes o disimilitudes entre un conjunto de objetos. Su objetivo principal es tomar datos de alta dimensión, donde las relaciones entre los puntos pueden ser difíciles de entender, y representarlos en un espacio de menor dimensión (típicamente 2D o 3D) de tal manera que las distancias entre los puntos en el nuevo espacio reflejen lo más fielmente posible las distancias (o disimilitudes) originales entre los objetos.

Imagina que tienes una tabla de distancias de viaje entre varias ciudades. MDS intentaría dibujar un mapa de esas ciudades donde las distancias en el mapa se correspondieran lo más posible con las distancias de la tabla.

El proceso general de MDS implica:

  1. Matriz de Disimilitud: Se necesita una matriz que contenga las disimilitudes (distancias) entre cada par de objetos. Estas disimilitudes pueden ser distancias euclidianas, correlaciones, o cualquier otra medida de qué tan diferentes (o similares) son dos objetos.
  2. Optimización: El algoritmo busca una configuración de puntos en el espacio de menor dimensión que minimice una función de “estrés” o “ajuste”. Esta función mide qué tan bien las distancias en el espacio reducido se corresponden con las disimilitudes originales. Una función de estrés baja indica un buen ajuste.
  3. Visualización: Los puntos resultantes en el espacio de menor dimensión pueden ser graficados para revelar patrones, clusters o la estructura subyacente de los datos que no eran evidentes en las dimensiones originales.

Existen varias variantes de MDS, como el MDS Clásico (o Métrica), que asume que las disimilitudes son distancias euclidianas y busca una solución analítica, y el MDS No-Métrico, que solo busca preservar el orden de las disimilitudes (es decir, si A es más diferente de B que de C, esa relación se mantendrá en el espacio reducido, sin que las distancias exactas tengan que ser iguales).

Aprendizaje Global vs. Local:

El Escalamiento Multidimensional (MDS) se considera predominantemente una técnica de aprendizaje global.

  • Aspecto Global: MDS busca una configuración única de puntos en el espacio de baja dimensión que optimice el ajuste de todas las disimilitudes en el conjunto de datos de manera simultánea. La función de estrés que se minimiza considera las distancias entre todos los pares de puntos, buscando una solución que sea globalmente la mejor representación de esas relaciones. El objetivo es preservar la estructura general de las distancias en el conjunto de datos completo, no solo las relaciones en vecindarios específicos. La solución que se encuentra es una “vista aérea” o un “mapa” de las relaciones de todo el conjunto de datos.

Aunque las disimilitudes originales son “locales” en el sentido de que son medidas entre pares de puntos, la forma en que MDS utiliza todas estas medidas para construir un mapa coherente y de baja dimensión es un proceso global de optimización. No se ajustan modelos separados para diferentes subconjuntos de datos; en su lugar, se busca una representación unificada que capture la estructura general de similaridad/disimilitud de todos los datos. Por lo tanto, si los datos tienen una estructura global bien definida basada en distancias, MDS es una herramienta efectiva para revelar esa estructura.

Guía rápida para elegir MDS
Multidimensional Scaling (MDS)
Criterio Aplica Detalles
Tipo de modelo ❌ No supervisado (reducción de dimensionalidad) Método no supervisado que proyecta datos de alta dimensión en espacios de 2D o 3D preservando distancias entre puntos.
Variable respuesta ❌ No aplica (no hay variable respuesta) No busca predecir una variable, solo representar relaciones de cercanía entre observaciones.
Variables predictoras ✅ Numéricas (requiere matriz de distancias) Se basa en distancias euclidianas u otras métricas aplicadas a datos numéricos.
Relación entre variables ✅ No lineal en MDS no clásico; lineal en MDS clásico MDS clásico es lineal; el no clásico (por ejemplo metric o non-metric MDS) puede modelar relaciones no lineales.
Normalidad de residuos ❌ No aplica No se modelan residuos, por lo que no aplica la normalidad.
Independencia de errores ❌ No aplica No hay errores de predicción, por tanto no aplica este supuesto.
Homoscedasticidad ❌ No aplica No hay varianzas residuales, por lo que este supuesto tampoco aplica.
Sensible a outliers ⚠️ Sí, valores atípicos afectan distancias Valores extremos modifican distancias y distorsionan la representación espacial.
Multicolinealidad entre predictores ⚠️ No afecta directamente (no hay predictores) Al no haber regresores, la multicolinealidad no es un problema.
Interpretabilidad ⚠️ Interpretación visual en 2D o 3D, no en ejes significativos El mapa generado se interpreta por proximidad relativa, no por pesos o coeficientes.
Velocidad y eficiencia ❌ Lento si se usan distancias complejas o muchos puntos Puede ser costoso computacionalmente si hay muchos puntos o si se optimiza la función de estrés.
Validación cruzada ⚠️ Validación mediante 'stress' y visualización Se evalúa qué tan bien se preservan las distancias originales con la métrica de estrés o visualmente.
No funciona bien si... ❌ Mal desempeño con datos sin estructura o ruido elevado No funciona bien si los datos no tienen estructura clara, están muy dispersos o contienen ruido irrelevante.
Fuente: Elaboración propia

Quadratic Discriminant Analysis (QDA)

El Análisis Discriminante Cuadrático (QDA) es un método de clasificación que, al igual que el Análisis Discriminante Lineal (LDA), modela la distribución de cada clase para clasificar nuevas observaciones. Sin embargo, QDA es una extensión de LDA que relaja una de sus suposiciones clave: mientras que LDA asume que todas las clases comparten la misma matriz de covarianza (es decir, las distribuciones tienen la misma “forma” o “orientación”), QDA permite que cada clase tenga su propia matriz de covarianza distinta.

Esta diferencia es fundamental:
* LDA: Asume que la variación de los datos es la misma en todas las clases, lo que resulta en fronteras de decisión lineales entre las clases.
* QDA: Permite que la variación de los datos sea diferente para cada clase, lo que resulta en fronteras de decisión cuadráticas entre las clases. Esto significa que las fronteras de decisión pueden ser curvas (elipsoides, parábolas, hipérbolas), lo que permite a QDA modelar relaciones más complejas y no lineales entre las variables y las clases.

El funcionamiento de QDA implica:
1. Modelado de Distribuciones: Para cada clase, QDA estima la media y la matriz de covarianza específicas de esa clase, asumiendo una distribución normal multivariada.
2. Clasificación: Para una nueva observación, QDA calcula la probabilidad de que esa observación provenga de cada clase, utilizando las distribuciones normales modeladas para cada clase. Luego, asigna la observación a la clase con la probabilidad posterior más alta (aplicando el Teorema de Bayes).

Aprendizaje Global vs. Local:

El Análisis Discriminante Cuadrático (QDA) es, al igual que LDA, un modelo de aprendizaje global.

  • Aspecto Global: QDA construye un clasificador global basado en las distribuciones de probabilidad aprendidas para cada clase. Las medias y las matrices de covarianza se estiman a partir de todo el conjunto de datos de entrenamiento para cada clase, y estos parámetros definen una función discriminante que se aplica de manera uniforme a cualquier nueva observación en el espacio de características. La frontera de decisión, aunque cuadrática y no lineal, es una única función matemática definida a nivel global por los parámetros del modelo. No se ajustan modelos separados para diferentes vecindarios de datos.

  • Mayor Flexibilidad Globalmente: Aunque sigue siendo un modelo global, la capacidad de QDA para tener matrices de covarianza separadas para cada clase le otorga una mayor flexibilidad para adaptarse a formas de clase más diversas en comparación con LDA. Esto significa que QDA puede modelar situaciones donde las clases tienen diferentes orientaciones o dispersiones en el espacio de características, lo que resulta en fronteras de decisión que pueden capturar ciertas no linealidades de manera global. Sin embargo, sigue asumiendo distribuciones gaussianas para cada clase y una forma cuadrática para las fronteras, lo que puede ser una limitación si la verdadera complejidad de los datos es aún mayor o no se ajusta a estas suposiciones.

Guía rápida para elegir QDA
Quadratic Discriminant Analysis (QDA)
Criterio Aplica Detalles
Tipo de modelo ✅ Supervisado (clasificación) Modelo supervisado de clasificación que permite que cada clase tenga su propia matriz de covarianza.
Variable respuesta ✅ Categórica (clases) Se utiliza para predecir a qué clase pertenece una observación con base en sus características.
Variables predictoras ✅ Numéricas Requiere predictores numéricos continuos, ya que calcula medias y covarianzas.
Relación entre variables ✅ Modela separación cuadrática entre clases A diferencia de LDA, permite fronteras no lineales al no asumir varianzas iguales entre clases.
Normalidad de residuos ❌ No aplica (clasificación, no regresión) No tiene residuos como en regresión, por lo que el supuesto de normalidad de errores no aplica.
Independencia de errores ❌ No aplica (se asume independencia dentro de clases) No aplica el supuesto de independencia de errores; se enfoca en la distribución conjunta por clase.
Homoscedasticidad ❌ No se asume homoscedasticidad (cada clase tiene su propia matriz de covarianza) Cada clase tiene su propia varianza y covarianza, lo que lo hace más flexible que LDA.
Sensible a outliers ⚠️ Puede ser muy sensible a outliers (afectan las matrices de covarianza) Valores extremos pueden distorsionar la estimación de medias y covarianzas de cada clase.
Multicolinealidad entre predictores ⚠️ Puede verse afectado, especialmente si hay pocos datos Multicolinealidad puede dificultar la inversión de la matriz de covarianza en clases pequeñas.
Interpretabilidad ✅ Relativamente interpretable (fronteras no lineales entre clases) Los coeficientes y decisiones son interpretables en términos de separaciones estadísticas entre clases.
Velocidad y eficiencia ⚠️ Más costoso que LDA; ineficiente con pocos datos o muchas variables Más lento y costoso computacionalmente que LDA, especialmente con muchas variables.
Validación cruzada ✅ Recomendado para evitar overfitting, especialmente con pocos datos La validación cruzada ayuda a prevenir sobreajuste y a seleccionar características relevantes.
No funciona bien si... ❌ Si hay pocos datos por clase, estimar matrices de covarianza es inestable Con clases poco representadas o muchas variables, las matrices de covarianza pueden volverse inestables.
Fuente: Elaboración propia

Partial Least Squares Regression (PLSR)

Partial Least Squares Regression (PLSR) es una técnica de regresión multivariada que combina características de la regresión por mínimos cuadrados ordinarios (OLS) y el análisis de componentes principales (PCA). Se utiliza para modelar la relación entre un conjunto de variables predictoras (X) y uno o más conjuntos de variables de respuesta (Y), siendo particularmente útil en situaciones donde hay un gran número de variables predictoras, multicolinealidad (altas correlaciones entre las variables predictoras), o cuando el número de predictoras excede el número de observaciones.

La idea fundamental de PLSR es encontrar un conjunto de componentes latentes (también conocidos como “factores” o “variables latentes”) tanto en el espacio de las variables X como en el de las variables Y. Estos componentes se construyen de tal manera que maximizan la covarianza entre las variables predictoras y las variables de respuesta. A diferencia de PCA, que solo busca componentes que expliquen la máxima varianza en X, PLSR busca componentes que sean relevantes para explicar la varianza en X y que también estén altamente correlacionados con Y. Una vez que se extraen estos componentes, se realiza una regresión de mínimos cuadrados ordinarios de Y sobre estos componentes latentes.

El proceso general de PLSR implica:

  1. Extracción de Componentes Latentes: PLSR construye iterativamente un conjunto de componentes latentes. En cada paso:
    • Identifica una combinación lineal de las variables X (un componente de X) y una combinación lineal de las variables Y (un componente de Y) que tienen la mayor covarianza entre sí.
    • Estos componentes representan las direcciones en el espacio de datos que explican la mayor cantidad de la relación entre X y Y.
    • Una vez que se extrae un componente, la varianza explicada por ese componente se “deflacta” (se elimina) de las matrices X e Y, y el proceso se repite con los residuos para encontrar el siguiente componente ortogonal.
  2. Regresión: Una vez que se ha determinado el número óptimo de componentes latentes (a menudo a través de validación cruzada), se realiza una regresión lineal estándar de las variables Y sobre estos componentes latentes de X.

Ventajas clave de PLSR:

  • Manejo de Multicolinealidad: Es muy efectivo en la reducción de dimensionalidad y el manejo de predictoras altamente correlacionadas, donde la regresión OLS fallaría o produciría estimaciones inestables.
  • Manejo de Datos de Alta Dimensionalidad: Funciona bien cuando el número de variables predictoras es mayor que el número de observaciones.
  • Enfoque Predictivo: Se centra en desarrollar modelos con una fuerte capacidad predictiva.

Aprendizaje Global vs. Local:

La Regresión por Mínimos Cuadrados Parciales (PLSR) se considera un modelo de aprendizaje global.

  • Aspecto Global: PLSR construye un modelo lineal global que relaciona las variables predictoras con la variable de respuesta a través de sus componentes latentes. Los componentes PLS se derivan de la estructura de covarianza de todas las variables (tanto predictoras como de respuesta) en el conjunto de datos completo, y el modelo de regresión final se ajusta sobre estos componentes, generando una ecuación que se aplica de manera consistente a cualquier nueva observación. No se ajustan modelos separados para diferentes vecindarios de datos; en cambio, se busca una transformación global de los datos que facilite la predicción.

Si bien PLSR no es un método de regresión ponderada localmente como LOESS (que ajusta modelos simples a subconjuntos locales de datos), comparte con ellos el objetivo de modelar relaciones complejas. Sin embargo, lo hace de una manera diferente. En lugar de dividir el espacio de características y aplicar modelos locales, PLSR transforma el espacio de características de forma global para encontrar una representación de menor dimensionalidad que sea óptima para la predicción. Cuando los datos no se distribuyen linealmente, PLSR puede no ser la herramienta más adecuada en su forma lineal básica, ya que sigue siendo una técnica lineal. Sin embargo, al encontrar las direcciones más relevantes en el espacio de los datos, puede capturar aspectos importantes de la estructura de los datos que son útiles incluso si la relación subyacente es no lineal. Para manejar la no linealidad explícitamente, existen extensiones como Nonlinear Partial Least Squares (NPLS) o Kernel PLS (KPLS), que introducen funciones kernel para mapear los datos a un espacio de características de mayor dimensión donde la relación podría ser linealmente modelable por PLS.

Guía rápida para elegir PLSR
Partial Least Squares Regression (PLSR)
Criterio Aplica Detalles
Tipo de modelo ⚠️ Supervisado (regresión y clasificación con adaptación) Modelo que proyecta predictores y respuesta a espacios latentes para maximizar covarianza.
Variable respuesta ✅ Continua (regresión) o Categórica (clasificación si se transforma) PLSR encuentra componentes que explican varianza en X y covarianza con Y.
Variables predictoras ✅ Numéricas (requiere escalado), categóricas como dummies Todas las variables numéricas deben escalarse; convertir categóricas en indicadores.
Relación entre variables ✅ Captura relaciones lineales y reduce dimensiones simultáneamente Combina reducción de dimensión (PCA-like) con regresión en componentes latentes.
Normalidad de residuos ❌ No requiere estrictamente, pero mejora con residuos normales No impone supuestos estrictos, pero residuos normales facilitan inferencia estadística.
Independencia de errores ✅ Deseable, aunque no crítico Mejor si muestras son independientes; RLSR en datos correlacionados requiere cuidado.
Homoscedasticidad ✅ Deseable para homogeneizar varianza tras escalado Escalar y homogeneizar predictores e incluso respuesta mejora la estabilidad.
Sensible a outliers ⚠️ Moderado (outliers pueden influir en componentes latentes) Outliers extremos pueden distorsionar cálculo de componentes; usar robust PLSR para mitigarlo.
Multicolinealidad entre predictores ✅ Diseñado para alta colinealidad entre predictores PLSR maneja colinealidad al construir pocas componentes que representan grupos de variables correlacionadas.
Interpretabilidad ⚠️ Media (componentes latentes son interpretables, pero relaciones pueden ser complejas) Componentes latentes tienen pesos interpretables, pero interpretar combinaciones puede ser complejo.
Velocidad y eficiencia ⚠️ Moderada (depende de número de componentes y tamaño del dataset) El método usa descomposición de matrices; eficiente con BLAS/LAPACK optimizado.
Validación cruzada ✅ Usar k-fold para elegir número de componentes óptimos Validación cruzada ayuda a determinar el número óptimo de componentes latentes a usar.
No funciona bien si... ❌ No funciona bien si relaciones son muy no lineales o datos muy ruidosos sin preprocesar No es adecuado para relaciones puramente no lineales; en ese caso usar Kernel PLSR o métodos no lineales.
Fuente: Elaboración propia

Partial Least Squares Discriminant Analysis (PLSDA)

El Análisis Discriminante de Mínimos Cuadrados Parciales (PLSDA) es una extensión del algoritmo de Regresión por Mínimos Cuadrados Parciales (PLSR), adaptada para problemas de clasificación. Al igual que PLSR, PLSDA es particularmente útil cuando se tienen muchas variables predictoras (X) y estas están altamente correlacionadas (multicolinealidad), situaciones comunes en campos como la metabolómica, la proteómica o la espectroscopia.

En esencia, PLSDA transforma un problema de clasificación en un problema de regresión. Esto se logra de la siguiente manera:

  1. Codificación de la Variable de Clase: La variable de respuesta categórica (la clase a la que pertenece una observación) se transforma en una o más variables numéricas. Por ejemplo, en un problema de clasificación binaria, una clase puede codificarse como ‘0’ y la otra como ‘1’. Para múltiples clases, se puede usar una codificación “one-hot encoding” (ej., [1,0,0] para Clase A, [0,1,0] para Clase B, etc.).
  2. Extracción de Componentes Latentes: Similar a PLSR, PLSDA construye componentes latentes (factores PLS) que son combinaciones lineales de las variables predictoras. Estos componentes se eligen para maximizar la covarianza entre las variables predictoras y las variables de respuesta codificadas. Esto asegura que los componentes capturen la varianza en X que es relevante para la separación de clases en Y.
  3. Clasificación: Una vez que se han obtenido los componentes PLS y se ha realizado la regresión sobre ellos para predecir los valores codificados de la clase, se aplica una regla de decisión (por ejemplo, un umbral o un clasificador lineal simple) a las predicciones para asignar cada observación a una clase. Si se usa codificación one-hot, la observación se asigna a la clase con el valor predicho más alto.

PLSDA es ventajoso porque puede manejar conjuntos de datos con muchas más variables que observaciones (problemas \(p \gg n\)), y es robusto a la multicolinealidad.

Aprendizaje Global vs. Local:

El Análisis Discriminante de Mínimos Cuadrados Parciales (PLSDA) es un modelo de aprendizaje global.

  • Aspecto Global: PLSDA busca una transformación lineal global de las variables predictoras a componentes latentes, y luego una relación lineal global entre esos componentes y la variable de respuesta codificada (clase). Los componentes PLS se derivan de la estructura de covarianza de todo el conjunto de datos, y el modelo de regresión final (que se usa para la clasificación) se aplica de manera consistente a cualquier nueva observación. La frontera de decisión implícita en PLSDA es típicamente lineal en el espacio de los componentes PLS (y por lo tanto lineal o una combinación lineal de las variables originales), lo que resulta en un clasificador que opera globalmente en el espacio de características.

  • Enfoque en la Relevancia Global: Aunque reduce la dimensionalidad y selecciona componentes que son relevantes para la respuesta, la solución final es un mapeo y una regla de decisión que son válidos para todo el dominio de los datos. No ajusta modelos locales para diferentes regiones del espacio de características. Por lo tanto, PLSDA es una técnica eficiente para encontrar patrones globales de separación de clases en presencia de alta dimensionalidad y multicolinealidad, pero si las relaciones entre las variables y las clases son inherentemente no lineales o tienen estructuras muy complejas que no pueden ser capturadas por una transformación lineal, su capacidad puede ser limitada.

Guía rápida para elegir PLSDA
Partial Least Squares Discriminant Analysis (PLSDA)
Criterio Aplica Detalles
Tipo de modelo ✅ Supervisado (clasificación) Modelo supervisado de clasificación basado en PLS (Partial Least Squares) que proyecta los datos para maximizar la separación entre clases.
Variable respuesta ✅ Categórica (binaria o multicategoría) Se requiere que la variable dependiente sea categórica. PLS-DA funciona bien con 2 o más clases.
Variables predictoras ✅ Numéricas (se proyectan a componentes) Las variables predictoras deben ser numéricas para que el modelo pueda proyectarlas en componentes latentes.
Relación entre variables ✅ Captura relaciones lineales y no lineales a través de proyecciones El modelo encuentra combinaciones de predictores que mejor separan las clases en el espacio proyectado.
Normalidad de residuos ❌ No aplica directamente (modelo de clasificación) No se evalúa normalidad de residuos como en modelos de regresión; la salida es de clasificación.
Independencia de errores ❌ No aplica como en regresión clásica Tampoco aplica la independencia clásica de errores ya que se clasifican observaciones.
Homoscedasticidad ❌ No se evalúa como en modelos de regresión El supuesto de homoscedasticidad no es relevante aquí.
Sensible a outliers ⚠️ Algo sensible a outliers (pueden influir en componentes) Outliers pueden afectar la construcción de componentes, distorsionando la separación de clases.
Multicolinealidad entre predictores ✅ Muy útil si hay multicolinealidad PLS-DA es útil cuando los predictores están altamente correlacionados, ya que crea componentes ortogonales.
Interpretabilidad ⚠️ Menos interpretable que modelos clásicos; depende de componentes Los componentes no son directamente interpretables como las variables originales, aunque se pueden analizar los pesos de carga.
Velocidad y eficiencia ✅ Eficiente, especialmente con datos de alta dimensión Es un algoritmo relativamente eficiente, especialmente para conjuntos con muchas variables.
Validación cruzada ✅ Se recomienda usar validación cruzada para elegir el número de componentes La validación cruzada es crítica para seleccionar el número óptimo de componentes y evitar overfitting.
No funciona bien si... ❌ Si las proyecciones no separan bien las clases o hay mucho ruido No funciona bien si las clases no están bien separadas en el espacio proyectado o si hay demasiado ruido en los datos.
Fuente: Elaboración propia

Principal Component Analysis (PCA)

El Análisis de Componentes Principales (PCA) es una técnica fundamental de reducción de dimensionalidad no supervisada. Su objetivo principal es simplificar conjuntos de datos complejos con muchas variables, transformándolos en un conjunto más pequeño de nuevas variables, llamadas componentes principales, sin perder demasiada información. Estos componentes principales son combinaciones lineales de las variables originales y son ortogonales (no correlacionados) entre sí.

PCA funciona identificando las direcciones en el espacio de datos donde la varianza es máxima. La primera componente principal (PC1) captura la mayor cantidad de varianza posible en los datos. La segunda componente principal (PC2) captura la mayor varianza restante, sujeta a ser ortogonal a la primera, y así sucesivamente. De esta manera, PCA organiza la varianza en los datos en un conjunto jerárquico de componentes.

Los usos comunes de PCA incluyen: * Reducción de dimensionalidad: Disminuir el número de variables en un dataset, lo que puede acelerar los algoritmos de Machine Learning y reducir el riesgo de sobreajuste. * Visualización de datos: Proyectar datos de alta dimensión en 2D o 3D para facilitar su visualización y la identificación de patrones, clusters o outliers. * Denoising: Eliminar el ruido de los datos al retener solo los componentes principales que capturan la señal real.

Aprendizaje Global vs. Local:

El Análisis de Componentes Principales (PCA) es un modelo de aprendizaje puramente global.

  • Aspecto Global: PCA busca una transformación lineal global del espacio de características. Los componentes principales se derivan de la matriz de covarianza (o correlación) de todo el conjunto de datos. Esto significa que las direcciones de máxima varianza se determinan considerando la estructura de dispersión general de todos los puntos de datos. El conjunto de componentes principales que se obtiene es un sistema de coordenadas global al que se proyecta cualquier punto de datos. No se ajustan diferentes transformaciones para distintas regiones o vecindarios de datos; en su lugar, se aprende una única proyección que se aplica uniformemente a todo el dominio.

Por lo tanto, si la estructura de los datos es consistentemente lineal o tiene relaciones de varianza que se extienden linealmente a lo largo del espacio, PCA funcionará muy bien. Sin embargo, si los datos tienen estructuras no lineales complejas (por ejemplo, datos que forman una espiral o una esfera), PCA puede tener limitaciones para capturar estas relaciones, ya que solo busca direcciones lineales de máxima varianza.

Guía rápida para elegir PCA
Principal Component Analysis (PCA)
Criterio Aplica Detalles
Tipo de modelo ⚠️ No supervisado (reducción de dimensiones) Método no supervisado para reducir la dimensión del espacio de predictores.
Variable respuesta ❌ No aplica (no hay target a predecir) No predice variables, se centra en variabilidad interna de los datos.
Variables predictoras ✅ Numéricas (requiere escalado), categóricas procesadas como dummies Todas las variables numéricas deben escalarse; las categóricas convertir a variables indicadoras.
Relación entre variables ✅ Captura correlaciones lineales entre predictores Busca direcciones (componentes) que maximizan varianza lineal entre predictores.
Normalidad de residuos ❌ No requiere supuestos de distribución en residuos No impone supuestos sobre errores; se basa en descomposición de la matriz de covarianza.
Independencia de errores ⚠️ Ideal si las observaciones son independientes, aunque no crítico Mejor si las muestras no están correlacionadas en el tiempo o espacialmente.
Homoscedasticidad ✅ Deseable (datos homogenizados tras escalado) Escalar y homogeneizar mejora el cálculo de componentes principales.
Sensible a outliers ⚠️ Moderado (outliers pueden distorsionar componentes principales) Outliers extremos pueden sesgar la dirección de los componentes principales.
Multicolinealidad entre predictores ✅ Sensible a colinealidad (reduce variables correlacionadas a componentes) Reduce colinealidad al combinar variables correlacionadas en componentes ortogonales.
Interpretabilidad ⚠️ Media (componentes lineales son interpretables, pero combinaciones pueden no serlo) Componentes iniciales pueden interpretarse mediante pesos, pero componentes posteriores son combinaciones lineales complejas.
Velocidad y eficiencia ✅ Rápido en datasets medianos; escalable con álgebra lineal optimizada Computación depende de descomposición de matrices (SVD), es eficiente con optimización BLAS.
Validación cruzada ⚠️ No se aplica CV clásico; se puede usar reconstrucción de error o validación por bloques Se puede evaluar número óptimo de componentes con validación de reconstrucción o bootstrap de SVD.
No funciona bien si... ❌ No funciona bien si las relaciones son no lineales o datos muy ruidosos sin preprocesar No apto para relaciones no lineales complejas; en tal caso usar Kernel PCA o métodos no lineales.
Fuente: Elaboración propia

Principal Component Regression (PCR)

La Regresión de Componentes Principales (PCR) es un método de regresión que combina el Análisis de Componentes Principales (PCA) con la Regresión por Mínimos Cuadrados Ordinarios (OLS). Su principal utilidad radica en situaciones donde se tienen muchas variables predictoras (X) y existe una alta multicolinealidad (fuerte correlación entre ellas), lo que puede hacer que los modelos de regresión OLS sean inestables o ineficientes.

El proceso de PCR consta de dos pasos principales:

  1. Reducción de Dimensionalidad con PCA: Primero, se aplica PCA a las variables predictoras (X) para transformarlas en un conjunto más pequeño de componentes principales. Estos componentes son combinaciones lineales no correlacionadas de las variables originales y capturan la mayor parte de la varianza en las variables X. Se selecciona un subconjunto de estos componentes principales (aquellos que explican la mayor parte de la varianza total) para retener. Es importante destacar que, en este paso, PCA no tiene conocimiento de la variable de respuesta (Y); solo se enfoca en la estructura de las variables X.
  2. Regresión OLS sobre Componentes: Una vez que se han obtenido los componentes principales seleccionados, se realiza una regresión lineal estándar (OLS) de la variable de respuesta (Y) sobre estos componentes. Como los componentes principales son ortogonales, la multicolinealidad ya no es un problema en este paso de regresión.

El beneficio de PCR es que permite construir un modelo de regresión en escenarios con multicolinealidad severa, reduciendo el número de variables a un conjunto más manejable y estable, mientras se intenta preservar la mayor cantidad de información de las variables predictoras.

Aprendizaje Global vs. Local:

La Regresión de Componentes Principales (PCR) es un modelo de aprendizaje global.

  • Aspecto Global: Ambos pasos de PCR son intrínsecamente globales.
    1. PCA (Paso Global): Como se mencionó anteriormente, PCA es una técnica global que encuentra una transformación lineal de los datos que se aplica de manera uniforme a todo el espacio de características. Los componentes principales se derivan de la estructura de varianza global de las variables predictoras.
    2. OLS (Paso Global): La regresión realizada sobre los componentes principales es un modelo OLS estándar, que también es una técnica global. Busca una única relación lineal que se aplica a todos los datos transformados.

En conjunto, PCR construye una función de regresión global que mapea el espacio de características original (transformado a componentes principales) a la variable de respuesta. La solución resultante es una ecuación que se aplica de manera consistente para todas las observaciones, sin ajustar modelos diferentes para subconjuntos locales de datos. Esto significa que si la relación entre las variables predictoras y la respuesta es no lineal o cambia drásticamente en diferentes regiones del espacio de características, PCR podría no ser la opción más flexible, ya que se basa en transformaciones y regresiones lineales globales.

Guía rápida para elegir PCR
Principal Component Regression (PCR)
Criterio Aplica Detalles
Tipo de modelo ✅ Supervisado (combinación de PCA + regresión) Modelo supervisado que aplica PCA a los predictores y luego ajusta una regresión lineal sobre los componentes principales seleccionados.
Variable respuesta ✅ Variable continua (numérica) Se requiere que la variable dependiente sea numérica (continua).
Variables predictoras ✅ Numéricas (se aplica PCA primero) Se espera que los predictores sean numéricos para aplicar PCA adecuadamente.
Relación entre variables ✅ Puede capturar relaciones lineales (con reducción de dimensionalidad) PCR puede detectar relaciones lineales al reducir la dimensionalidad primero y luego ajustar la regresión.
Normalidad de residuos ⚠️ Requiere verificar residuos del modelo final Aunque el PCA es no supervisado, los residuos de la regresión deben ser normales para cumplir los supuestos de OLS.
Independencia de errores ⚠️ Se deben revisar los residuos como en regresión clásica Es necesario revisar la independencia de errores como en cualquier regresión lineal.
Homoscedasticidad ⚠️ Requiere diagnóstico posterior a la regresión También deben analizarse posibles problemas de heterocedasticidad en los residuos.
Sensible a outliers ⚠️ PCA puede estar influenciada por outliers Outliers pueden influir en los componentes principales y, por lo tanto, en el modelo final.
Multicolinealidad entre predictores ✅ Reduce multicolinealidad usando componentes ortogonales PCR es muy útil cuando los predictores están altamente correlacionados.
Interpretabilidad ⚠️ Menos interpretable (usa componentes, no variables originales) Interpretar los resultados puede ser difícil porque las componentes no corresponden a variables originales.
Velocidad y eficiencia ✅ Eficiente, especialmente con datos de alta dimensión El proceso es rápido incluso con muchos predictores, ya que PCA reduce la dimensión.
Validación cruzada ✅ Puede usar validación cruzada para elegir número de componentes Usualmente se usa validación cruzada para determinar cuántas componentes usar.
No funciona bien si... ❌ Si las primeras componentes no explican bien la variable respuesta No es efectivo si los primeros componentes (con mayor varianza) no están relacionados con la variable dependiente.
Fuente: Elaboración propia

Projection Pursuit (PP)

Projection Pursuit (PP) es una técnica estadística de reducción de dimensionalidad y análisis exploratorio de datos utilizada para encontrar las proyecciones “más interesantes” de datos multivariados de alta dimensión en un espacio de menor dimensión (generalmente 1D o 2D). La clave de PP es que las proyecciones “interesantes” son aquellas que se desvían más de una distribución normal (gaussiana), ya que las estructuras como agrupaciones, valores atípicos, o formas inusuales tienden a ser más evidentes en proyecciones no gaussianas.

El algoritmo de PP no busca simplemente la mayor varianza (como PCA), sino que intenta encontrar direcciones de proyección que revelen la estructura subyacente y las características no lineales de los datos. Lo hace maximizando un “índice de proyección” que mide la “interesante” o la “no-gaussianidad” de la proyección. Diferentes índices pueden enfocarse en diferentes aspectos, como la asimetría, la curtosis, o la presencia de múltiples modos (grupos).

Existen variantes de PP para diferentes propósitos, como: * Exploratory Projection Pursuit (EPP): Para visualización y detección de estructuras. * Projection Pursuit Regression (PPR): Para construir modelos de regresión no lineales. * Projection Pursuit Classification (PPC): Para tareas de clasificación.

Aprendizaje Global vs. Local:

Projection Pursuit (PP) se puede considerar como un modelo que combina aspectos de aprendizaje global y local, con un fuerte énfasis en la detección de características locales en un contexto global.

  • Aspecto Global: PP busca una transformación lineal global (la dirección de proyección) que se aplica a todo el conjunto de datos para encontrar las proyecciones “más interesantes”. La optimización del índice de proyección se realiza sobre todo el espacio de características para identificar estas direcciones. Las funciones resultantes (como en PPR o PPC) son combinaciones de funciones no lineales aplicadas a estas proyecciones globales.

  • Aspecto Local (al revelar estructuras): Donde PP exhibe un carácter “local” es en su capacidad para resaltar estructuras que son intrínsecamente locales (como clusters o valores atípicos) que podrían estar ocultas en las altas dimensiones o en proyecciones puramente globales (como PCA). Al buscar desviaciones de la normalidad, PP es capaz de “perseguir” (de ahí “pursuit”) las direcciones que exponen agrupaciones densas o huecos en los datos, que son fenómenos locales. La idea es que si los datos no se distribuyen linealmente o tienen estructuras complejas, PP puede encontrar proyecciones donde la “densidad” o “forma” local de los datos es más informativa, permitiendo al usuario o a un algoritmo posterior identificar estas estructuras que son una forma de “regresión ponderada localmente” o un análisis local de patrones.

En resumen, PP es una técnica potente para explorar la estructura de datos de alta dimensión, especialmente cuando las relaciones son no lineales o complejas. Si bien el proceso de búsqueda de proyecciones es global, el “interés” de estas proyecciones a menudo radica en su capacidad para revelar características locales y no gaussianas que son cruciales para entender los datos.

Guía rápida para elegir PP
Projection Pursuit (PP)
Criterio Aplica Detalles
Tipo de modelo ❌ No supervisado (reducción de dimensionalidad) Método no supervisado que busca proyecciones de los datos donde se maximice cierta 'interesantitud' (varianza no gaussiana, agrupamientos, etc.).
Variable respuesta ❌ No aplica (no hay variable respuesta) No está diseñado para predicción, sino para exploración visual o estructural.
Variables predictoras ✅ Numéricas (requiere matriz de datos) Se aplica a datos numéricos, generalmente estandarizados, buscando direcciones relevantes.
Relación entre variables ✅ Detecta proyecciones no lineales con estructura interesante A diferencia del PCA (que busca máxima varianza), PP busca patrones como colas pesadas, clusters, o distribuciones no normales.
Normalidad de residuos ❌ No aplica No es un modelo predictivo, por tanto no se calculan residuos.
Independencia de errores ❌ No aplica No se modela el error; se enfoca en la estructura interna de los datos.
Homoscedasticidad ❌ No aplica No tiene varianzas residuales, por lo que no aplica homoscedasticidad.
Sensible a outliers ⚠️ Puede ser sensible a valores extremos Proyecciones pueden verse distorsionadas por valores extremos.
Multicolinealidad entre predictores ⚠️ Puede verse afectado si hay alta redundancia Variables muy correlacionadas pueden dominar las proyecciones si no se controlan.
Interpretabilidad ⚠️ Interpretación más difícil que PCA; proyecciones no son ortogonales Proyecciones son difíciles de interpretar directamente; pueden requerir análisis posterior.
Velocidad y eficiencia ❌ Puede ser lento por búsqueda iterativa de proyecciones Requiere métodos numéricos iterativos para encontrar direcciones de interés, lo que lo vuelve computacionalmente intensivo.
Validación cruzada ⚠️ Validación subjetiva o basada en heurísticas de interés Puede usarse validación visual (por ejemplo, si se detectan agrupamientos) o criterios como 'kurtosis'.
No funciona bien si... ❌ No útil si no hay estructuras no gaussianas en los datos Si los datos son gaussianos y no contienen patrones relevantes, PP no encuentra proyecciones útiles.
Fuente: Elaboración propia

Sammon Mapping

Sammon Mapping es una técnica de reducción de dimensionalidad no lineal que se utiliza para visualizar datos de alta dimensión en un espacio de menor dimensión (generalmente 2D o 3D). Su principal objetivo es preservar la estructura de distancia local de los datos originales en la representación de menor dimensión.

A diferencia de técnicas como PCA que buscan preservar la varianza global (y por lo tanto las distancias euclidianas globales), Sammon Mapping se enfoca en que las distancias pequeñas (entre puntos cercanos) en el espacio original sean representadas con mayor fidelidad en el espacio reducido que las distancias grandes. Esto lo hace particularmente bueno para revelar agrupaciones o clusters que podrían estar ocultos en proyecciones lineales o en otras técnicas de reducción de dimensionalidad que no priorizan las distancias locales.

El algoritmo de Sammon Mapping funciona minimizando una función de “error” o “estrés” específica, conocida como el “estrés de Sammon”. Esta función penaliza más fuertemente las grandes discrepancias en las distancias pequeñas que las grandes discrepancias en las distancias grandes. La minimización de esta función se realiza mediante un proceso iterativo de descenso de gradiente.

Aprendizaje Global vs. Local:

Sammon Mapping es un modelo que exhibe un fuerte carácter de aprendizaje local, aunque la optimización se realiza sobre la totalidad de los datos.

  • Aspecto Local: La característica distintiva de Sammon Mapping es su énfasis en la preservación de las distancias locales. Al penalizar más las distancias pequeñas que se deforman en la proyección, el algoritmo se esfuerza por mantener a los puntos que estaban cerca en el espacio original, cerca en el espacio de menor dimensión. Esto es crucial para revelar la estructura local y las agrupaciones dentro de los datos. Es como si el algoritmo estuviera haciendo una serie de “regresiones ponderadas localmente” para cada vecindario de puntos, ajustando las posiciones en el mapa de baja dimensión para que las relaciones cercanas se mantengan. Esta prioridad en las relaciones de vecindad es una marca del aprendizaje local.

  • Optimización Global: A pesar de su enfoque local, la función de estrés de Sammon se calcula y se minimiza sobre todos los pares de puntos en el conjunto de datos. La solución final es una configuración global de puntos en el espacio de baja dimensión. Por lo tanto, el proceso de optimización es global, pero su criterio de “mejor ajuste” da una importancia desproporcionada a la preservación de las relaciones locales.

En resumen, Sammon Mapping es una técnica poderosa para visualizar datos de alta dimensión, especialmente cuando los clusters o las estructuras locales son importantes. Si los datos no se distribuyen linealmente y lo que se busca es entender cómo se agrupan los puntos en sus vecindarios, Sammon Mapping ofrece una representación donde las relaciones locales son el foco principal, lo que lo convierte en una excelente herramienta para la exploración de estructuras no lineales y la detección de agrupaciones.

Guía rápida para elegir sammon mapping
Sammon Mapping
Criterio Aplica Detalles
Tipo de modelo ❌ No supervisado (reducción de dimensionalidad) Método no supervisado para proyectar datos de alta dimensión en espacios de menor dimensión preservando distancias.
Variable respuesta ❌ No aplica (no hay variable respuesta) No busca predecir, sino representar relaciones de cercanía entre observaciones.
Variables predictoras ✅ Numéricas (distancias euclidianas) Usa distancias entre puntos; solo variables numéricas tienen sentido.
Relación entre variables ✅ No lineal, mantiene distancias entre puntos A diferencia de PCA, Sammon busca preservar distancias relativas entre puntos originales y proyectados.
Normalidad de residuos ❌ No aplica No genera residuos como un modelo predictivo, por lo tanto no se aplica la normalidad.
Independencia de errores ❌ No aplica No hay modelo de error porque no hay predicción.
Homoscedasticidad ❌ No aplica No aplica el supuesto de homoscedasticidad.
Sensible a outliers ⚠️ Sí, es sensible a valores atípicos Valores extremos alteran las distancias y distorsionan el mapa resultante.
Multicolinealidad entre predictores ⚠️ No afecta directamente (no hay predictores) Como es una técnica de reducción, no le afecta multicolinealidad directamente.
Interpretabilidad ⚠️ Interpretación visual en 2D o 3D; no en componentes El mapa resultante puede interpretarse en términos de proximidad, no de pesos o coeficientes.
Velocidad y eficiencia ❌ Lento para conjuntos grandes (algoritmo iterativo) Implementación clásica es iterativa y costosa computacionalmente en datasets grandes.
Validación cruzada ⚠️ Se puede validar visualmente o con estrés Puede usarse estrés (error entre distancias originales y proyectadas) como métrica de calidad.
No funciona bien si... ❌ Mal desempeño en datos ruidosos o de alta dimensión sin estructura Si las distancias no reflejan bien la estructura real (por ruido o dimensiones irrelevantes), el método falla en representar datos útiles.
Fuente: Elaboración propia

Regularized Discriminant Analysis (RDA)

El Análisis Discriminante Regularizado (RDA) es un método de clasificación que actúa como un intermedio flexible entre el Análisis Discriminante Lineal (LDA) y el Análisis Discriminante Cuadrático (QDA). Fue desarrollado por Jerome Friedman para abordar las limitaciones de LDA (que asume covarianzas iguales para todas las clases, lo que resulta en fronteras lineales) y QDA (que permite covarianzas separadas pero puede ser inestable con pocos datos o muchas variables).

RDA introduce dos parámetros de regularización, \(\alpha\) y \(\gamma\), que controlan la flexibilidad del modelo y su capacidad para adaptarse a los datos:

  1. Parámetro \(\alpha\) (alpha): Controla el grado en que la matriz de covarianza de cada clase se contrae hacia una matriz de covarianza común (como en LDA).
    • Si \(\alpha = 0\), RDA se comporta como QDA (cada clase tiene su propia matriz de covarianza).
    • Si \(\alpha = 1\), RDA se comporta como LDA (todas las clases comparten una matriz de covarianza común).
    • Para valores entre 0 y 1, RDA utiliza un promedio ponderado de la matriz de covarianza específica de la clase y la matriz de covarianza común. Esto ayuda a estabilizar las estimaciones de covarianza en QDA, especialmente cuando los tamaños de muestra son pequeños o el número de variables es grande.
  2. Parámetro \(\gamma\) (gamma): Controla el grado en que la matriz de covarianza (ya sea común o específica de la clase, dependiendo de \(\alpha\)) se contrae hacia una matriz diagonal.
    • Si \(\gamma = 0\), no hay contracción diagonal adicional.
    • Si \(\gamma = 1\), la matriz de covarianza se contrae completamente a una matriz diagonal (lo que implica independencia entre las variables).
    • Para valores entre 0 y 1, se aplica una contracción hacia la diagonal, lo que puede ser útil cuando hay multicolinealidad.

Al sintonizar estos dos parámetros (generalmente mediante validación cruzada), RDA puede encontrar un equilibrio óptimo entre la simplicidad de LDA y la flexibilidad de QDA, adaptándose mejor a la estructura de covarianza real de los datos y mejorando la estabilidad del modelo.

Aprendizaje Global vs. Local:

El Análisis Discriminante Regularizado (RDA) es un modelo de aprendizaje global que incorpora un grado de adaptación local a través de su regularización.

  • Aspecto Global: Al igual que LDA y QDA, RDA construye un clasificador global basado en las distribuciones de probabilidad modeladas para cada clase. Las matrices de covarianza regularizadas y las medias de las clases se estiman a partir de todo el conjunto de datos de entrenamiento, y la regla de clasificación resultante se aplica de manera consistente en todo el espacio de características. La frontera de decisión que RDA define es una función global (que puede ser lineal o cuadrática, o una combinación de ambas, dependiendo de los parámetros de regularización).

  • Adaptación Local (a través de la regularización de covarianza): La flexibilidad de RDA para ajustarse mejor a los datos que LDA o QDA proviene de su capacidad para modelar las estructuras de covarianza de las clases de una manera más matizada. Al permitir una contracción parcial de las matrices de covarianza hacia una común (parámetro \(\alpha\)) o hacia una diagonal (parámetro \(\gamma\)), RDA puede adaptar las formas de las distribuciones de las clases. Esto permite que el modelo capture mejor las características de dispersión de los datos en diferentes regiones, lo que en última instancia se traduce en fronteras de decisión más adaptables que pueden manejar cierto grado de no linealidad o formas complejas de clase. No es un ajuste local en el sentido de LOESS, sino una forma de adaptar la complejidad del modelo global a la estructura de covarianza percibida de cada clase.

Guía rápida para elegir RDA
Regularized Discriminant Analysis (RDA)
Criterio Aplica Detalles
Tipo de modelo ✅ Supervisado (clasificación) Modelo supervisado de clasificación que combina LDA y QDA usando parámetros de regularización.
Variable respuesta ✅ Categórica (clases) Clasifica observaciones en clases discretas basándose en variables numéricas predictoras.
Variables predictoras ✅ Numéricas Requiere variables numéricas para calcular medias y covarianzas por clase.
Relación entre variables ✅ No lineal (transición entre LDA y QDA) Introduce parámetros de mezcla que ajustan la matriz de covarianza hacia la identidad (como ridge) y hacia la covarianza común.
Normalidad de residuos ❌ No aplica (no es un modelo de regresión) No genera residuos como un modelo de regresión, por lo tanto el supuesto no aplica.
Independencia de errores ❌ No aplica directamente No se enfoca en errores independientes, sino en distribuciones de clase.
Homoscedasticidad ⚠️ Controla la homoscedasticidad mediante regularización La regularización suaviza las diferencias entre covarianzas, mitigando problemas de homoscedasticidad.
Sensible a outliers ⚠️ Puede ser sensible, aunque la regularización reduce impacto Los valores atípicos pueden influir en la estimación, pero se reduce con regularización.
Multicolinealidad entre predictores ✅ Reduce impacto mediante regularización de covarianzas Mejor manejo de multicolinealidad que QDA gracias a la matriz regularizada.
Interpretabilidad ⚠️ Menos interpretable que LDA/QDA puro, pero con mayor flexibilidad La interpretación depende de los valores de regularización elegidos; más flexible pero menos directa.
Velocidad y eficiencia ✅ Más eficiente que QDA en conjuntos pequeños o ruidosos Reduce complejidad computacional respecto a QDA; útil con pocas observaciones por clase.
Validación cruzada ✅ Muy útil para evitar overfitting, sobre todo con validación cruzada Es común usar validación cruzada para seleccionar los parámetros de regularización óptimos.
No funciona bien si... ❌ Puede no mejorar sobre LDA/QDA si no hay problemas de varianza o sobreajuste No aporta mejoras significativas si los supuestos de LDA o QDA se cumplen perfectamente sin sobreajuste.
Fuente: Elaboración propia

- t-Distributed Stochastic Neighbor Embedding (t-SNE)

Uniform Manifold Approximation and Projection (UMAP)

Uniform Manifold Approximation and Projection (UMAP) es una técnica de reducción de dimensionalidad no lineal de vanguardia, utilizada principalmente para la visualización de datos de alta dimensión y para el aprendizaje de características (feature learning). Fue desarrollada por Leland McInnes, John Healy y James Melville. UMAP es una alternativa más reciente y a menudo más rápida y escalable a t-SNE (t-Distributed Stochastic Neighbor Embedding), manteniendo su capacidad para preservar la estructura local y global de los datos.

La idea central de UMAP se basa en la teoría de los conjuntos difusos (fuzzy set theory) y la geometría riemanniana. Intenta construir una representación de baja dimensión de los datos asumiendo que los datos de alta dimensión residen en una variedad (manifold) subyacente de baja dimensión. El algoritmo opera en dos fases:

  1. Construcción del Grafo de Vecindad Difusa:
    • Primero, UMAP construye un grafo ponderado difuso en el espacio de alta dimensión. Los nodos del grafo son los puntos de datos y los pesos de las aristas representan la probabilidad de que dos puntos estén conectados (es decir, qué tan similares o cercanos son).
    • Para ello, UMAP estima las distancias entre los puntos en el manifold subyacente y luego convierte estas distancias en probabilidades de conectividad. Esto es crucial porque le permite adaptarse a la densidad local de los datos (puntos en regiones densas pueden estar cerca incluso con distancias euclidianas grandes, y viceversa en regiones dispersas).
  2. Optimización del Diseño en Baja Dimensión:
    • Luego, UMAP optimiza el diseño de los puntos en un espacio de baja dimensión (ej., 2D) para que la estructura del grafo construido en alta dimensión sea lo más similar posible al grafo construido en baja dimensión.
    • Esto se logra minimizando una función de costo que intenta hacer que las probabilidades de conectividad en el espacio de baja dimensión coincidan con las probabilidades de conectividad del grafo de alta dimensión.

UMAP es valorado por su velocidad, escalabilidad a grandes conjuntos de datos, y su capacidad para preservar simultáneamente la estructura local y global de los datos, lo que lo hace ideal para visualizar agrupaciones y relaciones complejas.

Aprendizaje Global vs. Local:

UMAP es un excelente ejemplo de un modelo que logra un equilibrio sofisticado entre el aprendizaje local y global.

  • Aspecto Local: UMAP pone un fuerte énfasis en la preservación de la estructura local. Al construir el grafo de vecindad difusa, se enfoca en las relaciones de los vecinos más cercanos de cada punto (controlado por el parámetro n_neighbors). La forma en que calcula las probabilidades de conectividad se adapta a la densidad local de los datos, asegurando que los clústeres y las agrupaciones cercanas se mantengan cohesivos en la representación de baja dimensión. Las relaciones “locales” son las que definen el “manifold” en primera instancia. Esto significa que si los datos no se distribuyen linealmente y tienen estructuras complejas con vecindarios distintos (como diferentes clusters o ramas en una estructura), UMAP es capaz de capturarlas con alta fidelidad, de forma similar a como una “regresión ponderada localmente” operaría en cada vecindario.

  • Aspecto Global: A pesar de su énfasis local, UMAP también hace un esfuerzo consciente por preservar la estructura global de los datos. Al minimizar la función de costo para que la estructura del grafo se mantenga en el espacio de baja dimensión, UMAP no solo se asegura de que los puntos cercanos permanezcan cercanos, sino que también intenta que los grupos de puntos que estaban globalmente separados en la alta dimensión permanezcan separados en la baja dimensión. El parámetro min_dist ayuda a controlar cuán compactos deben ser los clústeres, lo que influye en la separación global. Esta capacidad de equilibrar ambos aspectos es una de las principales ventajas de UMAP sobre técnicas que a veces sacrifican la estructura global (como t-SNE, que puede “romper” grandes clústeres).

Guía rápida para elegir UMAP
Uniform Manifold Approximation and Projection (UMAP)
Criterio Aplica Detalles
Tipo de modelo ❌ No supervisado (reducción de dimensionalidad) Técnica no supervisada de reducción de dimensionalidad que preserva tanto estructura local como global de los datos.
Variable respuesta ❌ No aplica (no hay variable respuesta) No busca predecir, sino proyectar observaciones a un espacio de menor dimensión.
Variables predictoras ✅ Numéricas (o categóricas codificadas) Funciona con datos numéricos; variables categóricas deben ser codificadas antes.
Relación entre variables ✅ Captura relaciones no lineales y estructura local/global A diferencia de PCA, puede descubrir relaciones no lineales más complejas.
Normalidad de residuos ❌ No aplica No genera residuos; no aplica el supuesto de normalidad.
Independencia de errores ❌ No aplica No hay modelo de error residual, por lo que no aplica la independencia.
Homoscedasticidad ❌ No aplica No es un modelo predictivo, así que no se evalúa homoscedasticidad.
Sensible a outliers ⚠️ Algo sensible a outliers (puede distorsionar estructuras) Outliers pueden influir en el mapa de manera desproporcionada.
Multicolinealidad entre predictores ⚠️ No afecta directamente (no hay predictores) Como es una técnica de reducción, la multicolinealidad no le afecta directamente.
Interpretabilidad ⚠️ Visual en 2D o 3D; difícil interpretación formal La interpretación se limita a la distribución visual de puntos.
Velocidad y eficiencia ✅ Muy rápido incluso en grandes conjuntos de datos UMAP es computacionalmente eficiente y escalable a grandes volúmenes de datos.
Validación cruzada ⚠️ No usa validación cruzada clásica, pero puede evaluarse la estabilidad No utiliza validación cruzada directa, pero puede evaluarse la estabilidad de la proyección.
No funciona bien si... ❌ Datos con mucho ruido, escalas mal ajustadas o sin estructura latente clara Cuando no existe una estructura clara en los datos, la proyección puede ser confusa o poco útil.
Fuente: Elaboración propia