Conocimientos en Machine Learning

Formato pregunta-respuesta con definiciones extensas (minimo 1000 caracteres cada una) y un esquema visual para cada bloque.

Fundamentos de ML

sesgo-varianza overfitting/underfitting regularizacion L1/L2 trade-offs complejidad vs generalizacion
Pregunta: Que abarcan los fundamentos de Machine Learning y por que son criticos en un rol senior?

Respuesta: Los fundamentos de Machine Learning son el conjunto de principios que explican por que un modelo aprende, cuando generaliza y en que condiciones falla. Un perfil senior debe dominar el balance sesgo-varianza para decidir si un error es por modelo demasiado simple (alto sesgo) o por alta sensibilidad a ruido (alta varianza). Esto se refleja en fenomenos como overfitting y underfitting: un modelo que memoriza training puede mostrar metricas excelentes en entrenamiento pero pobre rendimiento en datos nuevos, mientras que un modelo subajustado ni siquiera captura el patron basico. La regularizacion L1 y L2 es una herramienta clave para controlar complejidad: L1 induce sparsidad y seleccion de variables, L2 suaviza pesos y reduce varianza, y la eleccion impacta interpretabilidad, estabilidad y coste computacional. Entender los trade-offs entre complejidad y generalizacion permite justificar arquitectura, profundidad de arboles, numero de parametros o penalizaciones, no solo por performance sino por robustez, costo y riesgo de degradacion en produccion. En la practica, un senior traduce estos conceptos a decisiones: elegir un baseline simple para controlar sesgo, incrementar complejidad gradualmente, ajustar hiperparametros con validacion cruzada y establecer limites operativos para evitar modelos frágiles. Tambien implica saber que no existe un unico modelo optimo en todos los contextos; se negocia entre precision, interpretabilidad, latencia y mantenibilidad, y se deja trazabilidad de esa decision en la documentacion tecnica.

Visualizacion sugerida:
Eje X: complejidad del modelo, eje Y: error. Curva U para error total con zonas de sesgo alto y varianza alta.
Tabla comparativa L1 vs L2: efecto en pesos, interpretabilidad y estabilidad.
Checklist de riesgo: overfitting, data leakage, drift esperado.

Modelos predictivos clasicos

regresion lineal/logistica arboles, random forest gradient boosting SVM: nociones y uso
Pregunta: Que modelos predictivos clasicos se deben dominar y como elegirlos en contextos reales?

Respuesta: Los modelos predictivos clasicos forman el arsenal esencial para resolver problemas tabulares con eficiencia y control. La regresion lineal y logistica son el punto de partida por su interpretabilidad, bajo costo y capacidad de explicar relaciones directas; son ideales cuando se necesita transparencia y estabilidad. Los arboles de decision aportan reglas claras y manejan no linealidades, mientras que random forest reduce varianza mediante ensambles y es robusto a ruido, aunque con mayor costo y menor interpretabilidad directa. Los modelos de gradient boosting (XGBoost, LightGBM, CatBoost) suelen lograr el mejor rendimiento en datos tabulares; ofrecen manejo avanzado de interacciones, regularizacion y criterios de split, pero requieren cuidado con overfitting y tuning. SVM es un modelo potente para margenes claros y dimensiones altas, particularmente con kernels; se usa cuando se busca buen rendimiento en datasets medianos y bien escalados, aunque puede ser costoso en entrenamiento e inferencia. Un senior no solo conoce los algoritmos: sabe medir trade-offs de performance vs explicabilidad, tiempo de entrenamiento, costo de inferencia y mantenimiento. También comprende requisitos de negocio como estabilidad en el tiempo, sensibilidad a drift o necesidad de explicaciones regulatorias. En la practica, se selecciona un baseline simple, se prueba un modelo no lineal, y luego un boosting, justificando el candidato final con metricas, interpretabilidad y capacidad de operacion. Documentar por que se eligio un modelo y no otro es tan importante como entrenarlo.

Visualizacion sugerida:
Matriz de decision: interpretabilidad vs performance vs costo por modelo.
Curvas ROC o PR comparando 3 modelos en el mismo set.
Diagrama de flujo: baseline -> ensamble -> boosting con criterio de parada.

Modelado estadistico

distribuciones y supuestos p-values e IC tests de hipotesis modelos lineales generalizados (GLM)
Pregunta: Que significa modelado estadistico en ML aplicado y como se evidencia competencia senior?

Respuesta: El modelado estadistico es la base para entender datos y justificar decisiones con inferencia, no solo con prediccion. Un senior domina distribuciones y supuestos (normalidad, independencia, homocedasticidad) para saber cuando un modelo es valido o cuando hay sesgos ocultos. La inferencia estadistica permite cuantificar incertidumbre mediante p-values e intervalos de confianza, y esto es clave cuando se necesita explicar el impacto real de variables o cambios de proceso. Los tests de hipotesis se usan para validar mejoras: por ejemplo, si un nuevo modelo reduce error de forma estadisticamente significativa y no solo por azar. Los modelos lineales generalizados (GLM) extienden la regresion lineal a variables no gaussianas mediante funciones de enlace, lo que habilita modelar conteos, proporciones o variables binarias con rigor. En un entorno real, el modelado estadistico ayuda a distinguir correlacion de causalidad, a detectar cambios de distribucion que puedan generar drift y a diseñar experimentos o A/B tests con potencia adecuada. Un perfil senior no se queda en conceptos: implementa chequeos de supuestos, reporta intervalos de confianza de metricas y documenta criterios de significancia practica, no solo estadistica. Esto evita decisiones basadas en mejoras marginales irrelevantes y mejora la credibilidad del sistema frente a stakeholders.

Visualizacion sugerida:
Grafico de distribucion con overlay de curva y supuestos anotados.
Tabla de IC para coeficientes con interpretacion de efecto.
Esquema A/B test: hipotesis, p-value, significancia practica.

Feature engineering y calidad de datos

missing values y outliers escalado/normalizacion encoding de categoricas seleccion/reduccion de variables
Pregunta: Por que el feature engineering es determinante y que practica se espera a nivel senior?

Respuesta: El feature engineering transforma datos en señales que un modelo puede aprender con estabilidad, y suele ser el factor que mas impacta en performance real. Un perfil senior debe dominar estrategias para tratar missing values de forma consistente con el proceso de negocio, identificar outliers que distorsionan el entrenamiento y decidir si se corrigen, se recortan o se modelan explicitamente. El escalado y la normalizacion son fundamentales para modelos sensibles a la magnitud (SVM, regresiones con regularizacion), y deben aplicarse con pipelines reproducibles para evitar leakage. El encoding de variables categoricas requiere criterio: one-hot para categorias bajas, target encoding con cuidado de leakage, o embeddings cuando hay alta cardinalidad. La seleccion o reduccion de variables (por correlacion, importancia, PCA u otros metodos) mejora interpretabilidad y reduce ruido, costo y sobreajuste. A nivel senior, se espera que el proceso de features sea versionado, rastreable y alineado con el contexto de negocio, no solo una serie de transformaciones aisladas. Esto incluye documentar el racional de cada feature, medir su aporte marginal y definir reglas de gobernanza para features sensibles. En produccion, el feature engineering debe ser consistente entre entrenamiento e inferencia, estar automatizado y ser monitoreado para detectar drift en distribuciones de entrada. La calidad de datos es un activo; sin ella, incluso el mejor modelo fracasa.

Visualizacion sugerida:
Pipeline de features con puntos de control de calidad.
Mapa de correlaciones para seleccionar variables.
Boxplots antes y despues de tratamiento de outliers.

Evaluacion y validacion

metricas por problema validacion cruzada data leakage calibracion
Pregunta: Como evaluar y validar modelos de forma robusta para escenarios reales?

Respuesta: La evaluacion es el proceso que asegura que un modelo funciona en el mundo real y no solo en el dataset. Un senior selecciona metricas alineadas al objetivo de negocio: MAE y RMSE para errores continuos, ROC-AUC o F1 para clasificacion, precision/recall cuando el costo de falsos positivos o negativos es asimetrico. La validacion cruzada reduce varianza en la estimacion del rendimiento y permite comparar modelos con mayor confiabilidad. El control de data leakage es critico: cualquier informacion del futuro o del target que se filtre al entrenamiento puede inflar metricas y producir fallas graves en produccion. La calibracion de probabilidades garantiza que la salida del modelo sea interpretable como probabilidad real, lo cual es clave para umbrales de decision y analisis de riesgo. Un perfil senior tambien contempla validaciones temporales o por grupos para simular escenarios reales (por ejemplo, entrenamiento en meses anteriores y prueba en meses posteriores). Ademas, documenta la estabilidad del modelo en distintos segmentos, reporta intervalos de confianza de metricas y define criterios de aceptacion previos al despliegue. La evaluacion no es un paso final, sino un mecanismo continuo que conecta performance con impacto operativo y permite establecer alertas de degradacion.

Visualizacion sugerida:
Grafico de calibracion (reliability curve) con bins.
Comparacion de metricas por segmento de negocio.
Matriz de confusion con costos asociados.

Interpretabilidad y explicacion al negocio

SHAP / feature importance analisis de sensibilidad narrativa de impacto en KPI
Pregunta: Como se demuestra interpretabilidad y su traduccion a decisiones de negocio?

Respuesta: La interpretabilidad es la capacidad de explicar por que el modelo toma una decision y como esa decision afecta indicadores clave del negocio. Un senior debe dominar herramientas como SHAP o feature importance para descomponer la prediccion en contribuciones de variables, identificando factores dominantes y posibles sesgos. El analisis de sensibilidad permite evaluar como cambios en una variable modifican la salida del modelo, lo que es clave para escenarios de simulacion o para crear reglas de negocio seguras. La interpretabilidad no se limita a tecnicas: se traduce en narrativa comprensible para stakeholders, conectando hallazgos con KPIs como conversion, churn o riesgo. Un perfil senior sabe construir explicaciones globales (que describen el comportamiento general del modelo) y locales (para casos individuales), y elige el nivel adecuado segun el contexto regulatorio o la audiencia. Tambien puede detectar variables proxy que puedan introducir riesgos legales o eticos. En ambientes productivos, la interpretabilidad se integra con monitoreo: si cambian las contribuciones de variables, puede indicar drift o cambios estructurales. La comunicacion final debe incluir impacto en decisiones, recomendaciones de accion y limites del modelo, lo que fortalece la confianza y facilita la adopcion del sistema en la organizacion.

Visualizacion sugerida:
Grafico SHAP summary con top features.
Curvas de sensibilidad por variable critica.
Mapa KPI: variable -> cambio esperado -> accion sugerida.