Glosario basico de ML y IA Generativa

100 conceptos clave en formato pregunta y respuesta, con explicaciones mas extensas y un vinculo para ampliar.

Preguntas y respuestas

1. Que es Machine Learning?

Es una rama de la IA que permite a los sistemas aprender patrones a partir de datos y mejorar su desempeno sin reglas programadas para cada caso. En lugar de codificar cada decision, el modelo ajusta sus parametros segun ejemplos y objetivos. Se usa para prediccion, clasificacion, recomendacion y deteccion de anomalias en problemas reales. 🤖📈📚

Mas informacion

2. Que es IA Generativa?

Es la IA capaz de crear contenido nuevo como texto, imagen, audio o codigo a partir de patrones aprendidos. Trabaja con modelos que generan secuencias y pueden ser guiados con prompts. Su valor esta en acelerar tareas creativas, asistencia y automatizacion de contenido. ✨🧠🧩

Mas informacion

3. Que es un dataset?

Es un conjunto organizado de datos que se usa para entrenar, validar o evaluar modelos. Incluye variables, etiquetas y metadatos, y su calidad afecta directamente el resultado. Un dataset limpio, balanceado y representativo produce modelos mas estables y confiables. 🧾✅📦

Mas informacion

4. Que es un modelo?

Es una representacion matematica que transforma entradas en salidas y aprende relaciones en los datos. Puede ser lineal, arboles, redes neuronales u otras estructuras. Su objetivo es generalizar para predecir o clasificar correctamente datos nuevos. 🧩🔮📊

Mas informacion

5. Que es entrenamiento?

Es el proceso de ajustar los parametros del modelo con datos y un algoritmo de optimizacion. El objetivo es minimizar un error o maximizar una metrica de rendimiento. Implica elegir hiperparametros, evaluar resultados y iterar mejoras. 🏋️‍♂️📉🔁

Mas informacion

6. Que es inferencia?

Es el uso del modelo ya entrenado para generar predicciones con datos nuevos. Puede ocurrir en tiempo real o por lotes, dependiendo del caso de uso. La inferencia debe ser eficiente y estable para cumplir con tiempos de respuesta. ⚡🔍🧠

Mas informacion

7. Que es overfitting?

Sucede cuando el modelo aprende demasiado los detalles del entrenamiento y no generaliza bien. Esto produce alto rendimiento en entrenamiento pero bajo rendimiento en datos nuevos. Se mitiga con regularizacion, validacion y mas datos. 📉⚠️🧪

Mas informacion

8. Que es underfitting?

Ocurre cuando el modelo es demasiado simple y no captura patrones relevantes. Se ve en bajo rendimiento tanto en entrenamiento como en validacion. Se corrige con modelos mas complejos, mas features o mejor entrenamiento. 🧊📉🛠️

Mas informacion

9. Que es validacion?

Es el proceso de evaluar el modelo con datos que no se usaron en entrenamiento. Permite estimar su capacidad real de generalizacion. Tambien ayuda a elegir hiperparametros y evitar overfitting. 🧪✅📊

Mas informacion

10. Que es un feature?

Es una variable de entrada que describe una caracteristica del dato. Un buen set de features captura senales relevantes y reduce ruido. La seleccion y transformacion de features impacta fuertemente la calidad del modelo. 🧩📌📈

Mas informacion

11. Que es feature engineering?

Es el proceso de transformar, crear y seleccionar variables para mejorar el rendimiento del modelo. Incluye combinaciones, normalizacion y codificacion de datos. Un buen feature engineering puede superar mejoras de modelos complejos. 🛠️📊🚀

Mas informacion

12. Que es una etiqueta?

Es la salida esperada en aprendizaje supervisado, usada como referencia durante el entrenamiento. Puede ser una clase, un numero o un valor continuo. Sin etiquetas confiables, el modelo aprende mal o sesgado. 🏷️🎯✅

Mas informacion

13. Que es aprendizaje supervisado?

Es entrenar un modelo con datos etiquetados, donde cada entrada tiene una salida correcta. Se usa en clasificacion y regresion. Requiere datos de calidad y suficientes ejemplos de cada clase. 🎓✅📚

Mas informacion

14. Que es aprendizaje no supervisado?

Es entrenar con datos sin etiquetas para descubrir patrones, grupos o estructuras. Se usa en clustering, reduccion de dimensionalidad y deteccion de anomalias. Ayuda a explorar datos desconocidos. 🧭🔎🧩

Mas informacion

15. Que es clustering?

Es agrupar datos similares sin etiquetas previas. Se usa para segmentar clientes, detectar patrones de comportamiento o explorar datos. La calidad depende de la distancia y los features usados. 🧩👥📌

Mas informacion

16. Que es regresion?

Es un tipo de modelo que predice valores continuos. Se usa en pronostico de ventas, precios o demanda. La calidad se mide con errores como MAE, RMSE o R2. 📈🔢📊

Mas informacion

17. Que es clasificacion?

Es un tipo de modelo que asigna una categoria a cada ejemplo. Se aplica en spam, fraude, diagnostico y riesgo. Se evalua con accuracy, precision, recall y F1. 🧠🏷️✅

Mas informacion

18. Que es accuracy?

Es el porcentaje de predicciones correctas sobre el total. Es util cuando las clases estan balanceadas. En casos desbalanceados puede ser enganosa, por eso se complementa con otras metricas. ✅📊⚖️

Mas informacion

19. Que es precision?

Mide de los positivos predichos, cuantos eran correctos. Es clave cuando los falsos positivos son costosos. Se usa junto con recall para evaluar el balance de errores. 🎯✅📉

Mas informacion

20. Que es recall?

Mide de los positivos reales, cuantos fueron detectados. Es importante cuando los falsos negativos son criticos. Se combina con precision para una vision completa. 🔎✅⚖️

Mas informacion

21. Que es F1-score?

Es el promedio armonico entre precision y recall. Penaliza cuando una de las dos es baja. Es util en clasificacion con clases desbalanceadas. ⚖️📈✅

Mas informacion

22. Que es matriz de confusion?

Es una tabla que resume aciertos y errores por clase. Muestra verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos. Ayuda a entender donde falla el modelo. 🧮🧾🔍

Mas informacion

23. Que es AUC-ROC?

Es una metrica que mide separacion entre clases en distintos umbrales. Un valor cercano a 1 indica excelente discriminacion. Es muy usada en clasificacion binaria. 📈📊🎯

Mas informacion

24. Que es cross-validation?

Es evaluar el modelo en multiples particiones de datos. Permite estimar mejor el rendimiento real y reducir varianza en resultados. Es comun en conjuntos pequenos. 🔁✅📚

Mas informacion

25. Que es regularizacion?

Son tecnicas que penalizan modelos muy complejos para evitar overfitting. Ejemplos: L1, L2, dropout o early stopping. Mejoran la generalizacion en datos nuevos. 🧯📉🧠

Mas informacion

26. Que es una red neuronal?

Modelo inspirado en el cerebro con capas de neuronas y conexiones ponderadas. Aprende representaciones no lineales y complejas. Se usa en vision, lenguaje y audio. 🧠🔌📚

Mas informacion

27. Que es deep learning?

Es el uso de redes neuronales profundas con multiples capas. Permite aprender patrones complejos automaticamente. Requiere grandes datos y capacidad computacional. 🧠🧱⚡

Mas informacion

28. Que es un transformer?

Arquitectura basada en atencion que procesa secuencias de forma paralela. Es la base de modelos de lenguaje modernos. Permite captar relaciones largas en texto. 🧲📚⚙️

Mas informacion

29. Que es un LLM?

Modelo de lenguaje grande entrenado con enormes corpus para generar y comprender texto. Puede resumir, responder, traducir y razonar. Su calidad depende del preentrenamiento y afinamiento. 🧠📖✨

Mas informacion

30. Que es un prompt?

Texto de entrada que guia la respuesta del LLM. Define contexto, formato y restricciones. Un buen prompt reduce ambiguedad y mejora la calidad de salida. 📝🎯🧩

Mas informacion

31. Que es prompt engineering?

Son tecnicas para diseñar prompts que produzcan respuestas mas precisas, seguras y utiles. Incluye roles, ejemplos, formatos y restricciones. Mejora la consistencia sin cambiar el modelo. 🛠️💬✅

Mas informacion

32. Que es embedding?

Es una representacion numerica de texto u objetos en un espacio vectorial. Permite medir similitud semantica con distancia o coseno. Es clave en busquedas y RAG. 📌🔢🔍

Mas informacion

33. Que es base vectorial?

Es una base de datos optimizada para busqueda por similitud usando embeddings. Permite recuperar informacion relevante rapidamente. Se usa en RAG y recomendaciones. 🗂️🔍⚡

Mas informacion

34. Que es RAG?

Es una arquitectura que combina recuperacion de informacion con generacion de texto. Primero busca documentos relevantes y luego el LLM responde usando esas fuentes. Reduce alucinaciones y mejora exactitud. 🔎➡️🧠✅

Mas informacion

35. Que es chunking?

Es dividir documentos en partes para indexarlos y recuperarlos mejor. Un chunk adecuado mantiene contexto sin exceder limites del LLM. Impacta directamente la calidad de respuestas. ✂️📄📌

Mas informacion

36. Que es top-k?

Es seleccionar los k resultados mas similares en una busqueda vectorial. Define cuanta evidencia se pasa al LLM. Valores altos aumentan contexto pero tambien ruido. 🥇🔢⚖️

Mas informacion

37. Que es reranking?

Es reordenar resultados recuperados con un modelo mas preciso. Mejora la relevancia antes de generar la respuesta. Es util cuando el buscador inicial es rapido pero menos exacto. 🔁⭐🎯

Mas informacion

38. Que es contexto?

Es la informacion que se pasa al LLM para responder mejor, incluyendo instrucciones, historial y fuentes. El contexto controla tono y precision. Debe ser relevante y no excesivo. 📎🧠🧭

Mas informacion

39. Que es alucinacion?

Es cuando el LLM genera una respuesta plausible pero falsa. Ocurre por falta de evidencia o por prompts ambiguos. Se mitiga con RAG, guardrails y verificacion de fuentes. ⚠️🧾🛡️

Mas informacion

40. Que es guardrails?

Son controles que limitan respuestas inseguras o fuera de dominio. Incluyen filtros de contenido, validaciones y restricciones de formato. Mejoran seguridad y cumplimiento en produccion. 🛡️✅📏

Mas informacion

41. Que es fine-tuning?

Es ajustar un modelo preentrenado con datos propios para mejorar desempeno en un dominio. Permite personalizar estilo, vocabulario o tareas. Requiere datos de calidad y control de sobreajuste. 🎯🧠🔧

Mas informacion

42. Que es temperature?

Es un parametro que controla la aleatoriedad en las respuestas del LLM. Valores bajos generan salidas mas deterministas; valores altos aumentan creatividad. Debe ajustarse segun el caso de uso. 🌡️🧠🎲

Mas informacion

43. Que es latencia?

Es el tiempo que tarda el sistema en responder una solicitud. En aplicaciones en tiempo real, la latencia es critica. Se reduce con caches, modelos mas ligeros o infraestructura optimizada. ⏱️⚡🧰

Mas informacion

44. Que es throughput?

Es la cantidad de solicitudes procesadas por unidad de tiempo. Mide la capacidad del sistema bajo carga. Se mejora con paralelismo, escalado y optimizacion de recursos. 🚦📈⚙️

Mas informacion

45. Que es MLOps?

Son practicas y herramientas para operar ML en produccion con calidad, trazabilidad y automatizacion. Incluye pipelines, versionamiento y monitoreo. Busca estabilidad y mejora continua del modelo. 🛠️🏭✅

Mas informacion

46. Que es versionamiento de modelos?

Es controlar versiones de modelos para reproducir resultados y comparar mejoras. Incluye metadatos, datos usados y metricas. Es clave para auditoria y despliegues seguros. 🧾🔁🔍

Mas informacion

47. Que es data drift?

Es el cambio en la distribucion de datos con el tiempo. Puede degradar el rendimiento del modelo sin cambiar el codigo. Se detecta con monitoreo y estadisticas de entrada. 🌊📉📡

Mas informacion

48. Que es model drift?

Es la degradacion del rendimiento del modelo en produccion por cambios del entorno o del negocio. Puede requerir reentrenamiento o ajustes. Se detecta con metricas de desempeño. 📉⏳🔧

Mas informacion

49. Que es un pipeline?

Es un flujo automatizado de pasos para datos, entrenamiento, evaluacion y despliegue. Permite reproducibilidad y reduce errores manuales. Es esencial para MLOps a escala. 🧰➡️🔁

Mas informacion

50. Que es un microservicio?

Es un servicio pequeno y desacoplado que cumple una funcion especifica. Se despliega de forma independiente y facilita escalado. Es comun para exponer modelos en produccion. 🧩🚀🔧

Mas informacion

51. Que es una API?

Es una interfaz que permite comunicacion entre sistemas. En ML, una API expone modelos para que otras aplicaciones consuman predicciones. Debe ser estable, segura y documentada. 🔌🤝📘

Mas informacion

52. Que es una API REST?

Es una API basada en HTTP con endpoints claros y metodos como GET, POST, PUT y DELETE. Es simple, escalable y muy usada en servicios web. Facilita integraciones con multiples clientes. 🌐📬✅

Mas informacion

53. Que es un endpoint?

Es la ruta especifica de una API que recibe solicitudes y devuelve respuestas. Cada endpoint tiene un proposito claro y un contrato de datos. Debe incluir validaciones y manejo de errores. 🧭📍🧪

Mas informacion

54. Que es autenticacion?

Es el proceso de verificar la identidad de un usuario o sistema. Se usa con tokens, llaves o credenciales. Es la primera capa de seguridad en APIs y plataformas. 🔐✅🧾

Mas informacion

55. Que es autorizacion?

Es el control de permisos una vez autenticado el usuario. Define que recursos puede usar y que acciones puede ejecutar. Se implementa con roles, scopes o politicas. 🧾🛡️🎯

Mas informacion

56. Que es logging?

Es el registro de eventos para depurar, monitorear y auditar. Un buen logging incluye niveles, contexto y trazabilidad. Ayuda a detectar errores y mejorar confiabilidad. 🪵🔍✅

Mas informacion

57. Que es observabilidad?

Es la capacidad de entender el estado del sistema mediante logs, metricas y trazas. Permite diagnosticar fallas sin acceder directamente al codigo. Es clave para sistemas distribuidos. 👀📈🧭

Mas informacion

58. Que es un prompt template?

Es una plantilla que estandariza prompts con variables dinamicas. Reduce variabilidad y mejora consistencia de respuestas. Facilita mantener prompts en sistemas grandes. 🧩📝🔁

Mas informacion

59. Que es un token?

Es una unidad de texto que procesa un LLM, como una palabra o parte de palabra. El numero de tokens impacta costos y limites de contexto. Gestionar tokens es clave en produccion. 🔤💳📏

Mas informacion

60. Que es un limite de contexto?

Es el maximo de tokens que el LLM puede recibir y generar en una solicitud. Limita la cantidad de informacion que cabe en el prompt. Obliga a resumir o dividir contenido. 📏🧠✂️

Mas informacion

61. Que es grounding?

Es anclar respuestas del LLM en fuentes verificables. Se logra con RAG, citas y validaciones. Ayuda a reducir alucinaciones y mejora confianza. ⚓📚✅

Mas informacion

62. Que es un vector?

Es una representacion numerica con varias dimensiones. En ML se usa para describir datos y calcular similitud. Los embeddings son vectores semanticos de texto. 📐🔢📌

Mas informacion

63. Que es cosine similarity?

Es una metrica que mide el angulo entre vectores para comparar similitud. Se usa en busquedas semanticas y recomendaciones. Valores cercanos a 1 indican alta similitud. 📏🔍📈

Mas informacion

64. Que es un indice vectorial?

Es una estructura optimizada para buscar vecinos mas cercanos en espacios vectoriales. Reduce tiempo de consulta en bases grandes. Es clave para sistemas de RAG y recomendacion. 🧭⚡🗂️

Mas informacion

65. Que es ANN?

Significa Approximate Nearest Neighbors. Es una busqueda aproximada rapida en espacios vectoriales grandes. Sacrifica un poco de precision por velocidad. 🚀🔎⚖️

Mas informacion

66. Que es un reranker cross-encoder?

Es un modelo que evalua consulta y documento juntos para reordenar resultados. Suele ser mas preciso pero mas costoso. Se usa despues de una busqueda rapida. 🎯🔁💡

Mas informacion

67. Que es un baseline?

Es un modelo simple de referencia para comparar mejoras. Permite saber si un modelo complejo realmente aporta valor. Es un punto de control fundamental en ML. 🧱📊✅

Mas informacion

68. Que es ablation study?

Es un analisis donde se eliminan componentes para medir su impacto. Ayuda a justificar decisiones tecnicas. Es muy usado en investigaciones y modelos complejos. 🧪🧩🔍

Mas informacion

69. Que es hiperparametro?

Es un parametro configurado antes del entrenamiento, como learning rate o epochs. Afecta rendimiento y estabilidad. Se ajusta con busquedas y validacion. ⚙️📈🧪

Mas informacion

70. Que es grid search?

Es un metodo para probar multiples combinaciones de hiperparametros de forma sistematica. Puede ser costoso en tiempo y recursos. Se usa cuando el espacio de busqueda es pequeno. 🧮🔍🧰

Mas informacion

71. Que es random search?

Explora combinaciones aleatorias de hiperparametros para ahorrar tiempo. Suele encontrar buenos resultados con menos pruebas. Es util en espacios grandes. 🎲⚡📊

Mas informacion

72. Que es early stopping?

Es detener entrenamiento cuando la validacion deja de mejorar. Evita overfitting y reduce costos. Se usa mucho en redes neuronales. 🛑📉✅

Mas informacion

73. Que es data augmentation?

Es crear variaciones de datos para mejorar la generalizacion. Se usa en imagen, texto y audio. Aumenta robustez sin recolectar nuevos datos. 🧩📷🔁

Mas informacion

74. Que es normalizacion?

Es escalar datos para que esten en rangos comparables. Mejora estabilidad numerica y entrenamiento. Muy usada en modelos sensibles a escala. 📏✅🧪

Mas informacion

75. Que es estandarizacion?

Es transformar datos a media cero y desviacion uno. Ayuda a que algoritmos converjan mejor. Se aplica antes de entrenar muchos modelos. ⚖️📊✅

Mas informacion

76. Que es un outlier?

Es un dato atipico que se aleja del patron general. Puede indicar error, fraude o un caso raro. Debe tratarse con cuidado para no sesgar el modelo. 🚨📉🔍

Mas informacion

77. Que es una feature categorica?

Es una variable con valores discretos como pais o categoria. Requiere codificacion para usarse en modelos. Su manejo correcto evita sesgos y errores. 🏷️📌⚙️

Mas informacion

78. Que es one-hot encoding?

Es convertir categorias en columnas binarias para que el modelo las procese. Evita interpretar categorias como numeros ordinales. Aumenta dimensionalidad, por lo que debe controlarse. 🧩✅📊

Mas informacion

79. Que es leakage?

Es usar informacion que no estaria disponible en produccion. Produce resultados inflados y modelos que fallan en la realidad. Se evita con buenos splits y criterios de tiempo. 🚫⏱️📉

Mas informacion

80. Que es bias?

Es un sesgo en datos o modelo que afecta la equidad. Puede originarse en recoleccion, etiquetas o decisiones de diseno. Debe monitorearse para evitar impactos negativos. ⚖️🚨🧭

Mas informacion

81. Que es fairness?

Son practicas para asegurar que el modelo trate grupos de forma equitativa. Incluye metricas de equidad y ajustes en datos o modelos. Es clave en entornos regulados. 🤝⚖️✅

Mas informacion

82. Que es explainability?

Es la capacidad de explicar por que un modelo toma una decision. Aumenta confianza y facilita auditorias. Es clave en sectores como finanzas o salud. 🧾🔎✅

Mas informacion

83. Que es SHAP?

Es un metodo que estima la contribucion de cada feature a una prediccion. Permite interpretacion local y global. Es muy usado para explicar modelos complejos. 🔍📌📊

Mas informacion

84. Que es LIME?

Es una tecnica local para explicar predicciones aproximando el modelo por uno simple. Ayuda a entender decisiones individuales. Es util cuando se necesita transparencia rapida. 🧪🔎💡

Mas informacion

85. Que es drift detection?

Es el monitoreo para detectar cambios en datos o rendimiento. Permite activar alertas y acciones correctivas. Es esencial para modelos en produccion. 🚨📡🔧

Mas informacion

86. Que es un feature store?

Es un repositorio centralizado de features reutilizables. Asegura consistencia entre entrenamiento e inferencia. Mejora gobernanza y productividad. 🗂️✅🔁

Mas informacion

87. Que es un model registry?

Es un catalogo para registrar modelos, versiones, metricas y estado de despliegue. Facilita aprobaciones y despliegues controlados. Es clave para auditoria y trazabilidad. 📚🏷️✅

Mas informacion

88. Que es CI/CD en ML?

Es automatizar integracion, pruebas y despliegue de pipelines y modelos. Permite entregas frecuentes con calidad controlada. Reduce errores manuales y acelera mejoras. 🔁🚀✅

Mas informacion

89. Que es un notebook?

Es un entorno interactivo para explorar datos y prototipar, como Jupyter. Facilita visualizaciones y experimentos rapidos. En produccion se recomienda migrar a codigo modular. 📓🧪🔧

Mas informacion

90. Que es un artefacto?

Es un archivo generado en el flujo ML, como un modelo entrenado, features o reportes. Debe versionarse y almacenarse con metadatos. Es clave para reproducibilidad. 📦🧾✅

Mas informacion

91. Que es un scheduler?

Es una herramienta que programa ejecuciones periodicas de pipelines o jobs. Permite reentrenar modelos o refrescar datos automaticamente. Ayuda a mantener modelos actualizados. ⏰🔁🧰

Mas informacion

92. Que es un SLA?

Es un acuerdo de nivel de servicio que define tiempos y calidad esperada. Ayuda a establecer compromisos de disponibilidad y latencia. Es clave en servicios productivos. 📜⏱️✅

Mas informacion

93. Que es un experimento?

Es una ejecucion controlada con configuracion y datos especificos para medir resultados. Permite comparar modelos o hiperparametros. Debe registrarse para trazabilidad. 🧪📈🧾

Mas informacion

94. Que es reproducibilidad?

Es la capacidad de repetir resultados con el mismo codigo, datos y version. Requiere control de versiones y configuraciones. Es esencial para auditoria y confiabilidad. 🔁✅📌

Mas informacion

95. Que es un entorno?

Es el conjunto de dependencias y configuraciones necesarias para ejecutar el sistema. Mantener entornos consistentes evita fallas entre desarrollo y produccion. Se gestiona con archivos de dependencias o contenedores. 🧰🧪🔁

Mas informacion

96. Que es contenedorizacion?

Es empaquetar una app con sus dependencias para ejecutarla igual en todos lados. Reduce problemas de compatibilidad. Es base de despliegues modernos. 📦🐳✅

Mas informacion

97. Que es Docker?

Es una plataforma para crear y ejecutar contenedores de forma ligera y portable. Facilita despliegues consistentes y escalables. Se usa ampliamente en MLOps y APIs. 🐳🧰🚀

Mas informacion

98. Que es Kubernetes?

Es un sistema de orquestacion para gestionar contenedores a gran escala. Automatiza despliegue, escalado y recuperacion. Es clave en plataformas empresariales. ☸️⚙️📈

Mas informacion

99. Que es un rollback?

Es volver a una version estable cuando un despliegue falla o degrada rendimiento. Reduce impacto en usuarios y negocio. Debe estar planeado en pipelines de despliegue. ↩️✅🧯

Mas informacion

100. Que es un dashboard?

Es un panel visual con metricas clave para monitorear sistemas y modelos. Facilita decision rapida con indicadores claros. Puede incluir alertas, tendencias y comparaciones. 📊👀✅

Mas informacion