Casos de Uso Detallados

El dataset dataset_hospital 2 AWS.json concentra las tablas pacientes y citas_medicas. Se proponen a continuación casos de uso numerados para guiar la implementación del reto.

Calidad y limpieza de datos maestros
1. Revisar completitud de campos críticos (email, telefono, ciudad) y definir estrategias de imputación por ciudad o categoría de paciente.
  Solution details
2. Detectar inconsistencias entre fecha_nacimiento y edad, reconstruyendo las edades faltantes con la fecha de corte, y guardar un log de cambios.
  Solution details
3. Identificar duplicados potenciales usando nombre + fecha_nacimiento/ciudad y decidir si se consolidan, archivando los id_paciente reemplazados.
  Solution details
4. Normalizar campos de texto (capitalización, tildes) para facilitar posteriores cruces y reportes, documentando la función usada (lower(), strip()).
  Solution details
Gestión operativa de citas
1. Medir indicadores diarios/semana de citas por especialidad, estado_cita y medico para detectar cuellos de botella.
  Solution details
2. Reportar citas sin fecha_cita o medico asignado y definir alertas automáticas para validación manual por el equipo de operaciones.
  Solution details
3. Analizar la distribución de costo frente a rangos esperados por especialidad y generar anotaciones para auditoría si sobresale (desviaciones > 2 desviaciones estándar).
  Solution details
4. Consolidar histórico de estados para cada id_cita, identificando reprogramaciones múltiples y su impacto en ocupación de agenda.
  Solution details
Validaciones cruzadas entre tablas
1. Verificar la integridad referencial: cada id_paciente en citas_medicas debe existir en pacientes. Registrar entradas huérfanas para análisis posterior.
  Solution details
2. Asegurar que citas marcadas como Completada/Cancelada tengan fecha_cita válida y médico asignado; si no, marcar para revisión.
  Solution details
3. Comparar edad calculada desde fecha_nacimiento con la aparente en la especialidad (ej.: pediatría vs geriatría) y flaggear desvíos.
  Solution details
4. Cruzar el número de citas por paciente con la localidad de residencia para monitorear accesibilidad y detectar pacientes que viajan largas distancias.
  Solution details
Indicadores y gobernanza de datos
1. Determinar KPIs de calidad (completitud, unicidad, validez de formatos) para cada tabla antes y después de la limpieza, almacenando métricas en JSON o CSV.
  Solution details
2. Documentar reglas de negocio clave (estado válido de cita, rango de edades por especialidad, formatos de correo/teléfono) en un catálogo accesible.
  Solution details
3. Establecer responsables por tabla/campo y registrar timestamp + usuario para cada cambio masivo de limpieza para apoyar auditorías.
  Solution details
4. Crear reportes ejecutivos mismated (discrepancias) y enviarlos a un canal de gobernanza antes de las cargas a producción.
  Solution details
Analítica avanzada y segmentación
1. Generar segmentos de pacientes por edad, sexo y frecuencia de citas para personalizar comunicaciones o programas de prevención.
  Solution details
2. Entrenar modelos de probabilidad de cancelación considerando estados previos, especialidad y tiempos entre citas para priorizar recordatorios.
  Solution details
3. Construir dashboards de ocupación por ciudad y especialidad, comparando citas completadas vs canceladas y reprogramadas.
  Solution details
4. Simular escenarios de demanda futura aplicando crecimiento mensual promedio y visualizar brechas de capacidad de médicos.
  Solution details
Orquestación y migración controlada
1. Diseñar pipeline ETL que tome el JSON original, aplique limpiezas y validaciones, y exporte tablas limpias (parquet/csv) listas para el Data Warehouse.
  Solution details
2. Incluir pruebas automáticas (pytest/Great Expectations) que validen formatos, cardinalidad y referencialidad tras cada ejecución del pipeline.
  Solution details
3. Registrar métricas de volumen y tiempo de ejecución en cada run para detectar regresiones en el pipeline.
  Solution details
4. Documentar y versionar cada esquema destino (por ejemplo: tabla fact_citas, dim_pacientes) para facilitar futuras migraciones.
  Solution details
Soporte a decisión clínica y administrativa
1. Alertar a los médicos cuando un paciente muestra patrón de múltiples citas en períodos cortos o cancelaciones recurrentes.
  Solution details
2. Monitorear cumplimiento de agenda por médico/especialidad y notificar desviaciones en la utilización esperada.
  Solution details
3. Identificar pacientes con viajes entre ciudades (residencia vs cita) para planificar telemedicina o brigadas móviles.
  Solution details
4. Facilitar informes para gerencia con KPIs como tiempo promedio de espera y costo promedio por cita atendida.
  Solution details

Cada caso puede desarrollarse de manera incremental: iniciar con limpieza y validaciones, luego avanzar a indicadores y automatizaciones, y finalmente alimentar analítica y reportes.

Documento generado para guiar la implementación completa del reto sobre dataset_hospital 2 AWS.json.

Casos de Uso Detallados

Calidad y limpieza de datos maestros

Gestión operativa de citas

Validaciones cruzadas entre tablas

Indicadores y gobernanza de datos

Analítica avanzada y segmentación

Orquestación y migración controlada

Soporte a decisión clínica y administrativa