Casos de Uso Detallados

El dataset dataset_hospital 2 AWS.json concentra las tablas pacientes y citas_medicas. Se proponen a continuación casos de uso numerados para guiar la implementación del reto.

  1. Calidad y limpieza de datos maestros

    1. Revisar completitud de campos críticos (email, telefono, ciudad) y definir estrategias de imputación por ciudad o categoría de paciente.
    2. Detectar inconsistencias entre fecha_nacimiento y edad, reconstruyendo las edades faltantes con la fecha de corte, y guardar un log de cambios.
    3. Identificar duplicados potenciales usando nombre + fecha_nacimiento/ciudad y decidir si se consolidan, archivando los id_paciente reemplazados.
    4. Normalizar campos de texto (capitalización, tildes) para facilitar posteriores cruces y reportes, documentando la función usada (lower(), strip()).
  2. Gestión operativa de citas

    1. Medir indicadores diarios/semana de citas por especialidad, estado_cita y medico para detectar cuellos de botella.
    2. Reportar citas sin fecha_cita o medico asignado y definir alertas automáticas para validación manual por el equipo de operaciones.
    3. Analizar la distribución de costo frente a rangos esperados por especialidad y generar anotaciones para auditoría si sobresale (desviaciones > 2 desviaciones estándar).
    4. Consolidar histórico de estados para cada id_cita, identificando reprogramaciones múltiples y su impacto en ocupación de agenda.
  3. Validaciones cruzadas entre tablas

    1. Verificar la integridad referencial: cada id_paciente en citas_medicas debe existir en pacientes. Registrar entradas huérfanas para análisis posterior.
    2. Asegurar que citas marcadas como Completada/Cancelada tengan fecha_cita válida y médico asignado; si no, marcar para revisión.
    3. Comparar edad calculada desde fecha_nacimiento con la aparente en la especialidad (ej.: pediatría vs geriatría) y flaggear desvíos.
    4. Cruzar el número de citas por paciente con la localidad de residencia para monitorear accesibilidad y detectar pacientes que viajan largas distancias.
  4. Indicadores y gobernanza de datos

    1. Determinar KPIs de calidad (completitud, unicidad, validez de formatos) para cada tabla antes y después de la limpieza, almacenando métricas en JSON o CSV.
    2. Documentar reglas de negocio clave (estado válido de cita, rango de edades por especialidad, formatos de correo/teléfono) en un catálogo accesible.
    3. Establecer responsables por tabla/campo y registrar timestamp + usuario para cada cambio masivo de limpieza para apoyar auditorías.
    4. Crear reportes ejecutivos mismated (discrepancias) y enviarlos a un canal de gobernanza antes de las cargas a producción.
  5. Analítica avanzada y segmentación

    1. Generar segmentos de pacientes por edad, sexo y frecuencia de citas para personalizar comunicaciones o programas de prevención.
    2. Entrenar modelos de probabilidad de cancelación considerando estados previos, especialidad y tiempos entre citas para priorizar recordatorios.
    3. Construir dashboards de ocupación por ciudad y especialidad, comparando citas completadas vs canceladas y reprogramadas.
    4. Simular escenarios de demanda futura aplicando crecimiento mensual promedio y visualizar brechas de capacidad de médicos.
  6. Orquestación y migración controlada

    1. Diseñar pipeline ETL que tome el JSON original, aplique limpiezas y validaciones, y exporte tablas limpias (parquet/csv) listas para el Data Warehouse.
    2. Incluir pruebas automáticas (pytest/Great Expectations) que validen formatos, cardinalidad y referencialidad tras cada ejecución del pipeline.
    3. Registrar métricas de volumen y tiempo de ejecución en cada run para detectar regresiones en el pipeline.
    4. Documentar y versionar cada esquema destino (por ejemplo: tabla fact_citas, dim_pacientes) para facilitar futuras migraciones.
  7. Soporte a decisión clínica y administrativa

    1. Alertar a los médicos cuando un paciente muestra patrón de múltiples citas en períodos cortos o cancelaciones recurrentes.
    2. Monitorear cumplimiento de agenda por médico/especialidad y notificar desviaciones en la utilización esperada.
    3. Identificar pacientes con viajes entre ciudades (residencia vs cita) para planificar telemedicina o brigadas móviles.
    4. Facilitar informes para gerencia con KPIs como tiempo promedio de espera y costo promedio por cita atendida.

Cada caso puede desarrollarse de manera incremental: iniciar con limpieza y validaciones, luego avanzar a indicadores y automatizaciones, y finalmente alimentar analítica y reportes.