Prueba Tecnica - Ingeniero de Datos
Transcripcion de los requerimientos basicos para planificar el ejercicio y dejar registro visual de cada componente del proceso.
Objetivo
Evaluar la capacidad del candidato para:
- Identificar problemas de calidad de datos en un conjunto de datos.
- Aplicar tecnicas de limpieza, validacion y auditoria de datos.
- Documentar hallazgos y proponer estrategias de mejora.
- Utilizar herramientas para depuracion.
- Aplicar principios de gobierno de datos.
Tiempo estimado para resolucion
4 a 6 horas.
Entregables esperados
1. Informe tecnico
- Analisis exploratorio y resumen de hallazgos de calidad.
- Validaciones realizadas y problemas detectados.
- Estrategia de limpieza y supuestos adoptados.
- Metricas de calidad antes y despues de la limpieza.
2. Script o notebook Python
- Ingesta del archivo
dataset_hospital.json.
- Limpieza de los datos segun lo identificado.
- Validaciones cruzadas entre tablas.
- Exportacion de las versiones limpias.
3. Opcional
(Valorado positivamente) implementacion de pruebas automaticas para validar integridad.
Entrega final en archivo comprimido (.zip) con:
- Informe en PDF.
- Script o notebook.
- Datasets limpios exportados.
Actividades a realizar
Parte 1 - Analisis de calidad de datos (Exploracion)
Identificar y describir los principales problemas de calidad en las tablas pacientes y citas_medicas.
Parte 2 - Limpieza y validacion
- Aplicar un proceso de limpieza que resuelva lo detectado en la Parte 1 y justificar cada decision.
- Implementar validaciones cruzadas entre campos relacionados.
Parte 3 - Indicadores de calidad y documentacion
- Crear resumen con indicadores de calidad antes y despues de la limpieza.
- Documentar supuestos adoptados, reglas de validacion implementadas y recomendaciones de mejora para garantizar la calidad futura.
Bonus (opcional, se valora positivamente)
- Implementar pruebas automaticas con
pytest, great_expectations u otro framework de validacion.
- Simular una migracion de los datos limpios a una estructura destino como un Data Warehouse.
Requisitos tecnicos
- Usar Python.
- Puede ser un notebook (
.ipynb) o script (.py).
Entregables