¡Bienvenido a mi portafolio!
Aquí recopilo los proyectos desarrollados a lo largo del Bootcamp de Ciencia de Datos, aplicando distintas técnicas de análisis de datos, estadística, machine learning, deep learning y Big Data.
El portafolio está organizado en módulos (2–9), cada uno con su propio README.md, donde se detalla el enunciado, el código, los resultados y las conclusiones.
Liroy Cataldo
Ingeniero Civil Industrial con formación en estadística, programación en Python y apasionado por la aplicación de ciencia de datos en la optimización de procesos, predicciones y generación de valor para la toma de decisiones.
| Módulo | Tema | Descripción | Link | 
|---|---|---|---|
| 2 | 📈 Estadística descriptiva | Análisis de un dataset real aplicando medidas de tendencia central, dispersión y visualizaciones. | Módulo 2 | 
| 3 | 🎲 Probabilidades y distribuciones | Aplicación de distribuciones de probabilidad, simulaciones y teorema del límite central. | Módulo 3 | 
| 4 | 📊 Inferencia estadística | Pruebas de hipótesis e intervalos de confianza aplicados a muestras de datos. | Módulo 4 | 
| 5 | 🧪 Diseño de experimentos | Evaluación de un programa de tutoría con análisis de medias, pruebas t y visualizaciones. | Módulo 5 | 
| 6 | 🌱 Machine Learning supervisado | Modelos de regresión y clasificación para analizar el impacto del cambio climático en la agricultura. | Módulo 6 | 
| 7 | 🎵 Machine Learning no supervisado | Clústeres de preferencias musicales globales con K-Means, jerárquico, DBSCAN, PCA y t-SNE. | Módulo 7 | 
| 8 | 🧠 Redes Neuronales | Predicción de tasas de natalidad usando redes neuronales en Keras, con regularización y optimización. | Módulo 8 | 
| 9 | 🌍 Big Data con Spark | Análisis de migraciones humanas con PySpark: RDDs, DataFrames, SQL y MLlib. | Módulo 9 | 
A lo largo de los proyectos trabajé en:
- Estadística descriptiva e inferencial: medidas, distribuciones, pruebas de hipótesis.
- Experimentación y análisis causal: diseño de experimentos y comparación de grupos.
- Machine Learning supervisado: regresión lineal, árboles, Random Forest, SVM, KNN.
- Machine Learning no supervisado: clustering (K-Means, DBSCAN, jerárquico).
- Redes neuronales: diseño, regularización y optimización en Keras.
- Big Data: uso de Apache Spark, PySpark, RDDs, DataFrames, SQL y MLlib.
- Visualización de datos: matplotlib, seaborn, PCA y t-SNE para reducción de dimensionalidad.
Este portafolio refleja mi transición desde las bases estadísticas hasta la implementación de modelos avanzados de aprendizaje automático y Big Data. Cada módulo representa un paso en la construcción de habilidades clave en ciencia de datos aplicada a problemas reales, como educación, agricultura, música, demografía y migraciones.
Mi objetivo es seguir ampliando estos proyectos, integrando datasets más grandes, técnicas de optimización y aplicaciones en contextos industriales, para seguir creando soluciones que aporten valor estratégico.
✍️ Autor: Liroy Cataldo
📧 Email: [email protected]