Pipeline de análisis
El proyecto se estructura en cinco notebooks secuenciales, cada uno enfocado en una fase específica del ciclo de vida de los datos:
Exploración
Descripción inicial
Integración
Datos financieros
Derivadas
Variables calculadas
Limpieza
Imputación y normalización
Modelado
ML y estadística
Variables derivadas
A partir de los datos base, se generaron variables calculadas que capturan dimensiones adicionales del éxito cinematográfico:
- ROI (Return on Investment): Recaudación / Presupuesto
- Éxito comercial: Variable binaria (ROI > 2)
- Diferencia de puntuaciones: Puntuación FA - Puntuación IMDb
- Duración normalizada: Minutos estandarizados por género
Modelos aplicados
Se implementaron dos enfoques complementarios: aprendizaje supervisado para predicción y no supervisado para descubrimiento de patrones.
Random Forest
Clasificador de ensamble para predecir éxito comercial a partir de características como presupuesto, género, duración y valoraciones previas del director.
SupervisadoK-means Clustering
Agrupación no supervisada para identificar clusters naturales de películas: blockbusters, películas de autor, fracasos comerciales, etc.
No supervisadoPruebas de hipótesis
Además de los modelos predictivos, se aplicaron pruebas estadísticas para validar hipótesis sobre las diferencias entre plataformas y géneros:
- Test t de Student para comparar medias de puntuaciones
- Chi-cuadrado para asociación entre género y éxito comercial
- ANOVA para diferencias entre múltiples grupos
Resultados del dataset
Hallazgos principales
El presupuesto no garantiza el éxito
Películas con bajo presupuesto lograron ROI superiores a 10x, mientras algunas superproducciones fracasaron.
Diferencias culturales en valoración
FilmAffinity tiende a puntuar más alto películas europeas, mientras IMDb favorece producciones de Hollywood.
Clusters diferenciados
K-means identificó 4 grupos: blockbusters, dramas de autor, comedias comerciales y películas de culto.
Importancia del género
Random Forest reveló que el género es el segundo predictor más importante después del presupuesto.
Stack tecnológico
El análisis se desarrolló íntegramente en Python utilizando Google Colab como entorno de ejecución, aprovechando su integración con Google Drive para persistencia de datos.
- Pandas & NumPy: Manipulación y cálculo numérico
- Matplotlib & Seaborn: Visualización de datos
- Scikit-learn: Modelos de ML y métricas
- BeautifulSoup4: Scraping de datos financieros adicionales
- SciPy: Pruebas estadísticas