Análisis Predictivo de Películas | Gabriela Pérez Caviglia

01

Pipeline de análisis

El proyecto se estructura en cinco notebooks secuenciales, cada uno enfocado en una fase específica del ciclo de vida de los datos:

Exploración

Descripción inicial

→

Integración

Datos financieros

→

Derivadas

Variables calculadas

→

Limpieza

Imputación y normalización

→

Modelado

ML y estadística

Variables derivadas

A partir de los datos base, se generaron variables calculadas que capturan dimensiones adicionales del éxito cinematográfico:

ROI (Return on Investment): Recaudación / Presupuesto
Éxito comercial: Variable binaria (ROI > 2)
Diferencia de puntuaciones: Puntuación FA - Puntuación IMDb
Duración normalizada: Minutos estandarizados por género

02

Modelos aplicados

Se implementaron dos enfoques complementarios: aprendizaje supervisado para predicción y no supervisado para descubrimiento de patrones.

Random Forest

Clasificador de ensamble para predecir éxito comercial a partir de características como presupuesto, género, duración y valoraciones previas del director.

Supervisado

K-means Clustering

Agrupación no supervisada para identificar clusters naturales de películas: blockbusters, películas de autor, fracasos comerciales, etc.

No supervisado

Pruebas de hipótesis

Además de los modelos predictivos, se aplicaron pruebas estadísticas para validar hipótesis sobre las diferencias entre plataformas y géneros:

Test t de Student para comparar medias de puntuaciones
Chi-cuadrado para asociación entre género y éxito comercial
ANOVA para diferencias entre múltiples grupos

03

Resultados del dataset

300

Películas

1980-89

Período

15+

Variables

2

Plataformas

Hallazgos principales

El presupuesto no garantiza el éxito

Películas con bajo presupuesto lograron ROI superiores a 10x, mientras algunas superproducciones fracasaron.

Diferencias culturales en valoración

FilmAffinity tiende a puntuar más alto películas europeas, mientras IMDb favorece producciones de Hollywood.

Clusters diferenciados

K-means identificó 4 grupos: blockbusters, dramas de autor, comedias comerciales y películas de culto.

Importancia del género

Random Forest reveló que el género es el segundo predictor más importante después del presupuesto.

04

Stack tecnológico

El análisis se desarrolló íntegramente en Python utilizando Google Colab como entorno de ejecución, aprovechando su integración con Google Drive para persistencia de datos.

Pandas & NumPy: Manipulación y cálculo numérico
Matplotlib & Seaborn: Visualización de datos
Scikit-learn: Modelos de ML y métricas
BeautifulSoup4: Scraping de datos financieros adicionales
SciPy: Pruebas estadísticas

Análisis Predictivode Películas

De datos a decisiones