Tipología y Ciclo de Vida de los Datos · PRA2

Análisis Predictivo
de Películas

Aplicación de modelos de clasificación y clustering sobre 300 películas de la década de 1980 para predecir éxito comercial y descubrir patrones ocultos en los datos cinematográficos.

Python Random Forest K-means Scikit-learn Google Colab

De datos a decisiones

Este proyecto representa la continuación natural del trabajo de web scraping, llevando los datos recopilados al siguiente nivel mediante la aplicación de técnicas de machine learning.

El objetivo principal es identificar qué factores determinan el éxito comercial de una película y si existen patrones naturales que agrupen películas con características similares.

Cinema 80s
01

Pipeline de análisis

El proyecto se estructura en cinco notebooks secuenciales, cada uno enfocado en una fase específica del ciclo de vida de los datos:

Exploración

Descripción inicial

Integración

Datos financieros

Derivadas

Variables calculadas

Limpieza

Imputación y normalización

Modelado

ML y estadística

Variables derivadas

A partir de los datos base, se generaron variables calculadas que capturan dimensiones adicionales del éxito cinematográfico:

02

Modelos aplicados

Se implementaron dos enfoques complementarios: aprendizaje supervisado para predicción y no supervisado para descubrimiento de patrones.

Random Forest

Clasificador de ensamble para predecir éxito comercial a partir de características como presupuesto, género, duración y valoraciones previas del director.

Supervisado

K-means Clustering

Agrupación no supervisada para identificar clusters naturales de películas: blockbusters, películas de autor, fracasos comerciales, etc.

No supervisado

Pruebas de hipótesis

Además de los modelos predictivos, se aplicaron pruebas estadísticas para validar hipótesis sobre las diferencias entre plataformas y géneros:

03

Resultados del dataset

300
Películas
1980-89
Período
15+
Variables
2
Plataformas

Hallazgos principales

El presupuesto no garantiza el éxito

Películas con bajo presupuesto lograron ROI superiores a 10x, mientras algunas superproducciones fracasaron.

Diferencias culturales en valoración

FilmAffinity tiende a puntuar más alto películas europeas, mientras IMDb favorece producciones de Hollywood.

Clusters diferenciados

K-means identificó 4 grupos: blockbusters, dramas de autor, comedias comerciales y películas de culto.

Importancia del género

Random Forest reveló que el género es el segundo predictor más importante después del presupuesto.

04

Stack tecnológico

El análisis se desarrolló íntegramente en Python utilizando Google Colab como entorno de ejecución, aprovechando su integración con Google Drive para persistencia de datos.