Minería de Datos · PRA1

Reducción de
Dimensionalidad

Análisis de Componentes Principales (PCA) sobre el dataset IMDB 5000 para identificar las dimensiones latentes que explican el éxito cinematográfico: escala comercial, presencia social, calidad crítica y formato.

R PCA CRISP-DM Limpieza de datos EDA
5,043
Películas
100
Años (1916-2016)
11
Variables → 4 PC
69%
Varianza explicada

De 11 variables a 4 dimensiones

El Análisis de Componentes Principales permite reducir la complejidad de un dataset multidimensional, identificando las direcciones de máxima varianza en los datos.

Este proyecto aplica PCA al dataset IMDB 5000, descubriendo que el éxito cinematográfico puede resumirse en cuatro dimensiones fundamentales e independientes entre sí.

Data Analysis
01

Componentes identificados

El PCA reveló cuatro componentes principales que capturan el 69% de la varianza total del dataset. Cada componente representa una dimensión interpretable del éxito cinematográfico:

PC1 29.6%

Escala y popularidad

Captura el "tamaño" de la película: blockbusters con alto presupuesto, gran recaudación y muchas interacciones.

num_voted_users gross budget num_critic_for_reviews
PC2 15.7%

Presencia en redes

Popularidad en Facebook, parcialmente independiente del éxito tradicional en taquilla.

movie_facebook_likes cast_total_facebook_likes director_facebook_likes
PC3 12.9%

Calidad crítica

Dimensión de calidad percibida, independiente del éxito comercial. Puntuación IMDB domina.

imdb_score
PC4 10.5%

Formato

Principalmente la duración de la película, característica técnica independiente del resto.

duration
02

Criterios de selección

Para determinar el número óptimo de componentes a retener, se aplicaron tres criterios complementarios:

Kaiser

Eigenvalor > 1

3 PC

Varianza 70%

Acumulada

4 PC

Scree Plot

Punto de codo

3-4 PC

Decisión final: Se retuvieron 4 componentes como balance entre los criterios. Kaiser sugería 3, pero con 4 se alcanza ~70% de varianza y el scree plot muestra que después de PC4 la ganancia marginal es pequeña.

03

Hallazgos principales

Éxito comercial ≠ Éxito crítico

La correlación entre puntuación IMDB y variables financieras es baja; en PCA se separan en componentes distintos.

Películas no-USA: mejor calidad, menor presupuesto

Puntuación promedio 7.0 vs 6.4 de USA, pero con presupuestos significativamente menores.

60% de películas son rentables

Logran ROI > 2, duplicando la inversión. El cine es arriesgado pero mayoritariamente rentable.

Redes sociales: dimensión diferenciada

Facebook captura una popularidad que no se refleja completamente en métricas tradicionales de éxito.

04

Preparación de datos

Antes de aplicar PCA, el dataset requirió un proceso exhaustivo de limpieza y transformación:

Preparación para PRA2

El dataset limpio y los componentes principales quedan preparados para aplicar tres tipos de modelos en la siguiente práctica:

Metodología CRISP-DM

1

Negocio

Objetivos y preguntas

2

Datos

Exploración

3

Preparación

Limpieza y PCA

4

Modelado

PRA2

5

Evaluación

PRA2

6

Despliegue

Futuro