Componentes identificados
El PCA reveló cuatro componentes principales que capturan el 69% de la varianza total del dataset. Cada componente representa una dimensión interpretable del éxito cinematográfico:
Escala y popularidad
Captura el "tamaño" de la película: blockbusters con alto presupuesto, gran recaudación y muchas interacciones.
Presencia en redes
Popularidad en Facebook, parcialmente independiente del éxito tradicional en taquilla.
Calidad crítica
Dimensión de calidad percibida, independiente del éxito comercial. Puntuación IMDB domina.
Formato
Principalmente la duración de la película, característica técnica independiente del resto.
Criterios de selección
Para determinar el número óptimo de componentes a retener, se aplicaron tres criterios complementarios:
Kaiser
Eigenvalor > 1
Varianza 70%
Acumulada
Scree Plot
Punto de codo
Decisión final: Se retuvieron 4 componentes como balance entre los criterios. Kaiser sugería 3, pero con 4 se alcanza ~70% de varianza y el scree plot muestra que después de PC4 la ganancia marginal es pequeña.
Hallazgos principales
Éxito comercial ≠ Éxito crítico
La correlación entre puntuación IMDB y variables financieras es baja; en PCA se separan en componentes distintos.
Películas no-USA: mejor calidad, menor presupuesto
Puntuación promedio 7.0 vs 6.4 de USA, pero con presupuestos significativamente menores.
60% de películas son rentables
Logran ROI > 2, duplicando la inversión. El cine es arriesgado pero mayoritariamente rentable.
Redes sociales: dimensión diferenciada
Facebook captura una popularidad que no se refleja completamente en métricas tradicionales de éxito.
Preparación de datos
Antes de aplicar PCA, el dataset requirió un proceso exhaustivo de limpieza y transformación:
- Valores faltantes: Eliminación para variables críticas (gross 17.5%, budget 9.8%), imputación para el resto
- Variables derivadas: ROI, éxito_comercial (binaria), es_usa (binaria)
- Outliers: Mantenidos por representar casos legítimos (éxitos sorpresa, épicas largas)
- Estandarización: Media=0, SD=1 para todas las variables numéricas
Preparación para PRA2
El dataset limpio y los componentes principales quedan preparados para aplicar tres tipos de modelos en la siguiente práctica:
- Clasificación: Predecir éxito_comercial (ROI > 2)
- Regresión: Predecir imdb_score
- Clustering: Identificar grupos naturales de películas