Tipología y Ciclo de Vida de los Datos · PR1

Web Scraping
Cinematográfico

Extracción automatizada de datos de FilmAffinity e IMDb para crear un dataset comparativo de puntuaciones cinematográficas, publicado con licencia abierta en Zenodo.

Python BeautifulSoup4 Pandas Web Scraping Open Data

Datos abiertos para investigación

Este proyecto aborda el primer paso fundamental en cualquier proyecto de ciencia de datos: la obtención de los datos. Mediante técnicas de web scraping, se extrajeron puntuaciones y metadatos de películas de las dos principales plataformas de valoración cinematográfica en español e inglés.

El resultado es un dataset estructurado y documentado, publicado en Zenodo con DOI para garantizar su citabilidad y reproducibilidad.

Cine
01

Metodología de extracción

El proceso de scraping se diseñó en dos fases secuenciales, respetando las políticas de los sitios web y aplicando tiempos de espera entre peticiones para evitar sobrecargar los servidores.

1

FilmAffinity

Selección del rango temporal y extracción de títulos

2

IMDb

Matching por título y extracción de puntuaciones

3

Integración

Fusión y limpieza del dataset combinado

4

Publicación

Documentación y subida a Zenodo

Stack técnico

El proyecto utiliza Python como lenguaje principal, aprovechando el ecosistema de librerías para extracción y procesamiento de datos:

02

Dataset resultante

El dataset contiene información comparativa de películas con puntuaciones en ambas plataformas, permitiendo análisis de diferencias culturales en la valoración cinematográfica.

300+
Películas
2
Plataformas
10
Variables
1980-89
Período

Variables incluidas

03

Consideraciones éticas

El web scraping plantea cuestiones éticas y legales que fueron cuidadosamente consideradas durante el desarrollo del proyecto: