Web Scraping Cinematográfico | Gabriela Pérez Caviglia

01

Metodología de extracción

El proceso de scraping se diseñó en dos fases secuenciales, respetando las políticas de los sitios web y aplicando tiempos de espera entre peticiones para evitar sobrecargar los servidores.

1

FilmAffinity

Selección del rango temporal y extracción de títulos

2

IMDb

Matching por título y extracción de puntuaciones

3

Integración

Fusión y limpieza del dataset combinado

4

Publicación

Documentación y subida a Zenodo

Stack técnico

El proyecto utiliza Python como lenguaje principal, aprovechando el ecosistema de librerías para extracción y procesamiento de datos:

BeautifulSoup4: Parsing de HTML y extracción de elementos
Requests: Peticiones HTTP con manejo de sesiones
Pandas: Estructuración y exportación de datos
Time: Control de tiempos entre peticiones

02

Dataset resultante

El dataset contiene información comparativa de películas con puntuaciones en ambas plataformas, permitiendo análisis de diferencias culturales en la valoración cinematográfica.

300+

Películas

2

Plataformas

10

Variables

1980-89

Período

Variables incluidas

Título: Nombre de la película en español e inglés
Año: Año de estreno
Puntuación FA: Valoración en FilmAffinity (1-10)
Puntuación IMDb: Valoración en IMDb (1-10)
Votos: Número de votantes en cada plataforma
Género: Categorías cinematográficas
País: País de producción
Director: Nombre del director

03

Consideraciones éticas

El web scraping plantea cuestiones éticas y legales que fueron cuidadosamente consideradas durante el desarrollo del proyecto:

Robots.txt: Respeto de las directivas de exclusión de los sitios
Rate limiting: Tiempos de espera entre peticiones para no sobrecargar servidores
Uso no comercial: Dataset publicado exclusivamente para fines académicos
Atribución: Crédito explícito a las fuentes originales
Licencia: CC BY-NC-SA 4.0 para garantizar uso responsable

Web Scraping
Cinematográfico

Datos abiertos para investigación

Metodología de extracción

FilmAffinity

IMDb

Integración

Publicación

Stack técnico

Dataset resultante

Variables incluidas

Consideraciones éticas

Repositorio

Zenodo

Demo

Web ScrapingCinematográfico

Datos abiertos para investigación

Metodología de extracción

FilmAffinity

IMDb

Integración

Publicación

Stack técnico

Dataset resultante

Variables incluidas

Consideraciones éticas

Repositorio

Zenodo

Demo

Web Scraping
Cinematográfico