Metodología de extracción
El proceso de scraping se diseñó en dos fases secuenciales, respetando las políticas de los sitios web y aplicando tiempos de espera entre peticiones para evitar sobrecargar los servidores.
FilmAffinity
Selección del rango temporal y extracción de títulos
IMDb
Matching por título y extracción de puntuaciones
Integración
Fusión y limpieza del dataset combinado
Publicación
Documentación y subida a Zenodo
Stack técnico
El proyecto utiliza Python como lenguaje principal, aprovechando el ecosistema de librerías para extracción y procesamiento de datos:
- BeautifulSoup4: Parsing de HTML y extracción de elementos
- Requests: Peticiones HTTP con manejo de sesiones
- Pandas: Estructuración y exportación de datos
- Time: Control de tiempos entre peticiones
Dataset resultante
El dataset contiene información comparativa de películas con puntuaciones en ambas plataformas, permitiendo análisis de diferencias culturales en la valoración cinematográfica.
Variables incluidas
- Título: Nombre de la película en español e inglés
- Año: Año de estreno
- Puntuación FA: Valoración en FilmAffinity (1-10)
- Puntuación IMDb: Valoración en IMDb (1-10)
- Votos: Número de votantes en cada plataforma
- Género: Categorías cinematográficas
- País: País de producción
- Director: Nombre del director
Consideraciones éticas
El web scraping plantea cuestiones éticas y legales que fueron cuidadosamente consideradas durante el desarrollo del proyecto:
- Robots.txt: Respeto de las directivas de exclusión de los sitios
- Rate limiting: Tiempos de espera entre peticiones para no sobrecargar servidores
- Uso no comercial: Dataset publicado exclusivamente para fines académicos
- Atribución: Crédito explícito a las fuentes originales
- Licencia: CC BY-NC-SA 4.0 para garantizar uso responsable