CONTEXTO & RESPONSABILIDADES
La persona seleccionada se incorporará al equipo Funcional con la misión crítica de conectar fuentes externas de información con los sistemas internos de análisis y los nuevos agentes de IA en la nube. El rol implica diseñar y mantener pipelines avanzados de scraping y crawling, capaces de operar a gran escala en entornos AWS, garantizando resiliencia, trazabilidad, observabilidad y cumplimiento de estándares de seguridad.
Será imprescindible dominar técnicas clásicas de scraping (Playwright, Selenium, BeautifulSoup) junto con nuevas soluciones impulsadas por IA, como Firecrawl, Crawl4AI o agentes LLM capaces de automatizar la navegación y extracción de contenido en webs dinámicas y altamente protegidas. El especialista también deberá procesar y transformar grandes volúmenes de datos dentro de arquitecturas cloud-native, integrando los resultados en los sistemas analíticos de la organización.
PROYECTO & EQUIPO
El proyecto tiene como objetivo habilitar la automatización completa de la adquisición de datos externos y su disponibilidad en AWS para alimentar plataformas analíticas y modelos de IA Generativa. Esto incluirá el desarrollo de crawlers inteligentes, estrategias anti-bot, rotación de proxies y la estructuración de datos no estructurados en formatos optimizados para su posterior consumo.
El perfil seleccionado trabajará en estrecha colaboración con los Data Scientists, AI Engineers y equipos de Backend, bajo la supervisión del Product Manager y siguiendo las directrices arquitectónicas definidas para entornos AWS. El ecosistema integra servicios como Lambda, ECS, S3, Step Functions y bases de datos distribuidas, por lo que la capacidad de diseñar pipelines cloud-native será clave para el éxito del rol.
EXPERIENCIA & CONOCIMIENTOS
Buscamos un perfil con al menos 4 años de experiencia en scraping avanzado y análisis de datos, y una profunda especialización en Python aplicada a crawling masivo y automatización web.
Se valorará especialmente la experiencia construyendo scrapers distribuidos en AWS y la exposición reciente a tecnologías de scraping impulsado por IA.
Será necesario tener experiencia con:
- Core Scraping & Crawling:- Playwright, Selenium, BeautifulSoup, Requests / aiohttp
- Firecrawl, Crawl4AI, Browserless o agentes LLM para crawling inteligente
- Estrategias anti-bot, rotación de proxies y browser fingerprinting
- Procesamiento & Data Engineering:- Python (Pandas, Polars, PySpark)
- Pipelines ETL/ELT, normalización y limpieza de datos masivos
- Parsing avanzado (HTML, JSON, XML, documentos estructurados y no estructurados)
- Infraestructura en AWS (imprescindible):- S3, Lambda, ECS/ECR, Step Functions
- CloudWatch (monitorización de crawlers), IAM (segmentación de permisos)
- SQS/SNS (orquestación y comunicación)
- AWS Glue o EMR (deseable)
- Bases de datos:- PostgreSQL, MySQL, MongoDB o DynamoDB
- Integración de datos y diseño de modelos de almacenamiento para alto volumen
Además se valorará positivamente contar con experiencia o conocimientos en:
- Orquestación: Airflow, Prefect o Dagster
- Infraestructura serverless y contenedores optimizados para crawling
- Integración de datos con LLMs, RAG pipelines o agentes inteligentes
- Visualización o análisis exploratorio de datos
- Diseño de pipelines distribuidos de alta concurrencia
CONTRATACIÓN & UBICACIÓN
La posición tiene sede en Madrid y se rige por un contrato a tiempo completo con vocación de estabilidad. Dada la criticidad del proyecto y la necesidad de una colaboración estrecha con los equipos de negocio y técnicos, el rol requiere presencialidad en las oficinas (operando bajo un modelo híbrido, habitualmente de 3 días presenciales y 2 de teletrabajo).
Ver más
¡No te pierdas nada!
Únete a la comunidad de wijobs y recibe por email las mejores ofertas de empleo
Nunca compartiremos tu email con nadie y no te vamos a enviar spam
Suscríbete AhoraÚltimas ofertas de empleo de Ingeniero/a de Datos en Madrid
Deloitte
Data Engineer Databricks
16 dic.Deloitte
Data Engineer (Cloud Azure)
16 dic.PANEL Sistemas Informáticos
WayOps
Experis España
Madrid, ES
Ingeniero/a de Sistemas
15 dic.Indra
Alcobendas, ES
Cloud DevOps Engineer for GenAI
15 dic.Michael Page
Data Engineer
15 dic.UST
Krell Consulting & Training
Ingeniero/a de Machine Learning
12 dic.Carrefour España
Alcobendas, ES