CONTEXTO & RESPONSABILIDADES
La persona seleccionada se incorporará al equipo Funcional con la misión crítica de conectar fuentes externas de información con los sistemas internos de análisis y los nuevos agentes de IA en la nube. El rol implica diseñar y mantener pipelines avanzados de scraping y crawling, capaces de operar a gran escala en entornos AWS, garantizando resiliencia, trazabilidad, observabilidad y cumplimiento de estándares de seguridad.
Será imprescindible dominar técnicas clásicas de scraping (Playwright, Selenium, BeautifulSoup) junto con nuevas soluciones impulsadas por IA, como Firecrawl, Crawl4AI o agentes LLM capaces de automatizar la navegación y extracción de contenido en webs dinámicas y altamente protegidas. El especialista también deberá procesar y transformar grandes volúmenes de datos dentro de arquitecturas cloud-native, integrando los resultados en los sistemas analíticos de la organización.
PROYECTO & EQUIPO
El proyecto tiene como objetivo habilitar la automatización completa de la adquisición de datos externos y su disponibilidad en AWS para alimentar plataformas analíticas y modelos de IA Generativa. Esto incluirá el desarrollo de crawlers inteligentes, estrategias anti-bot, rotación de proxies y la estructuración de datos no estructurados en formatos optimizados para su posterior consumo.
El perfil seleccionado trabajará en estrecha colaboración con los Data Scientists, AI Engineers y equipos de Backend, bajo la supervisión del Product Manager y siguiendo las directrices arquitectónicas definidas para entornos AWS. El ecosistema integra servicios como Lambda, ECS, S3, Step Functions y bases de datos distribuidas, por lo que la capacidad de diseñar pipelines cloud-native será clave para el éxito del rol.
EXPERIENCIA & CONOCIMIENTOS
Buscamos un perfil con al menos 4 años de experiencia en scraping avanzado y análisis de datos, y una profunda especialización en Python aplicada a crawling masivo y automatización web.
Se valorará especialmente la experiencia construyendo scrapers distribuidos en AWS y la exposición reciente a tecnologías de scraping impulsado por IA.
Será necesario tener experiencia con:
- Core Scraping & Crawling:- Playwright, Selenium, BeautifulSoup, Requests / aiohttp
- Firecrawl, Crawl4AI, Browserless o agentes LLM para crawling inteligente
- Estrategias anti-bot, rotación de proxies y browser fingerprinting
- Procesamiento & Data Engineering:- Python (Pandas, Polars, PySpark)
- Pipelines ETL/ELT, normalización y limpieza de datos masivos
- Parsing avanzado (HTML, JSON, XML, documentos estructurados y no estructurados)
- Infraestructura en AWS (imprescindible):- S3, Lambda, ECS/ECR, Step Functions
- CloudWatch (monitorización de crawlers), IAM (segmentación de permisos)
- SQS/SNS (orquestación y comunicación)
- AWS Glue o EMR (deseable)
- Bases de datos:- PostgreSQL, MySQL, MongoDB o DynamoDB
- Integración de datos y diseño de modelos de almacenamiento para alto volumen
Además se valorará positivamente contar con experiencia o conocimientos en:
- Orquestación: Airflow, Prefect o Dagster
- Infraestructura serverless y contenedores optimizados para crawling
- Integración de datos con LLMs, RAG pipelines o agentes inteligentes
- Visualización o análisis exploratorio de datos
- Diseño de pipelines distribuidos de alta concurrencia
CONTRATACIÓN & UBICACIÓN
La posición tiene sede en Madrid y se rige por un contrato a tiempo completo con vocación de estabilidad. Dada la criticidad del proyecto y la necesidad de una colaboración estrecha con los equipos de negocio y técnicos, el rol requiere presencialidad en las oficinas (operando bajo un modelo híbrido, habitualmente de 3 días presenciales y 2 de teletrabajo).
Veure més
No et perdis res!
Uneix-te a la comunitat de wijobs i rep per email les millors ofertes d'ocupació
Mai no compartirem el teu email amb ningú i no t'enviarem correu brossa
Subscriu-te araDarreres ofertes d'ocupació de Enginyer/a de Dades a Madrid
Data Engineer especialista MS Fabric
16 de des.Deloitte
Data Engineer Databricks
16 de des.Deloitte
Data Engineer (Cloud Azure)
16 de des.PANEL Sistemas Informáticos
Senior Data Engineer (Snowflake Expert)
16 de des.WayOps
Experis España
Madrid, ES
Ingeniero/a de Sistemas
15 de des.Indra
Alcobendas, ES
Cloud DevOps Engineer for GenAI
15 de des.Michael Page
Data Engineer
15 de des.UST
Krell Consulting & Training
Ingeniero/a de Machine Learning
12 de des.Carrefour España
Alcobendas, ES