Senior Data Engineer (Data Scraping)

WayOps · Madrid

Nivel de experiencia---
Tipo de contratoA tiempo completo
Publicada16 dic.

MySQL MongoDB Python HTML Selenium AWS PostgreSQL Teletrabajo

Buscamos un perfil Senior Data Scraping & Analysis Specialist con sólida experiencia en Python que quiera desarrollar su carrera profesional construyendo pipelines de crawling inteligente y extracción masiva de datos desplegados en ecosistemas AWS de alto rendimiento.

CONTEXTO & RESPONSABILIDADES

La persona seleccionada se incorporará al equipo Funcional con la misión crítica de conectar fuentes externas de información con los sistemas internos de análisis y los nuevos agentes de IA en la nube. El rol implica diseñar y mantener pipelines avanzados de scraping y crawling, capaces de operar a gran escala en entornos AWS, garantizando resiliencia, trazabilidad, observabilidad y cumplimiento de estándares de seguridad.

Será imprescindible dominar técnicas clásicas de scraping (Playwright, Selenium, BeautifulSoup) junto con nuevas soluciones impulsadas por IA, como Firecrawl, Crawl4AI o agentes LLM capaces de automatizar la navegación y extracción de contenido en webs dinámicas y altamente protegidas. El especialista también deberá procesar y transformar grandes volúmenes de datos dentro de arquitecturas cloud-native, integrando los resultados en los sistemas analíticos de la organización.

PROYECTO & EQUIPO

El proyecto tiene como objetivo habilitar la automatización completa de la adquisición de datos externos y su disponibilidad en AWS para alimentar plataformas analíticas y modelos de IA Generativa. Esto incluirá el desarrollo de crawlers inteligentes, estrategias anti-bot, rotación de proxies y la estructuración de datos no estructurados en formatos optimizados para su posterior consumo.

El perfil seleccionado trabajará en estrecha colaboración con los Data Scientists, AI Engineers y equipos de Backend, bajo la supervisión del Product Manager y siguiendo las directrices arquitectónicas definidas para entornos AWS. El ecosistema integra servicios como Lambda, ECS, S3, Step Functions y bases de datos distribuidas, por lo que la capacidad de diseñar pipelines cloud-native será clave para el éxito del rol.

EXPERIENCIA & CONOCIMIENTOS

Buscamos un perfil con al menos 4 años de experiencia en scraping avanzado y análisis de datos, y una profunda especialización en Python aplicada a crawling masivo y automatización web.

Se valorará especialmente la experiencia construyendo scrapers distribuidos en AWS y la exposición reciente a tecnologías de scraping impulsado por IA.

Será necesario tener experiencia con:
- Core Scraping & Crawling:- Playwright, Selenium, BeautifulSoup, Requests / aiohttp
- Firecrawl, Crawl4AI, Browserless o agentes LLM para crawling inteligente
- Estrategias anti-bot, rotación de proxies y browser fingerprinting

- Procesamiento & Data Engineering:- Python (Pandas, Polars, PySpark)
- Pipelines ETL/ELT, normalización y limpieza de datos masivos
- Parsing avanzado (HTML, JSON, XML, documentos estructurados y no estructurados)

- Infraestructura en AWS (imprescindible):- S3, Lambda, ECS/ECR, Step Functions
- CloudWatch (monitorización de crawlers), IAM (segmentación de permisos)
- SQS/SNS (orquestación y comunicación)
- AWS Glue o EMR (deseable)

- Bases de datos:- PostgreSQL, MySQL, MongoDB o DynamoDB
- Integración de datos y diseño de modelos de almacenamiento para alto volumen

Además se valorará positivamente contar con experiencia o conocimientos en:
- Orquestación: Airflow, Prefect o Dagster
- Infraestructura serverless y contenedores optimizados para crawling
- Integración de datos con LLMs, RAG pipelines o agentes inteligentes
- Visualización o análisis exploratorio de datos
- Diseño de pipelines distribuidos de alta concurrencia

CONTRATACIÓN & UBICACIÓN

La posición tiene sede en Madrid y se rige por un contrato a tiempo completo con vocación de estabilidad. Dada la criticidad del proyecto y la necesidad de una colaboración estrecha con los equipos de negocio y técnicos, el rol requiere presencialidad en las oficinas (operando bajo un modelo híbrido, habitualmente de 3 días presenciales y 2 de teletrabajo).

¡No te pierdas nada!

Únete a la comunidad de wijobs y recibe por email las mejores ofertas de empleo

Nunca compartiremos tu email con nadie y no te vamos a enviar spam

Suscríbete Ahora

Últimas ofertas de empleo de Ingeniero/a de Datos en Madrid

Data Engineer especialista MS Fabric

16 dic.

Deloitte

´Te imaginas participando en la transformación de las principales organizaciones nacionales e internacionales? En...

Azure Cloud Coumputing Git Teletrabajo

Data Engineer Databricks

16 dic.

Deloitte

´Te imaginas participando en la transformación de las principales organizaciones nacionales e internacionales? En...

Python TSQL Git Teletrabajo

Data Engineer (Cloud Azure)

16 dic.

PANEL Sistemas Informáticos

🚀 ¡Estamos contratando! 👩‍💻 Puesto: Data Engineer (Cloud & Modern Data Stack) 📍 Ubicación: 100% remoto (candidatos en...

Azure Cloud Coumputing Teletrabajo

Senior Data Engineer (Snowflake Expert)

16 dic.

WayOps

Buscamos un perfil Senior Data Engineer especializado en Snowflake que quiera desarrollar su carrera profesional...

Python TSQL Cloud Coumputing Teletrabajo

Perfiles Aws (Devops & Arquitectura) - Sector Banca

15 dic.

Experis España

Madrid, ES

¿Quieres formar parte de proyectos tecnológicos de gran escala en el sector bancario? Buscamos varios perfiles...

. Docker Cloud Coumputing

Ingeniero/a de Sistemas

15 dic.

Indra

Alcobendas, ES

¡Estamos buscando un/a Ingeniero/a de Sistemas con experiencia internacional! ¿Tienes al menos 4 años de experiencia en...

. Jira

. Python Scrum

Ver más ofertas

Tipo	Nombre	Finalidad	Duración
Sesión	ASP.NET_SessionId	Administra la sesión del usuario en el sitio web	Durante la sesión del usuario
Sesión	wj_uuid	Identifca al usuario ente distintas sesiones	1 año
Anti falsificación	.AspNetCore.Antiforgery.*	Proporciona protección contra ataques de falsificación de solicitudes entre sitios	Durante la sesión del usuario
Autentificación	.AspNetCore.Cookies	Almacena datos encriptados del usuario que se requieren para acceder o mostrar datos en el sitio	Durante la sesión del usuario
RGPD	.AspNet.Consent wj_con_pe wj_con_ad wj_con_an	Almacenan información relativa a las preferencias del usuario sobre el Reglamento General de Protección de Datos o RGPD	1 año

Tipo	Nombre	Finalidad	Duración
Idioma	.AspNetCore.Culture	Almacena información relativa a tu preferencia de idioma	1 año
Búsqueda	wj_loc wj_search wj_tags wj_tags_loc	Almacena información para recordar tus preferencias de búsqueda	1 año
Favoritos	wj_bookmarks wj_likes	Almacena información relativa a tu contenido favorito	1 año
Alertas por email	wj_e_sub	Indica si el usuario esta o no suscrito a las alerta por email	1 año
Alertas por email	wj_e_sub_v	Indica si el usuario ha verificado o no su suscripción por email	1 año
Alertas por email	wj_e_sub_a	Indica si el usuario tiene o no activas las alertas por email	1 año
Alertas con OneSignal	__cfduid	Puedes conocer cómo OneSignal usa la información de sitios o aplicaciones que usan sus servicios visitando su sitio web	1 mes
Sesión	wj_tv	Indica si el usuario es recurrente	1 año

Tipo	Nombre	Finalidad y duración
Google Analytics	_ga _gat _gid AMP_TOKEN _gac_* _lc.visitor_id.*	Puedes conocer cómo Google usa la información de sitios o aplicaciones que usan sus servicios visitando su sitio web
Hotjar	_hjClosedSurveyInvites _hjDonePolls _hjMinimizedPolls _hjShownFeedbackMessage _hjid _hjRecordingLastActivity _hjTLDTest _hjUserAttributesHash _hjLocalStorageTest _hjIncludedInPageviewSample _hjIncludedInSessionSample _hjAbsoluteSessionInProgress	Puedes conocer cómo Hotjat usa la información de sitios o aplicaciones que usan sus servicios visitando su sitio web

Senior Data Engineer (Data Scraping)

WayOps · Madrid

¡No te pierdas nada!

Últimas ofertas de empleo de Ingeniero/a de Datos en Madrid

Data Engineer especialista MS Fabric

Deloitte

Data Engineer Databricks

Deloitte

Data Engineer (Cloud Azure)

PANEL Sistemas Informáticos

Senior Data Engineer (Snowflake Expert)

WayOps

Perfiles Aws (Devops & Arquitectura) - Sector Banca

Experis España

Ingeniero/a de Sistemas

Indra

Cloud DevOps Engineer for GenAI

Michael Page

Data Engineer

UST

Senior Knowledge Graph Semantic Data Engineer

Krell Consulting & Training

Ingeniero/a de Machine Learning

Carrefour España

¡No te pierdas nada!

Top Zonas

Top Empleos