Senior Data Engineer (Data Scraping)

WayOps · Madrid

Nivell d'experiència---
Tipus de contracteA temps complert
Publicada16 de des.

MySQL MongoDB Python HTML Selenium AWS PostgreSQL Teletreball

Buscamos un perfil Senior Data Scraping & Analysis Specialist con sólida experiencia en Python que quiera desarrollar su carrera profesional construyendo pipelines de crawling inteligente y extracción masiva de datos desplegados en ecosistemas AWS de alto rendimiento.

CONTEXTO & RESPONSABILIDADES

La persona seleccionada se incorporará al equipo Funcional con la misión crítica de conectar fuentes externas de información con los sistemas internos de análisis y los nuevos agentes de IA en la nube. El rol implica diseñar y mantener pipelines avanzados de scraping y crawling, capaces de operar a gran escala en entornos AWS, garantizando resiliencia, trazabilidad, observabilidad y cumplimiento de estándares de seguridad.

Será imprescindible dominar técnicas clásicas de scraping (Playwright, Selenium, BeautifulSoup) junto con nuevas soluciones impulsadas por IA, como Firecrawl, Crawl4AI o agentes LLM capaces de automatizar la navegación y extracción de contenido en webs dinámicas y altamente protegidas. El especialista también deberá procesar y transformar grandes volúmenes de datos dentro de arquitecturas cloud-native, integrando los resultados en los sistemas analíticos de la organización.

PROYECTO & EQUIPO

El proyecto tiene como objetivo habilitar la automatización completa de la adquisición de datos externos y su disponibilidad en AWS para alimentar plataformas analíticas y modelos de IA Generativa. Esto incluirá el desarrollo de crawlers inteligentes, estrategias anti-bot, rotación de proxies y la estructuración de datos no estructurados en formatos optimizados para su posterior consumo.

El perfil seleccionado trabajará en estrecha colaboración con los Data Scientists, AI Engineers y equipos de Backend, bajo la supervisión del Product Manager y siguiendo las directrices arquitectónicas definidas para entornos AWS. El ecosistema integra servicios como Lambda, ECS, S3, Step Functions y bases de datos distribuidas, por lo que la capacidad de diseñar pipelines cloud-native será clave para el éxito del rol.

EXPERIENCIA & CONOCIMIENTOS

Buscamos un perfil con al menos 4 años de experiencia en scraping avanzado y análisis de datos, y una profunda especialización en Python aplicada a crawling masivo y automatización web.

Se valorará especialmente la experiencia construyendo scrapers distribuidos en AWS y la exposición reciente a tecnologías de scraping impulsado por IA.

Será necesario tener experiencia con:
- Core Scraping & Crawling:- Playwright, Selenium, BeautifulSoup, Requests / aiohttp
- Firecrawl, Crawl4AI, Browserless o agentes LLM para crawling inteligente
- Estrategias anti-bot, rotación de proxies y browser fingerprinting

- Procesamiento & Data Engineering:- Python (Pandas, Polars, PySpark)
- Pipelines ETL/ELT, normalización y limpieza de datos masivos
- Parsing avanzado (HTML, JSON, XML, documentos estructurados y no estructurados)

- Infraestructura en AWS (imprescindible):- S3, Lambda, ECS/ECR, Step Functions
- CloudWatch (monitorización de crawlers), IAM (segmentación de permisos)
- SQS/SNS (orquestación y comunicación)
- AWS Glue o EMR (deseable)

- Bases de datos:- PostgreSQL, MySQL, MongoDB o DynamoDB
- Integración de datos y diseño de modelos de almacenamiento para alto volumen

Además se valorará positivamente contar con experiencia o conocimientos en:
- Orquestación: Airflow, Prefect o Dagster
- Infraestructura serverless y contenedores optimizados para crawling
- Integración de datos con LLMs, RAG pipelines o agentes inteligentes
- Visualización o análisis exploratorio de datos
- Diseño de pipelines distribuidos de alta concurrencia

CONTRATACIÓN & UBICACIÓN

La posición tiene sede en Madrid y se rige por un contrato a tiempo completo con vocación de estabilidad. Dada la criticidad del proyecto y la necesidad de una colaboración estrecha con los equipos de negocio y técnicos, el rol requiere presencialidad en las oficinas (operando bajo un modelo híbrido, habitualmente de 3 días presenciales y 2 de teletrabajo).

Veure més

No et perdis res!

Uneix-te a la comunitat de wijobs i rep per email les millors ofertes d'ocupació

Mai no compartirem el teu email amb ningú i no t'enviarem correu brossa

Subscriu-te ara

Darreres ofertes d'ocupació de Enginyer/a de Dades a Madrid

Data Engineer especialista MS Fabric

16 de des.

Deloitte

´Te imaginas participando en la transformación de las principales organizaciones nacionales e internacionales? En...

Azure Cloud Coumputing Git Teletrabajo

Data Engineer Databricks

16 de des.

Deloitte

´Te imaginas participando en la transformación de las principales organizaciones nacionales e internacionales? En...

Python TSQL Git Teletrabajo

Data Engineer (Cloud Azure)

16 de des.

PANEL Sistemas Informáticos

🚀 ¡Estamos contratando! 👩‍💻 Puesto: Data Engineer (Cloud & Modern Data Stack) 📍 Ubicación: 100% remoto (candidatos en...

Azure Cloud Coumputing Teletrabajo

Senior Data Engineer (Snowflake Expert)

16 de des.

WayOps

Buscamos un perfil Senior Data Engineer especializado en Snowflake que quiera desarrollar su carrera profesional...

Python TSQL Cloud Coumputing Teletrabajo

Perfiles Aws (Devops & Arquitectura) - Sector Banca

15 de des.

Experis España

Madrid, ES

¿Quieres formar parte de proyectos tecnológicos de gran escala en el sector bancario? Buscamos varios perfiles...

. Docker Cloud Coumputing

Ingeniero/a de Sistemas

15 de des.

Indra

Alcobendas, ES

¡Estamos buscando un/a Ingeniero/a de Sistemas con experiencia internacional! ¿Tienes al menos 4 años de experiencia en...

. Jira

. Python Scrum

Veure més ofertes

Tipus	Nom	Finalitat	Durada
Sessió	ASP.NET_SessionId	Administra la sessió de l'usuari en el lloc web	Durant la sessió de l'usuari
Sessió	wj_uuid	Identifica l'usuari en diferents sessions	1 any
anti falsificació	.AspNetCore.Antiforgery.*	Proporciona protecció contra atacs de falsificació de sol·licituds entre llocs	Durant la sessió de l'usuari
Autentificació	.AspNetCore.Cookies	Emmagatzema dades encriptades de l'usuari que es requereixen per accedir o mostrar dades en el lloc	Durant la sessió de l'usuari
RGPD	.AspNet.Consent wj_con_pe wj_con_ad wj_con_an	Emmagatzemen informació relativa a les preferències de l'usuari sobre el Reglament General de Protecció de Dades o RGPD	1 any

Tipus	Nom	Finalitat	Durada
Idioma	.AspNetCore.Culture	Emmagatzema informació relativa a la teva preferència d'idioma	1 any
Cerca	wj_loc wj_search wj_tags wj_tags_loc	Emmagatzema informació per recordar les teves preferències de cerca	1 any
Favorits	wj_bookmarks wj_likes	Emmagatzema informació relativa al teu contingut favorit	1 any
Alertes per email	wj_e_sub	Indica si l'usuari esta o no subscrit a les alertes per email	1 any
Alertes per email	wj_e_sub_v	Indica si el usuario ha verificado o no su suscripción por email	1 any
Alertes per email	wj_e_sub_a	Indica si el usuario tiene o no activas las alertas por email	1 any
Alertes amb OneSignal	__cfduid	Pots conèixer com OneSignal fa servir la informació de llocs o aplicacions que usen els seus serveis visitant el seu lloc web	1 mes
Sessió	wj_tv	Indica si l'usuari és recurrent	1 any

Tipus	Nom	Finalitat i durada
Google Analytics	_ga _gat _gid AMP_TOKEN _gac_* _lc.visitor_id.*	Pots conèixer com Google utilitza la informació de llocs o aplicacions que usen els seus serveis visitant el seu lloc web
Hotjar	_hjClosedSurveyInvites _hjDonePolls _hjMinimizedPolls _hjShownFeedbackMessage _hjid _hjRecordingLastActivity _hjTLDTest _hjUserAttributesHash _hjLocalStorageTest _hjIncludedInPageviewSample _hjIncludedInSessionSample _hjAbsoluteSessionInProgress	Pots conèixer com Hotjar fa servir la informació de llocs o aplicacions que usen els seus serveis visitant el seu lloc web

Senior Data Engineer (Data Scraping)

WayOps · Madrid

No et perdis res!

Darreres ofertes d'ocupació de Enginyer/a de Dades a Madrid

Data Engineer especialista MS Fabric

Deloitte

Data Engineer Databricks

Deloitte

Data Engineer (Cloud Azure)

PANEL Sistemas Informáticos

Senior Data Engineer (Snowflake Expert)

WayOps

Perfiles Aws (Devops & Arquitectura) - Sector Banca

Experis España

Ingeniero/a de Sistemas

Indra

Cloud DevOps Engineer for GenAI

Michael Page

Data Engineer

UST

Senior Knowledge Graph Semantic Data Engineer

Krell Consulting & Training

Ingeniero/a de Machine Learning

Carrefour España

No et perdis res!

Top Zones

Top Ocupacions