Extract, Transform, Load: ETL
La inestabilidad del mercado —cada vez más volátil debido a la globalización, la diversificación, la expansión, etc.— hace que los procesos ETL sean más necesarios que nunca. ¿Por qué? La respuesta es muy simple: El proceso ETL es imprescindible para que los negocios tomen decisiones basadas en los datos —data-driven decisions— en vez de basar sus estrategias empresariales en decisiones arbitrarias o suposiciones. Así pues, aplicar un proceso ETL se traduce en ganar control sobre los datos.
Los procesos ETL han ido ganando relevancia en el mundo empresarial a medida que el Big Data también lo ha hecho. Actualmente las compañías acumulan grandes cantidades de datos que resultan necesarios para llevar a cabo operaciones empresariales, pero que, si no se gestionan bien, pueden acabar provocando una sobreabundancia de información inútil o una sobrecarga para los encargados de analizar la información. Además, disponer de datos no integrados y mal gestionados puede suponer un sobrecoste para la empresa mientras que, lo contrario los convierte en un activo empresarial.
¿Qué es ETL?
Si trabajas en una compañía moderna seguramente habrás oído a hablar de ETL, aunque quizás, sigas sin tener claro qué es exactamente. Pues bien, ETL (Extract, Transform, Load) es, a resumidas cuentas, un proceso de almacenaje, tratamiento y gestión de datos. El proceso permite el traslado de datos de múltiples fuentes a un único lugar, ya sea un data warehouse, un data lake, una base de datos relacional o no relacional...
Las siglas en inglés corresponden a Extraer, Transformar y Cargar que son, básicamente, las fases del proceso.
Diferencias entre ETL y SSIS
Es común que la gente confunda los conceptos ETL y SSIS pensando que cumplen funciones diferentes o que son procesos parecidos pero con diferencias. En realidad, SSIS es una herramienta ETL de Microsoft SQL Server que además del proceso ETL permite otras funciones como la fusión, limpieza o agregación de datos e incluye herramientas de diseño, funciones de workflows, herramientas gráficas, etc. Además, SSIS simplifica la transición de datos de una base de datos a otra y puede extraer datos de una gran cantidad de fuentes de datos: bases de datos de SQL Server, archivos de Excel, bases de datos Oracle y DB2, etc. Como partner Power BI de Microsoft, Bismart trabaja con esta herramienta.
Mientras que ETL se refiere al proceso de extraer, transformar y cargar datos (Extract, Transform and Load), SSIS es una herramienta que hace precisamente eso: extracción, transformación y carga de los datos de múltiples fuentes a una única base de datos como un data warehouse.
Precisando, lo que hace realmente ETL es leer datos de otra base de datos o de múltiples fuentes de datos para convertirlos a través de tablas de búsqueda, aplicando reglas o combinando los datos existentes con otros datos. Así, el proceso asegura que los datos cumplen los requisitos fijados por la empresa o por el cliente del proceso, para finalmente almacenarlos en un data warehouse. El proceso, pues, garantiza la relevancia, utilidad, precisión, calidad y accesibilidad de los datos por parte de sus consumidores.
Como ya hemos visto, SSIS se refiere a SQL Server Integration Services y su uso se extiende a una gran cantidad de procedimientos relacionados con el traslado y la migración de activos de datos, más allá del proceso ETL. SSIS es, básicamente, una herramienta de integración de datos diseñada para resolver necesidades empresariales y aplicaciones de workflows. Entre sus múltiples sistemas, SSIS dispone de una herramienta específica para realizar procesos ETL.
Para conseguir la integración de los datos y llevar a cabo el proceso ETL, SISS sigue estos pasos:
- SISS parte de un almacén de datos operacionales. Es decir, un tipo de base de datos creada para integrar datos sobre los cuales tienen que hacerse operaciones adicionales.
- Se lleva a cabo el proceso de extracción, transformación y carga de los datos (ETL).
- El data warehouse recoje los datos de múltiples fuentes de datos para que puedan ser usados de forma provechosa.
- Por último, los datos son almacenados en el data warehouse, donde pueden gestionarse datos de varias fuentes para dar respuesta a las necesidades empresariales y ayudar en la toma de decisiones.
Sin embargo, SSIS tiene capacidad para realizar otros procesos además de ETL. Por ejemplo, el conjunto de sistemas permite limpiar, agregar y fusionar datos. También simplifica el traslado de datos de un sistema o fuente a otro y se puede conectar con una gran cantidad de APIs para extraer datos de SQL Server, Oracle, DB2, archivos de Excel, etc.
Más allá de la migración de datos, SSIS dispone de herramientas gráficas y puede realizar workflows como operaciones de FTP, mandar correos electrónicos, etc.
Está claro, pues, que hablar de las diferencias entre ETL y SSIS no es del todo acertado, ya que ETL es un proceso y SSIS es una herramienta de Microsoft usada para realizar ese proceso.
Fases del proceso ETL
1. Extracción: La extracción es la primera fase de un proceso ETL y consiste en extraer los datos de los sistemas y aplicaciones donde se encuentran. En esta fase los datos son convertidos a un único formato y depurados. Es decir, todos pasan a ser compatibles unos con otros para que se puedan interpretar en su conjunto y se eliminan aquellos que resulten innecesarios y se corrigen errores.
2. Transformación: En esta etapa los datos se transforman para que coincidan con la estructura que hayamos determinado en nuestro data warehouse. Es decir, en un data warehouse podemos agrupar los datos por conceptos de libre elección —según nuestras áreas de negocio, los departamentos de la empresa o el uso que les vayamos a dar, por ejemplo—. Además, en esta fase los datos se validan técnicamente, se normalizan y se les aplican filtros, cruces y agregados.
3. Carga: Como su nombre indica, en esta fase los datos ya transformados se cargan al data warehouse donde quedan registrados para siempre —el data warehouse es un sistema no volátil que evita la pérdida o alteración de la información. Además, el data warehouse se va actualizando a medida que se añaden nuevos datos y es la mejor manera de obtener un registro histórico de toda la información de la empresa.
Llevar a cabo un proceso ETL no es tarea fácil y, de hecho, puede resultar muy compleja. Por eso, es necesario tener el conocimiento adecuado para elegir la herramienta y el tipo de procesamiento adecuados dependiendo de la cantidad de datos de la que disponemos, del tamaño y sector de la organización, de las operaciones que se quieran realizar, etc.
Procesamientos ETL
Existen tres procesamientos ETL posibles que no son excluyentes, es decir, que pueden combinarse en una misma ETL.
- Procesamiento de datos: Un archivo de datos se divide en distintos archivos para que la información pueda ser consultada en paralelo.
- Procesamiento pipeline (de segmentación): Este procesamiento admite la operatividad simultánea de varios componentes en el mismo archivo. Es decir, se pueden estar realizando operaciones en la columna 1, 2 y 3 paralelamente, ganando así mucho tiempo y consiguiendo resultados más rápidamente.
- Procesamiento de componentes: En este caso, el funcionamiento simultáneo se da en múltiples procesos que pueden estar en distintos archivos, pero en un único flujo de datos.
¿Qué características debe tener una ETL?
Un proceso ETL debería cumplir una serie de requisitos para que su funcionamiento sea el conveniente:
- Capacidad de adaptación: Una ETL debe ser capaz de conectar con múltiples sistemas que incluyen datos de estructuras distintas como bases de datos relacionales y no relacionales, XML, ficheros sueltos de múltiples formatos, aplicaciones ERP, CRM y SCM, servicios web como Google Analytics, correos electrónicos, plataformas de ofimática, etc.
- Capacidad de entrega de datos: Asimismo, debe tener la capacidad de aportar datos a otras aplicaciones.
- Capacidad de transformación de datos: La transformación de datos es una de las fases clave de un proceso ETL. Una ETL óptima debe poder realizar transformaciones básicas (cálculos simples o conversión de tipos), transformaciones intermedias (agregaciones, sumas, etc.) y transformaciones complejas como análisis de textos.
- Capacidad de metadatos y modelado de datos: Una ETL debe ser capaz de recuperar los modelos de datos originales, crear y mantener modelos, mapear de modelos físicos a lógicos, sincronizar los cambios en los metadatos y disponer de un repositorio de metadatos abierto.
- Capacidad de diseño y entorno de desarrollo: La ETL debe tener competencias para representar gráficamente los objetos del repositorio, los soportes para test y debugging, gestionar workflows, etc.
- Capacidad de gestión de datos: Es decir, legitimar la calidad de los datos, crear perfiles, tener capacidad de minería, etc.
- Capacidad de adaptación a otras plataformas: La ETL debe adaptarse a las otras plataformas con las que trabaja la empresa.
- Capacidad de operaciones administrativas como la monitorización de las integraciones de datos, manejar errores, ejecutar controles de seguridad, etc.
Capacidad de arquitectura e integración: Una ETL debe garantizar la interoperabilidad entre los distintos elementos que componen la herramienta de integración de datos.
¿Cuándo necesitamos un proceso ETL?
En la actualidad, prácticamente todas las empresas requieren de un proceso de integración de datos óptimo como el proceso ETL. Este proceso establece un sistema de soporte para la toma de decisiones empresariales y consigue que los datos sean accesibles desde cualquier lugar y en cualquier momento.
Asimismo, la gran ventaja del proceso ETL es que asegura que los datos siempre estarán limpios, consolidados y listos para ser usados. El almacén de datos donde se encuentran los datos tras el proceso ETL, normalmente un data warehouse, se actualiza automáticamente. Además, el proceso ofrece un repositorio histórico de datos, ya que almacena todos los datos históricos, los guarda sin posibilidad de perdida y permite a los analistas poder realizar comparaciones temporales completas, analizar distintos períodos temporales, descubrir tendencias temporales e incluso predecir tendencias futuras.
ETL maximiza el valor de nuestros activos de datos, fomenta el data quality y asiste a los cargos decisivos a la hora de obtener respuestas certeras a preguntas clave para el buen funcionamiento del negocio. Asimismo, al integrar una gran variedad de datos procedentes de múltiples fuentes, ETL minimiza el procesamiento del sistema de producción, reduciendo el tiempo de respuesta necesario para el análisis y el desarrollo de informes.
La finalidad primaria de un proceso ETL es que los datos estén listos para que puedan guiar el proceso de toma de decisiones. ETL construye y carga un data warehouse con datos consolidados, íntegros, fidedignos y útiles. Los datos innecesarios, erróneos o ineficaces no llegan a almacenarse en el data warehouse, cosa que, además, supone un ahorro de costes importante para la organización.
Además de ahorrar costes, podemos usar ETL incluso para generar ingresos a partir de nuestros activos de datos. ¿Cómo? Veámoslo con un ejemplo. Imaginemos que el director de un hotel precisa recopilar datos sobre la ocupación media y las tarifas de cada habitación de su hotel. Mediante el proceso ETL y otras herramientas de business intelligence, podremos descubrir los ingresos agregados de cada habitación y, por ejemplo, hallar estadísticas sobre la cuota general del mercado. Reuniendo estos datos, el director del hotel puede calibrar su posición respecto a varios mercados del sector, analizar la evolución de la tendencia en el tiempo y, en consecuencia, decidir ofrecer descuentos estratégicos en el precio de sus habitaciones.
¿Quieres implementar un proceso ETL o ELT en tu organización?
¿Cómo elegir la herramienta ETL adecuada?
Hoy en día existen una gran cantidad de herramientas especialmente dedicadas a implementar procesos ETL, pero, evidentemente, no todas tienen las mismas capacidades ni resultan igual de eficientes para todas las compañías. Para asegurarnos de que el proceso ETL opera con eficacia, es fundamental saber cómo elegir la herramienta ETL adecuada para nuestra compañía.
En primer lugar, a la hora de elegir una herramienta ETL debemos asegurarnos de que dicha herramienta cumple todos los requisitos —expuestos arriba— que debe tener una herramienta ETL según Gartner.
Una vez tenemos claras las capacidades que debe tener la herramienta, podemos pasar a considerar cuál elegir de entre los distintos tipos de herramientas ETL que existen. Es fundamental tener en cuenta que la efectividad de la herramienta dependerá de las características de la empresa, de la cantidad de datos con os que trabaja, de los usos que quiera darle a esos datos. Es decir, todas las tipologías de herramientas ETL tienen aspectos positivos, la clave está en elegir el tipo de herramienta que mejor encaje con nuestra organización y con el propósito de nuestros datos.
Las herramientas ETL se pueden clasificar en las siguientes categorías:
- ETL Enterprise: Son herramientas que cuentan con una gran cantidad de funcionalidades y tienen capacidad de conexión una gran variedad de fuentes de datos en diferentes formatos. Por otro lado, debido a sus capacidades, este tipo de herramientas suelen tener un coste más elevado que las demás y, por lo tanto, son ideales para grandes corporaciones.
- ETL Open Source: Son herramientas ETL de código libre y, como tal, gratuitas. Este tipo de herramientas suelen estar creadas a partir de un enfoque general y, por lo tanto, para adaptarlas a las necesidades particulares de una empresa requieren de procesos de personalización que suelen ser complejos y de larga duración. Asimismo, estos procesos de personalización deben ser llevados a cabo por expertos en el proceso que, habitualmente, no se encuentran dentro del equipo de la empresa, lo que acaba suponiendo que este tipo de herramientas tengan un coste añadido elevado a pesar de ser gratuitas.
- ETL personalizadas: Dentro de esta categoría encontramos las herramientas desarrolladas a medida por empresas. Este tipo de procesos personalizados suelen cumplir a la perfección con los objetivos y necesidades específicas de las organizaciones que las diseñan pero, en cambio, el proceso de desarrollo es dificultoso, conlleva un gran esfuerzo, suele ser muy costoso y, evidentemente, también requiere de expertos en la materia.
- ETL Cloud: En este grupo encontramos los servicios ETL integrados en la nube de corporaciones como Google, Microsoft o Amazon. Estos servicios son más flexibles que las otras herramientas ETL y tienen otras ventajas como que la implementación y puesta en marcha del proceso suele ser mucho más rápida que en los otros casos.
Una vez conocemos las diferentes tipologías de herramientas ETL, podemos empezar a valorar las características de cada una y reflexionar sobre en qué debemos basarnos para elegir la herramienta óptima para nosotros.
¿En qué debemos fijarnos?
Al elegir una herramienta ETL es primordial fijarnos, como mínimo, en los siguientes aspectos:
- Precio: Teniendo en cuenta el coste de adquisición (el precio de la herramienta en sí), como los costes añadidos, entre los cuales encontramos los costes de consultoría, de soporte, de formación a los empleados, etc. Como ya hemos mencionado, algunas herramientas ETL tienen un coste de adquisición superior que otras y, por otro lado, algunas suelen suponer más costes añadidos que las demás.
- Usabilidad: Al elegir una herramienta ETL es elemental considerar quién va a usarla y para qué. Algunas herramientas son más fáciles de usar que otras y cada tipo de herramienta requiere de unos conocimientos técnicos determinados. Algunas solo pueden ser trabajadas por expertos y otras, a través de la formación adecuada, pueden llegar a ser usadas por usuarios de perfil menos técnico.
- Compatibilidad: Que la herramienta ETL sea compatible y se pueda conectar con todos los sistemas, softwares, aplicaciones y dispositivos de la empresa es un requisito básico. De lo contrario, el proceso ETL no podrá llevarse a cabo al completo y la adquisición de la herramienta no habrá tenido mucho sentido. Por eso, es preciso conseguir una herramienta que sea compatible con los procesos, dispositivos y formas de trabajar existentes de la compañía.
- Velocidad: Las herramientas ETL tienen distintas velocidades que, primordialmente, dependen de la capacidad de cálculo de la herramienta y de la cantidad de datos que necesitamos extraer, cargar y transformar. Como ya hemos anunciado, las grandes corporaciones que trabajan con Big Data, suelen apostar por herramientas ETL Enterprise.
- Data quality: Además de cargar y extraer datos, una de las funciones básicas de ETL es transformar, validar y consolidar nuestros datos. Por lo tanto, la herramienta ETL que escojamos debe tener la capacidad de hacer estas funciones y de garantizar que nuestros datos son de calidad, así como asegurar su gobernabilidad.
- Gestión y control: Por último, es conveniente que nuestra herramienta tenga incorporados sistemas de control para que identifiquen problemas, errores e ineficiencias en los datos para que puedan ser corregidos.
Las herramientas líder del mercado según Gartner
La consultora tecnológica Gartner publica cada año un informe —el Cuadrante Mágico de Gartner— en el que se hace un ranking de las mejores herramientas tecnológicas según diferentes funcionalidades y áreas de actuación. El cuadrante clasifica las herramientas, plataformas y APIs en 4 cataegorías: Chanllengers (Desafiadores), Leaders (Líderes), Niche players (actores de nicho) y Visionaries (visionarios).
Fijándonos en el último informe de herramientas de integración de datos publicado por Gartner en 2020, vemos que las 10 mejores herramientas ETL según la multinacional son: Informatica, IBM, SAP, Oracle, SAS, Microsoft Azure, Qlik, Talend y TIBCO. Consulta el Cuadrante Mágico de Gartner sobre herramientas de integración de datos completo a continuación:
Ventajas de un proceso ETL
Disponer de un proceso ETL es una ventaja competitiva para cualquier empresa, ya que permite que los trabajadores y directivos de una empresa puedan acceder a los datos de forma rápida y sencilla y puedan manejarlos incluso aquellas personas que no son necesariamente expertas o que no tienen las capacidades técnicas.
Además, la ETL es un elemento base para garantizar la integración de datos, el data management y el gobierno de datos que, a su vez, contribuyen a una mejor toma de decisiones estratégicas.
Asimismo, el proceso ETL está estrechamente relacionado con el data quality, es decir, al análisis de calidad de nuestros datos, ya que cuando los datos pasan por el proceso son validados, depurados, limpiados, se corrigen errores, etc. Es decir, implementar un proceso ETL nos asegura que nuestros datos tienen la calidad deseada, cosa que permitirá tomar mejores decisiones empresariales, evitar errores operacionales, reducir el coste de la reparación de datos y librar al equipo de gestión de datos de tareas innecesarias.
A continuación, hacemos un repaso de las principales ventajas de implementar un proceso ETL en una empresa:
- Data-driven decisions: ETL es uno de los procesos clave que fomenta la cultura data-driven y propicia la toma de data-driven decisions (DDDM). Así pues, implementar un proceso ETL puede ser el impulso que tu empresa necesita para tomar mejores decisiones empresariales basadas en datos consolidados, de alta calidad y recopilados con objetivos empresariales concretos en mente.
- Capacidades de Big Data: El proceso ETL permite la gestión de grandes cantidades de datos por parte de las organizaciones.
- Integración de datos: ETL implica la recopilación e integración de datos en formatos dispares y procedentes de múltiples fuentes de datos, en un único lugar. Así pues, el proceso facilita la integración de todos los datos de la organización y ayuda a la empresa a ganar una visión íntegra y más fiable de la actividad y situación de su negocio.
- Data quality: Como ya se ha mencionado, el proceso ETL asegura la calidad de los datos, en la medida en que el proceso en sí implica la depuración, limpieza y transformación de los datos. Al llevar a cabo el proceso ETL, los datos erróneos, inconsistentes, redundantes e innecesarios son eliminados y los datos útiles son validiados y consolidados.
- Inteligibilidad: ETL tiene la capacidad de convertir los datos más desestructurados y complejos en en información fácilmente comprensible, útil y lista para ser analizada en aplicaciones de data analysis como Power BI. En Bismart, como empresa partner Power BI de Microsoft, utilizamos esta herramienta para desarrollar informes y visualizaciones atractivas, entendibles e interactivas.
- Automatización: Uno de los grandes beneficios de los procesos ETL es que automatizan procesos, permiten prescindir de tareas innecesarias y que requieren mucho tiempo y permiten que los científicos e ingenieros de datos puedan dedicarse a actividades más productivas.
ETL Cloud Service
Una de las tendencias más novedosas relacionadas con ETL es su progresivo desarrollo en la nube: ETL Cloud Service. Cada vez más empresas optan por realizar sus procesos ETL en entornos cloud en lugar de hacerlo en servidores locales. Lo confirma un estudio de IDG publicado en 2020 que apunta que el 81% de las empresas ya cuentan con una o más aplicaciones y tienen parte de su infraestructura en la nube. Asimismo, el informe destaca que de entre esas compañías, el 92% tienen parte de sus entornos IT en la nube.
El traslado de ETL a la nube no es casualidad y está relacionado con la evolución del mundo hacía el entorno digital. Igual que pasa en otras esferas de la vida, los negocios almacenan hoy la gran mayoría de sus activos de datos, herramientas, servicios y softwares en la nube.
Como ya explicamos en una entrada anterior donde expusimos los beneficios de la integración cloud, adquirir o desarrollar un proceso ETL basado en la nube ofrece ciertas ventajas como una mayor velocidad o el hecho de que la instalación y puesta en marcha de ETL es mucho más rápida. Además, el entorno cloud permite streaming en tiempo real, favorece la integración y la escalabilidad, supone un ahorro de dinero y es una forma de asegurar la seguridad de los datos de la empresa, debido a que las compañías que ofrecen entornos cloud para procesos ETL deben revisar, reforzar, fortalecer y renovar sus sistemas de seguridad constantemente.
Diferencias entre ETL local y ETL Cloud
El proceso ETL difiere según el entorno en el que se desarrolla. En un proceso ETL llevado a cabo en un servidor local, los datos son extraídos de una fuente de datos local y, después de su transformación, se cargan en otro servidor local o data warehouse local. Este tipo de almacenes o servidores normalmente se encuentran físicamente dentro de la propia oficina de la compañía.
ETL Cloud Service o el proceso ETL llevado a cabo en la nube cumple exactamente la misma función que ETL local y contempla los mismos pasos. La única diferencia, pues, es que tanto el almacén de datos fuente como el data warehouse donde los datos consolidados son finalmente cargados están digitalizados y se almacenan en la nube.
Esta diferencia, sin embargo, condiciona el proceso e implica que un proceso ETL en local y un proceso ETL cloud se lleven a cabo de formas algo distintas.
En el entorno cloud el proceso se desarrolla a partir de clústers de computación compartidos que operan como entidades independientes y se encuentran en distintos lugares del mundo. Así, los procesos de computación se desarrollan mediante espacios de trabajo en entornos cloud a través de sistemas como, por ejemplo, Data Factory. Estos procesos logran mayores niveles de conectividad entre data sources que ETL local y capacitan la gestión gráfica del flujo de datos mediante interfaces que conectan las fuentes de origen con los almacenes de destino de los datos.
Además de mayores capacidades, velocidad y conectividad; las herramientas y sistemas que participan en el proceso ETL cloud resuelven con eficacia la mayoría de limitaciones del proceso ETL más tradicional. Los principales problemas que solventa la nube son el elevado coste de los almacenes de datos y servidores físicos o la perdida de toda la información recopilada y consolidada cada vez que ocurre un fallo técnico. Por otro lado, el entorno cloud prescinde de tareas necesarias en un proceso ETL llevado a cabo en un servidor local: actualizaciones, reparación de bugs, mantenimiento, etc.
Todo esto convierte la velocidad en el mayor beneficio de llevar a cabo un proceso ETL en la nube. Las organizaciones que aún desarrollan sus procesos ETL a partir de servidores locales están en desventaja respecto a las compañías que se han mudado al cloud, ya que difícilmente podrán competir con la agilidad y el dinamismo del servicio cloud.
Otra ventaja importante de la nube es que permite una mayor escalabilidad. El proceso, al realizarse sin necesitar ningún tipo de instalación o hardware, permite a las empresas expandir sus recursos cuando lo necesitan, sin necesidad de grandes inversiones o de pagar por material que no utilizan. Este tipo de expansión automática, además, conlleva un gran ahorro de tiempo y de dinero, ya que en la nube las empresas solo pagan por la capacidad de procesamiento y el espacio que utilizan. En cambio, en un servidor local, resulta sumamente difícil adaptar el tamaño y capacidad del servidor a las necesidades específicas del negocio en cada momento. Las necesidades de las empresas evolucionan constantemente y la escalabilidad es un requisito para cualquier empresa que pretenda focalizarse en la expansión y el crecimiento.
En definitiva, el beneficio más notorio y apreciado de ETL cloud es el nivel superior de velocidad. La nube facilita la rapidez de las tareas de computación y favorece el desarrollo óptimo y ágil de actividades de business intelligence, ya que los entornos locales tienen más predisposición a encallarse debido a la velocidad trepidante de crecimiento del volumen de datos con el que trabajan las organizaciones. Asimismo, el entorno cloud se conecta tanto a entornos locales como a otros servicios alojados en la nube.
Ventajas y desventajas de ETL en la nube
Como ya hemos visto, a medida que la tecnología, la digitalización y la evolución de las capacidades de Internet han ido progresando, las empresas han ido trasladando sus procesos ETL al entorno cloud. En esta línea, IDG anunciaba en 2018 que el 38% de las organizaciones reconocían que sus departamentos IT pedían el traslado total de la infraestructura IT a la nube.
Como ya hemos visto, las razones son múltiples. La ventaja más destacada de ETL Cloud Service es, sin duda, la mayor velocidad. Las tareas de computación de las que requiere cualquier proceso ETL son desarrolladas de forma mucho más ágil en la nube. De hecho, en servidores locales el proceso y las actividades de business intelligence pueden verse interrumpidas a medida que los activos de datos de una compañía se expanden y aumentan. La mayoría de servidores locales disponen de capacidades limitadas y, llegado el momento, pueden dejar de funcionar de forma óptima. En la nube, en cambio, el espacio puede escalarse fácilmente y las organizaciones pueden incrementar la capacidad y el procesamiento cuando lo requieren. Además, el entorno cloud es sumamente más flexible que el entorno local, en la medida en que las empresas pueden pagar únicamente por aquello que usan.
ETL Cloud: Automatización del data warehouse
Hoy en día el ciclo de vida de un data warehouse se puede automatizar mediante una tecnología puntera basada en patrones y procesos de diseño sofisticados que automatizan la planificación, el modelado y la integración de datos del data warehouse. La automatización sirve para evitar aquellas tareas que conllevan una mayor cantidad de tiempo como la generación de códigos ETL en una base de datos.
El proceso ETL basado en la nube se puede aplicar para automatizar data warehouse. Un data warehouse es un tipo de base de datos especialmente pensada para propiciar el almacenaje, filtrado y análisis de grandes cantidades de datos y que permite consultar y analizar los datos de forma simultánea y cruzada, sin necesidad de combinar y consolidar la información de múltiples fuentes de datos.
Pasos de la automatización de un data warehouse
En un data warehouse tradicional, los datos pasan por tres fases:
- Base de datos relacional (OLTP): En esta fase los datos son extraídos de bases de datos relacionales mediante scripts SQL. Previamente a su traslado, los datos son limpiados y depurados para evitar la inclusión de información inexacta o los datos que contienen errores. En esta etapa, los datos están basados en un modelo relacional entre entidades y se usan para el procesamiento transaccional online.
- Almacén de datos analíticos (OLAP): Durante esta etapa los datos transaccionales son modelados y transformados mediante esquemas en forma de estrella o copo de nieve. Posteriormente se trasladan a un servidor de procesamiento analítico online u OKAP, mediante un modelo de datos multidimensional o relacional OLAP. Todo este proceso se lleva a cabo para estructurar, ordenar y simplificar los datos para que sus consumidores puedan realizar queries y elaborar informes a partir de ellos. Una vez transformados, los datos son cargados a un almacén de datos, donde finaliza el proceso ETL.
- Data analysis y reporting: Tras el proceso ETL, los datos suelen ser integrados a plataformas de análisis y business intelligence donde los científicos de datos los exploran, analizan y transforman en informes corporativos o visualizaciones de datos.
Si usamos un software de automatización de data warehouse para llevar a cabo este proceso, podremos agregar y mover los datos dispares directamente desde las fuentes de origen hacía un único almacén de datos. Además, la automatización no requiere de código. El software automatiza el despliegue de código ETL y la ejecución por lotes del proceso de almacenamiento y ofrece un enfoque fluido y basado en metodologías ágiles.
El software de automatización desempeña una gran variedad de funcionalidades, entre las cuales destacan:
- Modelado de datos
- Integración de datos
- Procesos ETL y ELT
- Inclusión de estructuras desnormalizadas, normalizadas y multidimensionales.
- Conexión con proveedores de datos y otras herramientas BI
ETL para aumentar el valor de un data warehouse
Llevar a cabo un proceso ETL habilita maximizar el valor de nuestro almacén de datos o data warehouse. Un data warehouse simplemente actúa como el lugar donde los datos son guardados. Las herramientas de business intelligence, por su lado, sirven para realizar análisis a partir de los datos una vez ya han sido transformados. ETL es el proceso intermedio que prepara todos los datos, provengan de donde provengan y en el formato en el que se encuentren, para que puedan ser analizados y utilizados.
En este sentido, es fundamental entender ETL como un proceso vinculado a la adquisición de un data warehouse. Sin el proceso ETL, el almacén de datos no permite aprovechar el valor de los datos.
En la misma línea, si nuestro data warehouse se encuentra en un entorno cloud, es conveniente apostar por un proceso ETL cloud.
De ETL a ELT: Cómo el Big Data ha transformado el proceso ETL
La aparición del Big Data ha provocado una transformación significativa en la forma en que se gestionan y almacenan los datos, lo cual ha llevado a nuevas demandas en cuanto al procesamiento tradicional de almacenamiento de datos. A medida que han surgido nuevos requisitos en términos de volumen y velocidad, los procesos ETL han evolucionado hacia una perspectiva diferente conocida como ELT. Esta nueva perspectiva ha surgido como respuesta a las demandas actuales de volumen, velocidad y veracidad en la integración y el almacenamiento de datos, y ha cambiado el orden habitual del proceso ETL.
El término "Big Data" surgió por primera vez a finales de los años 90 para describir la creciente problemática que enfrentaban las organizaciones en relación con la cantidad de datos generados. En 1997, un grupo de investigadores de la NASA publicó un artículo destacando que el aumento de los datos se estaba convirtiendo en un desafío para los sistemas informáticos existentes. Esta situación impulsó el avance tecnológico hacia plataformas capaces de manejar conjuntos de datos masivos. En 2001, la empresa estadounidense Gartner publicó una investigación titulada "3D Data Management: Controlling Data Volume, Velocity and Variety", donde se mencionaron por primera vez las "3V" que las tecnologías de Big Data debían abordar: volumen, velocidad y variedad.
El Big Data planteó nuevos desafíos para el proceso ETL. El aumento en volumen, velocidad y variedad exigido por el Big Data cuestionó la capacidad de las herramientas ETL, que en muchas ocasiones no podían manejar el ritmo necesario para procesar conjuntos de datos masivos, lo que generaba falta de capacidad y velocidad, además de suponer sobrecostes.
La aparición de nuevos formatos y fuentes de datos, junto con los requisitos de consolidación de datos, reveló la rigidez del proceso ETL y cambió la forma tradicional de consumir datos. La demanda de mayor velocidad y variedad llevó a los consumidores de datos a necesitar acceso inmediato a los datos en bruto, en lugar de esperar a que el departamento de TI los transformara y los hiciera accesibles.
Además, el Big Data también impulsó la creación de los data lakes, que son almacenes de datos que no requieren un esquema predefinido, a diferencia de los data warehouses tradicionales, lo que introdujo esquemas de almacenamiento más flexibles.
Las herramientas ETL, que se construyeron pensando principalmente en la gestión por parte del departamento de TI, suelen ser complicadas de instalar, configurar y gestionar. Además, estas herramientas conciben la transformación de datos como una tarea exclusiva de los profesionales de TI, lo que dificulta el acceso de los consumidores de datos. Según esta lógica, los consumidores solo pueden acceder al producto final almacenado en un data warehouse estandarizado.
En este contexto, surgió la innovación, remodelando el proceso y haciéndolo más adecuado para trabajar con Big Data y servicios en la nube. ELT proporciona mayor flexibilidad, escalabilidad, rendimiento y velocidad, al tiempo que reduce los costos.
Sin embargo, ELT también presenta sus propios desafíos. A diferencia de ETL, las herramientas ELT están diseñadas para facilitar el acceso a los datos a los consumidores finales, lo que democratiza el acceso a los datos y permite a los usuarios obtenerlos desde cualquier fuente de datos a través de una URL. Sin embargo, esto puede plantear riesgos para la gobernanza de los datos.
¿Es, ELT, el futuro de ETL?
Aunque ELT ha mejorado tanto la extracción (E) como la carga (L) de datos, sigue habiendo desafíos en cuanto a la transformación (T). En la actualidad, el análisis de datos desempeña un papel fundamental en las empresas. A pesar de los esfuerzos de ELT, el análisis basado en la transformación de datos no se ha simplificado y sigue siendo competencia del departamento de TI, especialmente de ingenieros y científicos de datos. Transformar los datos en bruto en activos listos para ser utilizados por los consumidores aún requiere de múltiples herramientas y procesos complejos que los consumidores de datos no tienen la capacidad de abordar.
Además, los diversos procesos y herramientas necesarios para la transformación de datos siguen presentando los mismos problemas que ETL, como la velocidad del proceso, la cantidad de recursos requeridos, el costo y la falta de escalabilidad.
¿Se ha resuelto el problema? Para que ELT reemplace definitivamente a ETL, las herramientas ELT tendrían que evolucionar. En cuanto a esta evolución, se espera que en un futuro cercano estas herramientas incluyan capacidades de gobierno de datos y vayan abordando gradualmente las dificultades que aún persisten.
Tanto ELT (Extraer, Cargar, Transformar) como ETL (Extraer, Transformar, Cargar) son procesos utilizados para mover datos sin procesar desde un sistema fuente a una base de datos de destino, como un data lake o un data warehouse. Estas fuentes de datos pueden residir en múltiples repositorios o sistemas heredados, y luego se transfieren al almacén de datos de destino mediante ELT o ETL.
¿Qué es ELT (Extraer, Cargar y Transformar)?
En un enfoque de procesamiento de datos conocido como ELT (Extraer, Cargar, Transformar), se extraen datos no estructurados de un sistema fuente y se cargan directamente en un data lake para su posterior transformación. A diferencia del enfoque tradicional ETL (Extraer, Transformar, Cargar), los datos están disponibles de inmediato para los sistemas de inteligencia empresarial sin requerir una preparación previa. Esto permite a los analistas y científicos de datos realizar transformaciones ad-hoc según sea necesario.
El enfoque ELT es especialmente útil para llevar a cabo transformaciones básicas en los datos, como validación o eliminación de duplicados. Estos procesos se actualizan en tiempo real y se aplican a grandes volúmenes de datos en su estado original.
Sin embargo, el enfoque ELT es relativamente nuevo y su desarrollo técnico aún no ha alcanzado el mismo nivel de avance que el enfoque ETL. Inicialmente, el proceso ELT se basaba en secuencias de comandos SQL codificadas, lo que aumentaba el riesgo de errores de codificación en comparación con los métodos más avanzados utilizados en ETL.
¿Qué es ETL (Extraer, Transformar y Cargar)?
En un proceso ETL, los datos se extraen de sus fuentes de origen y se someten a transformaciones para prepararlos antes de cargarlos en los sistemas de destino.
En un escenario ETL tradicional, los datos no estructurados se extraen y se cargan en un área de preparación o de staging, donde se someten a un proceso de transformación. Durante esta etapa, los datos se organizan, se limpian y se transforman en datos estructurados. Este proceso de transformación garantiza que los datos, ahora estructurados, sean compatibles con el sistema de almacenamiento de datos de destino, generalmente un data warehouse.
¿ETL o ELT? Principales diferencias
A pesar de que las herramientas y el proceso ETL siguen dominando el traslado y la integración de datos en el mundo del business, recientemente el proceso ETL está siendo enfocado desde otra perspectiva: ELT. Si bien es cierto que algunas empresas ya están apostando por ELT en vez de ETL, es necesario resaltar que ELT no tiene por qué ser el sustituto de ETL y es que se pueden complementar ambos procesos y, de hecho, algunos expertos ya hablan del proceso ETLT que combina ambas perspectivas, creando el siguiente pipeline: Extraer, Transformar, Cargar y Transformar.
La principal diferencia entre ambas es la alteración del orden habitual de ETL: Extraer, Transformar y Cargar. En ELT, en cambio, el orden del proceso es: Extraer, Cargar y Transformar. Es decir, en un proceso ELT, los datos son extraídos de la fuente de origen, cargados a un único lugar —normalmente un data lake— y por último, una vez los datos ya están integrados en un mismo almacén de datos, se llevan a cabo transformaciones en los datos: normalización de datos, filtrados, combinaciones, validación de datos, agregaciones, etc. En el proceso ETL, en cambio, los datos se extraen y las transformaciones se realizan antes de cargar los datos en un data warehouse.
A la práctica, sin embargo, es habitual que los distintos pasos de estos procesos se den en paralelo. Es decir, en los procesos ETL, las compañías suelen llevar a cabo la extracción, transformación y carga de los datos a la vez para ahorrar tiempo. La principal diferencia entre ELT y ETL, pues, no está tanto en el orden del proceso sino en la ubicación en la que se realizan las transformaciones de los datos. En el caso de ETL, las transformaciones se dan en un almacén de datos temporal —donde se guardan los datos después de ser extraídos y antes de ser cargados al data warehouse definitivo—. Este almacén temporal funciona con un motor de procesamiento especializado que permite las transformaciones. En el caso de ELT, en cambio, las transformaciones suceden en el almacén de datos back-end, que tiene capacidad de realizar transformaciones y no requiere de un motor especializado. En este sentido, ELT tiene una arquitectura más simple que ETL. Cuando los datos son extraídos de la fuente de origen, se incluyen directamente en la staging area del almacén de datos de destino donde se llevan a cabo las transformaciones en los datos raw. Una vez transformados, los datos se copian en otra área del data warehouse.
Para que el proceso ELT sea productivo es fundamental disponer de las capacidades de computación y procesamiento necesarias para poder llevar a cabo transformaciones en los datos. A la práctica, esto se traduce en la adquisición y uso de herramientas como Azure Databricks, Azure Data Lake o Azure Synapse Analytics. Por otro lado, este orden de proceso requiere de un entorno que pueda ser escalable y que permia aumentar el espacio y la capacidad cuando sea necesario. Entornos como Azure son ideales para este tipo de procesos, ya que las herramientas de Azure son de pago por uso. Es decir, las empresas pagan por el espacio que usan y pueden aumentar la cantidad de espacio cuando quieran.
Como hemos visto, si bien ETL Cloud ofrece una mayor velocidad que ETL local, ELT incrementa aún más esa velocidad, siendo este precisamente su mayor punto a favor. ELT agiliza la ingesta de datos evitando las operaciones más pesadas del pipeline y la copia de los datos, paso imprescindible en un proceso ETL.
A continuación, exploramos de forma gráfica las principales diferencias entre ETL y ELT:
¿Cuáles son los beneficios de ELT en comparación con ETL y viceversa?
Las principales ventajas de ELT: más velocidad
Las principales ventajas de ELT respecto a ETL y el motivo por el cual muchas compañías están apostando por esta nueva tendencia es, sin duda, la mayor velocidad y flexibilidad. ELT tiene una velocidad de ingesta de datos mucho mayor que ETL debido a que se omite la copia de los datos, que si se da en ETL y el pipeline evita otras operaciones arduas.
Asimismo, el otro gran punto fuerte de ELT es que aporta flexibilidad a los analistas de datos que pueden cargar los datos sin tener que definir antes qué van a hacer con ellos y pueden, por el contrario, realizar las transformaciones que quieran en el momento en el que lo necesiten. Además, ELT permite, por el mismo motivo, que los analistas o científicos de datos puedan cargar los datos sin determinar previamente su estructura. ELT, en cambio, es un proceso más rígido que requiere que los analistas definan la estructura y uso de los datos antes de que estos sean cargados y, además, dificulta la recuperación de los datos originales.
A pesar de que ELT aporte beneficios de los que no dispone ETL, lo mismo pasa a la inversa. ETL, por ejemplo, es un proceso más adecuado para trabajar con datos estructurados y puede favorecer la seguridad, calidad y gobernanza de los datos.
En cualquier caso, ambas perspectivas tienen sus pros y sus contras y serán más o menos óptimas según las características de cada empresa y de sus activos de datos, así como del uso que se les quiera dar a los datos. Incluso el uso paralelo de ambas, podría suponer un aumento de valor para la compañía.
Las principales ventajas de ETL: más seguridad
El proceso ETL implica una serie de pasos adicionales en comparación con ELT, lo que lo hace un poco más lento. Estos pasos incluyen cargar los datos en un área de preparación para realizar las transformaciones necesarias. Sin embargo, a cambio de esta mayor complejidad, ETL ofrece un proceso más seguro que resulta en datos más limpios y con menor probabilidad de errores de codificación.
Una de las ventajas clave de ETL es su capacidad para realizar transformaciones en los datos antes de cargarlos en el almacén de destino. Esto proporciona una capa adicional de seguridad, ya que los datos transformados se cargan de forma más confiable y garantizan la integridad de los mismos. Por otro lado, las herramientas ELT están diseñadas para permitir un acceso más directo a los datos por parte de los usuarios finales, lo cual implica un mayor riesgo de seguridad y hace más desafiante garantizar la gobernanza de los datos.
Además, el enfoque ETL ofrece beneficios específicos en términos de cumplimiento de normas de privacidad de datos, como el RGPD (Reglamento General de Protección de Datos). En un proceso ELT, los datos sensibles pueden estar más expuestos a riesgos de robo o hackeo.
En cuanto a las capacidades avanzadas, las herramientas ETL han evolucionado significativamente debido a su mayor tiempo en el mercado. Estas incluyen funciones completas de automatización del flujo de datos, recomendaciones de reglas para el proceso de extracción, transformación y carga, una interfaz visual para especificar reglas y flujos de datos, soporte para la gestión de datos complejos, así como medidas adicionales de seguridad y cumplimiento de normas de privacidad. Estas características hacen que las herramientas ETL sean una opción más sólida y establecida en comparación con ELT.
ETL vs. ELT: ¿Qué opción es mejor?
Tanto ETL como ELT son opciones válidas para llevar a cabo el proceso de extracción, transformación y carga de los datos. Su validez y prevalencia por encima de la otra opción siempre estará vinculada a las características y necesidades específicas de cada empresa, así como a la naturaleza y cantidad de activos de datos.
Si tu empresa ya cuenta con un sistema de procesamiento ETL que funciona con eficacia no existe motivo alguno para renunciar a él y cambiarlo por un proceso ELT. Sin embargo, si tu compañía tiene previsto adquirir más almacenes de datos —especialmente almacenes cloud— en el futuro, podría resultar interesante apostar por ELT.
Siempre hay que tener en cuenta que ELT no es un sistema ni depende de una herramienta específica. Es una arquitectura y, por lo tanto, si dispones de una herramienta ETL como SSIS, puedes fácilmente integrarla en el proceso ELT.
Tampoco hay que descartar el proceso ETLT que no es más que la unión entre ETL y ELT. ETLT puede maximizar el valor del proceso ETL y ELT aprovechando lo mejor de cada uno. En un proceso ETLT, una herramienta ETL podría extraer los datos de sus fuentes de origen y almacenarlas en un data lake para que, a través del proceso ETL, los datos se extraerían del data lake y serían transformados para posteriormente almacenarlos en un data warehouse.
No hay ninguna duda de que la nueva perspectiva de ETL, ELT, ha llegado para quedarse. Sin embargo, no hay que pensar que ELT será sustituirá ETL.
¿Cuándo es adecuado utilizar ETL y cuándo es apropiado apostar por ELT?
¿ETL o ELT? ¿Cuándo es mejor realizar las transformaciones, antes o después de la carga?
La selección entre ETL y ELT depende de varios factores y no se puede establecer una respuesta definitiva sobre cuál es mejor en todos los casos. La elección del enfoque más adecuado debe basarse en las necesidades y requisitos específicos de cada proyecto.
En general, ETL se ha utilizado tradicionalmente cuando se requiere una transformación exhaustiva de los datos antes de cargarlos en el almacén de destino. Este enfoque es preferible cuando se necesita garantizar la calidad y consistencia de los datos antes de su análisis. Al realizar las transformaciones antes de la carga, se pueden aplicar reglas de validación, limpiar datos erróneos o duplicados, y estructurarlos de acuerdo con un esquema predefinido. Además, ETL suele ser más seguro en términos de cumplimiento de normas de privacidad y gobernanza de datos, ya que las transformaciones se realizan antes de que los datos lleguen al almacén.
Por otro lado, ELT se ha vuelto más popular en el contexto del Big Data y la necesidad de procesar grandes volúmenes de datos de manera eficiente. ELT permite una carga rápida de datos en bruto en un data lake o un almacén de datos sin estructurar, lo que acelera el proceso de ingestión. Las transformaciones se llevan a cabo posteriormente, cuando los datos están disponibles en el almacén, lo que permite un análisis ad-hoc y una mayor flexibilidad para explorar los datos sin restricciones previas. ELT es especialmente útil cuando se requiere una alta velocidad de procesamiento y se prioriza la agilidad en la exploración y el descubrimiento de datos.
Es importante evaluar cuidadosamente las necesidades del proyecto, considerando factores como el volumen y la variedad de los datos, la complejidad de las transformaciones requeridas, la seguridad y cumplimiento normativo, así como los recursos y habilidades disponibles en el equipo. En muchos casos, puede ser beneficioso combinar elementos de ambos enfoques, utilizando ETL para la limpieza y estructuración inicial de los datos, y luego aprovechando ELT para el análisis y la exploración posterior. La elección dependerá de las circunstancias particulares y el equilibrio entre los requisitos de calidad, velocidad y flexibilidad del proyecto.
ETL y ELT: Casos de uso
Las empresas deben elegir entre un proceso ETL o un proceso ELT según el caso de uso.
Casos de uso de ETL
El proceso ETL resulta eficiente en escenarios donde se manejan conjuntos de datos pequeños o medianos que requieren transformaciones complejas. Sin embargo, su eficacia disminuye a medida que los conjuntos de datos crecen, ya que las operaciones de agregación se vuelven más complicadas.
¿Qué tipo de empresas pueden beneficiarse del uso de ETL?
- Las organizaciones que necesitan integrar y sincronizar datos provenientes de múltiples fuentes encuentran en ETL una solución adecuada. Es especialmente útil para aquellas empresas que tienen diversos repositorios de datos en diferentes formatos, ya que ETL permite unificar el formato de los datos antes de cargarlos en la ubicación de destino.
- Asimismo, las organizaciones que requieren migrar y actualizar datos provenientes de sistemas heredados se benefician del proceso ETL. Los sistemas heredados suelen necesitar transformaciones para adaptar los datos a la nueva estructura de la base de datos de destino, y ETL proporciona las herramientas necesarias para llevar a cabo dicha transformación de manera eficiente.
Casos de uso de ELT
ELT es una solución especialmente diseñada para la gestión y la integración eficiente de grandes cantidades de datos, ya sean estructurados o no estructurados. Además, resulta especialmente adecuado para entornos que requieren un acceso rápido y en tiempo real a los datos.
Existen ciertos tipos de empresas que se beneficiarían al elegir ELT:
- Empresas con grandes volúmenes de datos: Aquellas organizaciones que manejan cantidades masivas de datos y transacciones pueden aprovechar la rapidez y flexibilidad que ofrece ELT.
- Empresas que necesitan acceso instantáneo a los datos: Para aquellas empresas que generan grandes volúmenes de datos y requieren consultarlos en tiempo real, los retrasos pueden tener consecuencias negativas significativas.
- ETL resulta más apropiado para empresas que manejan datos sensibles y dan prioridad al cumplimiento de las normativas de protección de datos.
En resumen, mientras que ETL se adapta mejor a conjuntos de datos pequeños o medianos que requieren transformaciones complejas, ELT es la elección más adecuada cuando se trata de lidiar con grandes volúmenes de datos, tanto estructurados como no estructurados. Además, ELT es especialmente útil en entornos que demandan el uso de datos en tiempo real y ofrece una ejecución más rápida del proceso.
¿Cumple tu ETL con la GDPR?
El Reglamento General de Protección de Datos (GDPR) es el nuevo marco regulatorio de la Unión Europea en relación con la protección de datos que entró en vigor en mayo de 2018, tras una transición de dos años. La nueva legislación nació con la voluntad de unificar las leyes de protección de datos de todos los países de la Unión Europea y de fortalecer el control de los ciudadanos sobre sus datos e información personal.
La nueva ley obligó a todas las empresas y organizaciones que trataban con datos de ciudadanos de la UE a revisar y adaptar sus políticas de protección de datos y, según un estudio de Gartner, la gran mayoría de empresas seguían sin haber aplicado las medidas necesarias para cumplir la ley meses antes del plazo final de aplicación.
En este sentido, la mayoría de empresas que estaban trabajando con procesos ETL tenían un problema ya que la mayoría de sistemas ETL no cumplían con la GDPR. Esto obligó a las empresas a apostar por nuevos sistemas como Master Data Management Enterprise Information Integration (MDM/EII). MDM/EII es una tecnología de integración de datos e interoperabilidad que habilita la consulta de datos en múltiples formatos y procedentes de distintas fuentes de datos y especialmente diseñado para cumplir con la GDPR. El novedoso sistema que agiliza el traspaso de información entre sistemas asegura que, en cada paso del proceso, la recopilación e integración de datos se lleva a cabo cumpliendo los requisitos de la legislación europea y garantiza la integridad de los datos que son consolidados, exactos y congruentes con el objetivo por el cual son trasladados y empleados.
La integración orientada a la información no requiere modificaciones en los sistemas implicados, sino solamente la implementación del mecanismo de intercambio de información entre los repositorios de datos de las aplicaciones respectivas. Representa la forma de integración más simple y de menor impacto en comparación con otros tipos de integración: orientada a procesos o a servicios.
Asimismo, tras dos años de GDPR, el cumplimiento de las normas de protección de datos personales por parte de las compañías sigue en entredicho. De hecho, la revista Forbes ya publicó en 2017 que más del 50% de las empresas encuestadas no estaban preparadas para las nuevas medidas regulatorias. EL pronóstico fue confirmado por el bufete de abogados DLA que publicó en enero de 2021 que el año 2020 las multas de la GDPR se habían incrementado en un 40% respecto a los 20 meses previos. Este hecho puede ser resultado de que, o bien las empresas incumplen cada vez más la normativa, cosa que sería extraña teniendo en cuenta las consecuencias, o bien la Unión Europea está reforzando progresivamente las sanciones para forzar el cumplimiento de las nuevas políticas de privacidad y protección de datos.
Este panorama nos lleva a reflexionar sobre el papel del data quality y el data governance en la aplicación las medidas reguladoras. El cumplimiento de la GDPR por parte de las organizaciones pasa por garantizar la calidad de los datos y crear medidas de gobierno de datos para tenerlos controlados, validados, consolidados y, especialmente, tener claro qué datos almacena la empresa, donde están todos los activos de datos, por qué procesos pasan, si están seguros, si son fidedignos y cuál es su finalidad.
En este sentido, pues, el problema de la falta de cumplimiento por parte de las empresas no recae en los sistemas ETL. Si bien es cierto que muchos no estaban preparados en su momento, el funcionamiento de las herramientas ETL es seguro si el uso se complementa con políticas de data quality y data governance que, estas sí, son imprescindibles para el cumplimiento de la ley.
El fin de las cookies en Google Chrome: Un paso más en la protección de datos
En 2019, Google hizo pública su intención de eliminar gradualmente las cookies de terceros en Chrome y bloquear otras técnicas de seguimiento encubiertas, como el fingerprinting. Justin Schuh, director de ingeniería de Chrome, explicó que esta era la estrategia de Google para rediseñar los estándares web y garantizar la privacidad predeterminada. A principios de marzo de 2021, Google confirmó su compromiso de eliminar por completo las cookies de terceros en Chrome para 2022. La compañía planea implementar medidas de protección de la privacidad a través del plan "Privacy Sandbox". Algunas de estas nuevas normas ya se están probando en Chrome 89, con la expectativa de ofrecerlas a los clientes de Google Ads a partir de abril.
Aunque la iniciativa ha sido bien recibida por el público en general, ha generado preocupación entre las empresas y los anunciantes sobre el futuro de la publicidad y el marketing digital en un mundo sin cookies.
👉 Para ayudar a los negocios a adaptarse, Bismart ha desarrollado una guía práctica que proporciona medidas y precauciones que se deben tomar en este nuevo escenario. Puedes descargar la "Guía para sobrevivir en un mundo sin cookies" a continuación.