Desde o seu lançamento em 2013, a Databricks conta com o seu ecossistema de parceiros, porquê Fivetran, Rudderstack e dbt, para fornecer ferramentas para preparação e carregamento de dados. Mas agora, em seu encontro anual Data + AI, a empresa anunciou o LakeFlow, sua própria solução de engenharia de dados que pode mourejar com ingestão, transformação e orquestração de dados e elimina a urgência de uma solução de terceiros.
Com o LakeFlow, os usuários do Databricks em breve poderão edificar seus pipelines de dados e ingerir dados de bancos de dados porquê MySQL, Postgres, SQL Server e Oracle, muito porquê de aplicativos empresariais porquê Salesforce, Dynamics, Sharepoint, Workday, NetSuite e Google Analytics.
Porquê a mudança de atitude depois de incumbir nos seus parceiros durante tanto tempo? O cofundador e CEO da Databricks, Ali Ghodsi, explicou que quando perguntou ao seu juízo consultivo no Databricks CIO Forum, há dois anos, sobre investimentos futuros, ele esperava solicitações de mais recursos de tirocínio de máquina. Em vez disso, o público queria uma melhor ingestão de dados de vários aplicativos e bancos de dados SaaS. “Todos na plateia disseram: queremos unicamente poder transferir dados de todos esses aplicativos SaaS e bancos de dados para o Databricks”, disse ele. “Eu literalmente disse a eles: temos ótimos parceiros para isso. Por que deveríamos fazer esse trabalho redundante? Você já pode conseguir isso na indústria.”
Acontece que, embora a construção de conectores e pipelines de dados possa agora parecer um negócio comoditizado, a grande maioria dos clientes da Databricks não estava realmente usando seus parceiros de ecossistema, mas construindo suas próprias soluções personalizadas para ocultar casos extremos e seus requisitos de segurança.
Nesse momento, a empresa começou a explorar o que poderia fazer neste espaço, o que acabou por levar à obtenção do serviço de replicação de dados em tempo real Arcion, em novembro pretérito.
Ghodsi enfatizou que a Databricks planeja “continuar a duplicar” seu ecossistema de parceiros, mas claramente há um segmento do mercado que deseja um serviço porquê oriente integrado à plataforma. “Oriente é um daqueles problemas com os quais eles simplesmente não querem ter que mourejar. Eles não querem comprar outra coisa. Eles não querem configurar outra coisa. Eles só querem que os dados estejam no Databricks”, disse ele.
De certa forma, colocar dados em um data warehouse ou data lake deveria de vestuário ser uma questão importante, porque a geração de valor real acontece no porvir. A promessa do LakeFlow é que o Databricks agora pode oferecer uma solução ponta a ponta que permite às empresas obter seus dados de uma ampla variedade de sistemas, transformá-los e ingeri-los quase em tempo real e, em seguida, fabricar aplicativos prontos para produção. disso.
Basicamente, o sistema LakeFlow consiste em três partes. O primeiro é o LakeFlow Connect, que fornece os conectores entre as diferentes fontes de dados e o serviço Databricks. Está totalmente integrado com a solução de governança de dados Unity Data Catalog da Databricks e depende em segmento da tecnologia da Arcion. A Databricks também trabalhou muito para permitir que esse sistema fosse ampliado rapidamente e para cargas de trabalho muito grandes, se necessário. No momento, oriente sistema oferece suporte a SQL Server, Salesforce, Workday, ServiceNow e Google Analytics, com MySQL e Postgres em breve.
A segunda segmento é LakeFlow Pipelines, que é essencialmente uma versão da estrutura Delta Live Tables existente do Databricks para implementar transformação de dados e ETL em SQL ou Python. Ghodsi enfatizou que LakeFlow Pipelines oferece um modo de baixa latência para permitir a entrega de dados e também pode oferecer processamento incremental de dados para que, na maioria dos casos de uso, unicamente as alterações nos dados originais precisem ser sincronizadas com o Databricks.
A terceira segmento é LakeFlow Jobs, que é o mecanismo que fornece orquestração automatizada e garante a integridade e entrega dos dados. “Até agora, falamos sobre porquê inserir os dados, isso é Conectores. E aí falamos: vamos transformar os dados. Isso é oleodutos. Mas e se eu quiser fazer outras coisas? E se eu quiser atualizar um quadro? E se eu quiser treinar um padrão de tirocínio de máquina com esses dados? Quais são outras ações no Databricks que preciso realizar? Para isso, Jobs é o orquestrador”, explicou Ghodsi.
Ghodsi também observou que muitos clientes do Databricks estão agora procurando reduzir seus custos e solidar o número de serviços pelos quais pagam – um refrão que tenho ouvido de empresas e seus fornecedores quase diariamente durante o último ano. Oferecer um serviço integrado para ingestão e transformação de dados está desempenado a essa tendência.
A Databricks está lançando o serviço LakeFlow em fases. O primeiro é o LakeFlow Connect, que estará disponível porquê uma prévia em breve. A empresa possui uma página de letreiro para lista de espera cá.