Snowflake wprowadza wsparcie dla tabel Apache Iceberg™, jednego z najszybciej rozwijających się otwartych formatów danych – klienci zyskują możliwość sprawnej realizacji strategii open lakehouse

Firma Snowflake, zajmująca się chmurą danych, wprowadziła wsparcie dla tabel Apache Iceberg™, jednego z najszybciej rozwijających się otwartych formatów danych. Dzięki temu organizacje mogą szybciej wykorzystywać dane, bez potrzeby ich przenoszenia, z zachowaniem pełnej interoperacyjności. W efekcie, klienci Snowflake zyskują możliwość sprawnej realizacji strategii open lakehouse, uzyskując dostęp do danych i analiz zarówno w środowiskach otwartych, jak i zarządzanych. Pozwala to szybciej tworzyć, skalować i udostępniać zaawansowane analizy oraz aplikacje wspierane przez sztuczną inteligencję.
Do tej pory organizacje musiały wybierać między zintegrowanymi platformami danych a otwartymi, interoperacyjnymi formatami, jak parquet. Teraz, dzięki pełnemu wsparciu tabel Apache Iceberg w Snowflake, klienci mogą korzystać z najlepszych cech obu rozwiązań. Użytkownicy mogą przechowywać, zarządzać i analizować dane w otwartym formacie, jednocześnie czerpiąc korzyści z łatwej w obsłudze, zintegrowanej i zaufanej platformy Snowflake. Co więcej, wszystko to bez ryzyka uzależnienia od jednego dostawcy, co daje tysiącom klientów na całym świecie niezrównaną wydajność i elastyczność, umożliwiając pełne wykorzystanie potencjału danych i przyspieszenie rozwoju strategii opartych na sztucznej inteligencji.
„Przyszłość danych to otwartość, która musi iść w parze z łatwością użytkowania” – podkreśla Christian Kleinerman, wiceprezes ds. produktów w Snowflake. „Klienci nie powinni musieć wybierać między otwartymi formatami a najwyższą wydajnością czy ciągłością działania biznesu. Dzięki najnowszym rozwiązaniom w tabelach Iceberg, klienci mogą pracować z otwartymi danymi tak samo, jak z danymi przechowywanymi na platformie Snowflake – bez zbędnej złożoności, przy zachowaniu wydajności i bezpieczeństwa na poziomie korporacyjnym”.
Rozszerzone wsparcie dla tabel Iceberg w Snowflake umożliwia przyspieszenie następujących obszarów:
- Analityka w modelu Lakehouse: Klienci mogą teraz korzystać z tego samego silnika obliczeniowego, który obsługuje natywne formaty tabel Snowflake, także w przypadku tabel Iceberg. Dodatkowo, mogą zastosować usługi Search Optimization (wkrótce pełna dostępność) oraz usługę Query Acceleration (dostępne wkrótce) dla jeszcze lepszej wydajności zapytań. Dzięki zarządzanym tabelom Iceberg, użytkownicy zyskują elastyczność otwartych formatów przechowywania danych, zachowując jednocześnie wiodący w branży stosunek ceny do wydajności chmury danych AI. Snowflake aktywnie współpracuje ze społecznością użytkowników Apache Iceberg nad wdrożeniem obsługi danych typu VARIANT.
- Zaawansowane bezpieczeństwo i zarządzanie, z wbudowaną ciągłością działania i ochroną przed awariami: Snowflake wprowadza spójne mechanizmy bezpieczeństwa dla tabel Iceberg, oferując intuicyjne i zaawansowane mechanizmy kontroli, które zapewniają bezpieczeństwo otwartych środowisk lakehouse oraz ułatwiają ich zarządzanie i zgodność z regulacjami. Klienci zyskują zarówno elastyczność otwartych danych jak i wbudowane mechanizmy ochrony. Snowflake rozszerza także swoją niezawodną funkcję replikacji i synchronizacji danych na tabele Iceberg (obecnie w prywatnej wersji testowej), co pozwala na szybkie odzyskiwanie danych w przypadku awarii systemu, cyberataku lub innych incydentów, bez zakłóceń i przy pełnym wsparciu dla architektury lakehouse.
- Udostępnianie danych: Dzięki zastosowaniu technologii bezpiecznego udostępniania danych Snowflake w tabelach Iceberg, klienci mogą bezproblemowo uzyskiwać dostęp do danych, udostępniać je, dystrybuować oraz monetyzować, dokładnie tak samo jak w przypadku natywnych formatów tabel Snowflake.
„Uruchamiając analitykę na tabelach Apache Iceberg ze Snowflake zyskaliśmy elastyczność i wydajność w zarządzaniu danymi naszego systemu produkcyjnego na dużą skalę. Ta otwarta architektura pozwala nam płynnie analizować ogromne zbiory danych przy jednoczesnym zachowaniu efektywności kosztowej, zapewniając szybszy wgląd w poprawę procesów produkcyjnych i szybszy dostęp do krytycznych danych do samoobsługi. Obsługa Iceberg przez Snowflake nie tylko poprawiła naszą elastyczność danych, ale także wzmocniła ogólnobranżowe dążenie do otwartych standardów, zapewniając, że innowacje w dziedzinie genomiki pozostają dostępne, skalowalne i mają wpływ na całą społeczność naukową” – Stephen Horn, Staff Data Solutions Architect, Illumina.
„W Komodo Health naszą misją jest zmniejszenie globalnego zagrożenia chorobami poprzez naszą kompleksową mapę opieki zdrowotnej, platformę, narzędzia i rozwiązania analityczne. Apache Iceberg oraz otwartoźródłowe katalogi, takie jak Polaris Catalog, odegrały przełomową rolę w umożliwieniu nam przekształcania złożonych danych medycznych w użyteczne i zgodne z regulacjami informacje. Otwarte formaty tabel zapewniają elastyczność, interoperacyjność i lepsze zarządzanie danymi, których potrzebujemy, a niezrównana wydajność Snowflake pozwala nam skutecznie skalować te analizy przy maksymalnej efektywności. Ta potężna baza technologiczna pozwala nam uczynić dane medyczne bardziej dostępnymi i użytecznymi, co ostatecznie prowadzi do poprawy wyników leczenia pacjentów w całym ekosystemie opieki zdrowotnej” – Laurent Bride, CTO, Komodo Health.
Kształtowanie przyszłości open source i innowacji w obszarze danych
Snowflake aktywnie wspiera otwarte standardy i projekty open source rozwijane przez społeczność, które zwiększają interoperacyjność danych i przejrzystość. Co więcej, aż 35% przejęć dokonanych przez Snowflake w ciągu ostatnich czterech lat dotyczyło firm rozwijających technologie wzmacniające ekosystem otwartych danych. Do najważniejszych projektów open source, w które Snowflake wnosi swój wkład, należą:
- Apache IcebergTM: Wkład Snowflake w projekt Iceberg umożliwia efektywne i kontrolowane zarządzanie jeziorami danych, wspierając m.in. ewolucję schematów, partycjonowanie i zarządzanie transakcjami
- Apache NiFi: W oparciu o NiFi powstał Datavolo (przejęty przez Snowflake w 2024 roku), który upraszcza proces pozyskiwania danych, ich transformacji oraz zarządzania potokami danych w czasie rzeczywistym.
- Apache PolarisTM (w fazie testów): Zaprojektowany z myślą o eliminacji problemu uzależnienia od jednego dostawcy, projekt Apache Polaris zapewnia bezpieczeństwo na poziomie korporacyjnym oraz interoperacyjność z Iceberg, w środowiskach różnych dostawców chmurowych.
- Modin: Snowflake przyspiesza przetwarzanie danych w pandas workloads dzięki Modin (przejęty przez Snowflake w 2023 roku), umożliwiając skalowanie bez konieczności zmiany kodu.
- Streamlit: Integracja Snowflake ze Streamlit (przejęty przez Snowflake w 2022 roku) pozwala użytkownikom w prosty sposób tworzyć i udostępniać interaktywne aplikacje webowe, dashboardy i wizualizacje danych.
- TruEra: TruEra (przejęty przez Snowflake w 2024 roku) zwiększa przejrzystość działania modeli AI oraz umożliwia monitorowanie ich wydajności, wykrywanie błędów poznawczych, zapewniania zgodności z regulacjami oraz analizy wydajności modeli.