7 wskazówek o wdrażaniu Machine Learning, które obowiązkowo powinien poznać każdy manager – zdaniem Yotama Yardena, experta w Amazon Web Services.

18 January 2019

Autor: Yotam Yarden, Senior Data Scientist w Amazon Web Services, pomaga przedsiębiorstwom w ich podróży do uczenia maszynowego i chmury.

W ciągu ostatniej dekady dane nabrały większego znaczenia, zostały nawet opisane jako “nowa ropa naftowa”. Mogą być one wykorzystywane przez organizacje do zwiększania sprzedaży i utrzymania klientów, usprawniania maszyn przez ich producentów czy identyfikowania nowotworów przy pomocy obrazów tomografii komputerowej. W zasadzie nie istnieje taki segment przemysłu, który nie może ich wykorzystać do poprawy istniejących i tworzenia nowych modeli biznesowych. Co więcej, dane nigdy wcześniej nie były tak łatwe i tanie w gromadzeniu, przechowywaniu, analizowaniu i udostępnianiu, jak obecnie.

Aby w pełni wykorzystać zgromadzone dane, warto rozważyć uczenie maszynowe. Posiada ono ogromny potencjał w zakresie nowych źródeł przychodów i znacznych oszczędności, a firmy coraz częściej wykorzystują najnowsze technologie do wzmocnienia swojej przewagi konkurencyjnej i rozwoju innowacji.

Aby z sukcesem wprowadzić do organizacji projekt z zakresu uczenia maszynowego, warto wziąć pod uwagę następujące wskazówki:

Koncentracja na działalności biznesowej i klientach. Projekt machine learning należy rozpocząć od określenia wyzwania biznesowego i analizy jego rozwiązania. Zbyt wiele firm próbuje zastosować algorytmy “autonomicznych samochodów” lub “sekwencjonowania genomu” tylko dlatego, że zatrudnili eksperta w tej dziedzinie, podczas gdy często istnieją inne, bardziej dopasowane do projektu modele, które mogą przynieść wyższą wartość przy niższych kosztach.

Szybkie i proste iteracje. System uczenia maszynowego należy wprowadzić w sposób szybki i zdecydowany. Przeprowadzenie małych iteracji poprzez testy, weryfikacje koncepcji i pilotaże, pomoże zespołowi szybciej i bardziej jakościowo wprowadzić uczenie maszynowe do organizacji. Gotowy do produkcji prototyp powinien być zaplanowany w ciągu 3 tygodni, a w pełni operacyjna wersja w mniej niż 90 dni. Nawet jeśli system nie korzysta z najnowocześniejszego modelu, można nauczyć się o wiele więcej poprzez szybkie iteracje niż w przypadku zbyt długiego cyklu rozwojowego. Sprawna transformacja w kierunku uczenia maszynowego odbywa się dzięki budowaniu wiedzy i doświadczenia poprzez wykonywanie małych, szybkich i prostych kroków zamiast wieloletniego planowania.

Scentralizować czy zdecentralizować zespoły machine learning? Gdy jest to konieczne, zespoły uczenia maszynowego można scentralizować. Natomiast jeśli to możliwe, należy je decentralizować. Aplikacje uczenia maszynowego, jak każde inne oprogramowanie, wymagają konserwacji, aktualizacji i wsparcia. Scentralizowany zespół może być skuteczny w małej skali, ale gdy organizacja zacznie się rozwijać, może ucierpieć na tym innowacja.

Analiza największych wyzwań stojących przed Data Scientists i programistami[1]: Nieuporządkowane dane (np. zestawy danych, które nie są ustrukturyzowane, mają brakujące atrybuty i mieszane typy danych w tej samej sekcji), braki kadrowe czy brak wsparcia zarządczego i finansowego, to niektóre z wyzwań stojących przed programistami i Data Scientists. Aby się z nimi zmierzyć, należy odpowiednio zaplanować działania. W przypadku braków kadrowych należy rozpocząć zatrudnianie utalentowanych pracowników, zanim zwiększy się zapotrzebowanie w firmie. Gdy dane nie są dostępne, należy rozpocząć ich zbieranie, zanim projekt wejdzie w życie. Z wyprzedzeniem należy znaleźć również interesariuszy, którzy są entuzjastycznie nastawieni do sztucznej inteligencji i mogą wesprzeć projekt poprzez zatwierdzenie budżetu czy liczby pracowników, dostępnością danych oraz kontaktami z innymi interesariuszami biznesowymi.

Rozdzielanie Data Science od DevOps już za nami. Istnieje szeroki wachlarz narzędzi, które umożliwiają osobom zajmującym się analizą danych podjęcie kroku w kierunku programowania i vice versa. Rozdzielenie “nauki” i “produkcji” może wydłużyć cykle rozwoju i innowacji w firmie, prowadząc w ten sposób do problemów jakościowych i własnościowych. Na szczęście, technologia rozwija się w coraz szybszym tempie i nieustannie pojawiają się nowe narzędzia, a eksperci nigdy wcześniej nie mieli łatwiejszego dostępu do nowych dziedzin niż obecnie.

Właściwy stosunek Data Scientists do Data Engineers. Dla większości firm właściwy stosunek Data Scientists do Data Engineers będzie zależał od ich dojrzałości. Jeśli dane przedsiębiorstwa nie są dostępne lub nie są przechowywane, prawdopodobnie zapotrzebowanie będzie większe na Data Engineers. Z drugiej strony, jeśli firma posiada już ustalone źródło, hurtownię i jezioro danych, zapewne będzie potrzebowała więcej Data Scientists. W niektórych przypadkach organizacja będzie miała specyficzne wymagania, które mogą mieć wpływ na potrzebne umiejętności. Z reguły należy zaplanować 2-3 Data Engineers na każdego Data Scientist w fazie budowy i 1:1, gdy system jest już wdrożony.

Przejrzyste wskaźniki KPI (Key Performance Indicators). Na ich podstawie można mierzyć sukces projektu. Jeżeli celem wprowadzenia silnika rekomendacji dla firmy medialnej online ma być “poprawa komfortu użytkowania”, to bez określonego sposobu mierzenia sukcesu, cel ten będzie zbyt niejednoznaczny. Interesariusze mogą nawet nie zgodzić się co do tego, czy został on osiągnięty, co może spowodować zmarnowanie zasobów i nieefektywną pracę na projekcie. Czy cel ten można mierzyć na podstawie czasu spędzonego na platformie, liczby obejrzanych filmów czy liczby nowych kategorii eksplorowanych przez użytkownika? Każdy sposób miary może prowadzić do powstania innego systemu rekomendacji, a jasne cele i wskaźniki KPI pomogą w bardziej efektywnym planowaniu i realizacji.

Projekty z zakresu uczenia maszynowego są ekscytujące i mogą być niezwykle owocne. Jednakże brak koncentracji na kliencie, ograniczone zasoby czy niewłaściwe oczekiwania mogą hamować ich rozwój. Przeprowadzenie ćwiczeń, w których wszyscy interesariusze, zarówno biznesowi, jak i techniczni, przedyskutują największe wyzwania stojące przed ich firmą, a także opracują odpowiedni plan, może w znaczącym stopniu pomóc. Takie warsztaty polegają na przedstawieniu wszystkich największych wyzwań, oszacowaniu poziomu ich wykonalności oraz przewidywanych zasobów, brakujących umiejętności i narzędzi, a także przedstawieniu listy projektów i konkretnego planu realizacji. Jednak nawet najbardziej przemyślany plan nie wejdzie w życie bez odpowiedniego ukierunkowania. Mając to na uwadze, należy pamiętać, że większa koncentracja na kliencie, szybkie iteracje, decentralizacja zespołów, analiza wyzwań, właściwy stosunek Data Scientists do Data Engineers i konkretne KPI to czynniki, które pomogą przeprowadzić projekt z zakresu uczenia maszynowego w firmie z sukcesem.

[1] Kaggle survey