Newsletter Dane i Analizy, 2025-04-28

blog.prokulski.science 1 dzień temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W tym tygodniu mam dla was wybuchową mieszankę materiałów - od głębokiego uczenia maszynowego i tutoriala pisania własnych RAGów, przez wizualizację danych geolokalizacyjnych, po optymalizację dashboardów.

Szczególnie chciałbym zwrócić waszą uwagę na serię artykułów poświęconych Apache Airflow i Kafce - dwa narzędzia, które stały się nieodłącznym elementem nowoczesnych potoków danych. Znajdziecie dzisiaj zarówno wprowadzenie do zmian wdrożonych w Airflow w wersji 3.0, jak i praktyczne informacje o tym jak pisać wydajne DAGi.

A jeżeli jesteście na początku swojej przygody z analizą danych, to wciąż możecie dołączyć do mojego darmowego cyklu mailowego o analizie danych, z którego skorzystało już ponad 300 osób. To świetna okazja, by przyswoić podstawy w przystępny i uporządkowany sposób. Oooo - tutaj.

Dla osób, które już dobrze czują się w kodowaniu, ale chcą uporządkować swoją wiedzę praktyczną, polecam też moją książkę, która pokazuje praktyczne wykorzystanie podstawowych umiejętności w Pythonie. Przeprowadzi Cię ona krok po kroku przez proces budowy kompletnej aplikacji - od pobierania danych z API, przez ich zapisywanie w bazie danych, po prezentację w aplikacji webowej. Szczerze mówiąc, gotowa aplikacja jest dostępna na GitHubie, więc możesz od razu zobaczyć, do czego zmierza materiał. Książka świetnie sprawdzi się dla wszystkich, którzy widzą kod, ale nie do końca rozumieją, co się w nim dzieje.

A jeżeli to wszystko nie wystarczy - dobra wiadomość! Po głowie chodzi mi pomysł na kolejny cykl edukacyjny... Ale o tym więcej wkrótce.

Tymczasem zapraszam do lektury, jak zwykle starannie wyselekcjonowanych materiałów z tego tygodnia!

W zeszłym tygodniu najchętniej czytaliście:

Time Management Building a modern Data Warehouse from scratch 7 ‘Essential’ Programming Books That Are Actually Making You a Worse Developer Using Python and Dash to Visualize/Chart Excel Data in your Local Browser Learning These Things Made Me A RegEx Expert!

Zapraszam też na moje sociale związane z tym newsletterem: fanpage i LinkedIn, niedługo może nieco więcej będzie na YouTube.


#airflow

Everything new in Apache Airflow 3.0!
Andreas w zwięzłym 15-minutowym filmie przedstawia najważniejsze nowości w Apache Airflow 3.0. Szczególną uwagę poświęca Assetom - funkcjonalności, która może zmienić sposób organizacji danych w twoich przepływach pracy. Idealny skrót dla tych, którzy chcą być na bieżąco, ale nie mają czasu w przedzieranie się przez dokumentację techniczną.

Stop Creating Bad DAGs!
Praktyczny przewodnik po optymalizacji skryptów DAG w Apache Airflow. Autor zwięźle podsumowuje najważniejsze zasady pisania wydajnego kodu, które mogą znacząco usprawnić działanie twoich potoków danych. Artykuł pomaga uniknąć typowych pułapek, które sprawiają, iż twoje zadania działają wolniej niż powinny, a kod przypomina spaghetti z węzłów zależności.

#analiza_danych_koncepcje

Anomaly Detection in Time Series Using Statistical Analysis
Artykuł pokazuje, dlaczego sztywne progi wykrywania anomalii często zawodzą w dynamicznych systemach, takich jak monitorowanie ruchu na stronach internetowych. Autor przedstawia statystyczne podejście do wykrywania odstających wartości, które adaptuje się do naturalnych wahań w danych. Idealna lektura dla wszystkich, kto jest zmęczony ciągłym dostrajaniem ręcznych progów alarmowych albo chce wreszcie wykorzystać to, czego uczyli na statystyce w szkole i na studiach.

#architektura

Implement Saga Patterns in Microservices With NestJS and Kafka
Szczegółowy przewodnik po implementacji wzorca Saga w architekturze mikrousługowej. Dowiesz się, jak ten wzorzec rozwiązuje problemy spójności danych rozproszonych transakcji przy użyciu NestJS, Kafki i TypeScript. Praktyczne podejście i konkretny kod, bez zbędnej teorii - wszystko czego potrzebujesz, aby zacząć zarządzać złożonymi transakcjami biznesowymi w swoim systemie rozproszonym.

#bazy_danych

PostgreSQL JSONB - Powerful Storage for Semi-Structured Data
Obiektowy czy relacyjny? Dlaczego nie oba? Dogłębna analiza możliwości typu JSONB w PostgreSQL, który łączy elastyczność dokumentów z mocą baz relacyjnych. Artykuł wyjaśnia, jak binarny format JSONB przyspiesza indeksowanie i zapytania, eliminując potrzebę ciągłego parsowania. Autor uczciwie przedstawia zarówno scenariusze, w których JSONB błyszczy, jak i sytuacje wymagające kompromisów - idealna lektura dla architektów zastanawiających się nad modelowaniem danych.

#ciekawostki

State of AI 2025
Kompleksowy raport badający rzeczywiste wykorzystanie AI w tworzeniu aplikacji webowych. Oparty na szerokiej ankiecie wśród deweloperów, przedstawia dane o najczęściej używanych narzędziach, napotykanych problemach i faktycznych kosztach implementacji sztucznej inteligencji. Wyróżnia się uwzględnieniem perspektywy sceptyków AI, co zapewnia bardziej zrównoważony obraz branży niż typowe publikacje pełne hurraoptymizmu.

From A to B: Algorithms That Power Google Maps Navigation
Jak Google Maps oblicza najlepszą trasę niemal natychmiast Fascynujące spojrzenie za kulisy systemów nawigacyjnych od Google. Artykuł wyjaśnia, jak złożone algorytmy przetwarzają dane o ruchu drogowym w czasie rzeczywistym, by błyskawicznie obliczać optymalne trasy. Poznaj sekrety stojące za funkcjami, które codziennie prowadzą miliony ludzi do celu - znacznie ciekawsze niż sama podróż z punktu A do B.

#kafka

Stop Trusting Kafka Lag!
Prowokacyjny artykuł demaskujący powszechne nieporozumienia związane z opóźnieniem (lag) w Apache Kafka. Autor wyjaśnia, dlaczego poleganie wyłącznie na tym wskaźniku może prowadzić do fałszywego poczucia bezpieczeństwa i pomijania rzeczywistych problemów. Otwierający oczy materiał dla zespołów DevOps, które myślały, iż ich monitorowanie Kafki jest już wystarczająco dobre.

Why Your Event-Driven Microservices Are Failing in CI/CD (and You Don’t Even Know It)
Odkryj dlaczego Kafka w połączeniu ze Spring Boot może być źródłem ukrytych problemów w systemach sterowanych zdarzeniami. Autor demistyfikuje błędne założenie, iż Kafka to tylko prosta rura typu 'wystrzel i zapomnij’, pokazując, jak brak odpowiednich testów prowadzi do nieprzewidywalnych awarii produkcyjnych. Niezbędna lektura dla wszystkich zespołu, który używa Kafki, ale nie testuje jej systematycznie.

#llm_&_chatgpt

Zbuduj Chatbot z BIELIKiem
Wojtek i Marcin prowadzą krok po kroku przez proces budowy systemu RAG (Retrieval Augmented Generation) z wykorzystaniem polskiego modelu językowego BIELIK. Ten 50-minutowy materiał w języku polskim łączy solidną wiedzę techniczną z odrobiną humoru i memów, co czyni go przystępnym choćby dla osób stawiających pierwsze kroki w świecie LLM. Idealna propozycja dla tych, którzy chcą zbudować chatbota odpowiadającego na pytania z własnej bazy wiedzy.

Advanced Techniques to Build Your RAG System
Po obejrzeniu materiału od Wojtka i Marcina możesz mieć ochotę na więcej, zatem... oto kompendium zaawansowanych technik usprawniających systemy RAG. Artykuł wykracza poza podstawowe implementacje, prezentując metody poprawiające jakość pobierania dokumentów i generowania odpowiedzi przez duże modele językowe. Doskonałe źródło inspiracji dla tych, którzy zbudowali już prosty system RAG i zastanawiają się, jak podnieść jego skuteczność na wyższy poziom.

MarkItDown MCP Can Convert Any Document into Markdowns!
Praktyczny przewodnik po wykorzystaniu serwera Markitdown MCP od Microsoft do konwersji plików PDF, Word i PowerPoint na ustrukturyzowany Markdown. Artykuł przeprowadza przez konfigurację, integrację i przykłady zastosowań, pomagając zautomatyzować czasochłonny proces przekształcania dokumentów. Świetne rozwiązanie dla zespołów dokumentacji technicznej, które męczą się z ręcznym formatowaniem materiałów.

#mlops

Deploy a Scikit-Learn Iris Model on a GitOps-Driven MLOps Platform
Kompleksowy przewodnik po budowie lekkiej, ale wydajnej platformy MLOps z wykorzystaniem Minikube, Argo CD i KServe. Autor pokazuje, jak przejść od napisania modelu uczenia maszynowego do wdrożenia go w powtarzalny i zautomatyzowany sposób. Doskonały materiał dla data scientistów chcących rozszerzyć swoje umiejętności o praktyczną wiedzę operacyjną, która jest równie ważna jak sama jakość modelu.

#powerbi

Transforming Call Center Performance with Power BI
Praktyczny przykład wykorzystania Power BI do analizy i optymalizacji pracy call center. Repozytorium zawiera gotowy dashboard, który pomoże zmniejszyć liczbę porzuconych połączeń i poprawić satysfakcję klientów. Takie "zobacz jak", jako źródło inspiracji dla analityków poszukujących konkretnych implementacji, które można dostosować do własnych potrzeb biznesowych.

#python

How to Extract Data from APIs for Data Pipelines using Python
Jak wyciągnąć dane z API w Pythonie i później ich użyć Oto kompleksowy poradnik wyjaśniający proces pobierania danych z API przy użyciu Pythona na potrzeby potoków danych. Autor przedstawia praktyczne metody autoryzacji, paginacji, obsługi błędów i przetwarzania odpowiedzi - wszystkie niezbędne elementy do budowy niezawodnych procesów ekstrakcji danych. Solidna podstawa dla wszystkich inżyniera danych, który regularnie pracuje z zewnętrznymi interfejsami API.

A jak już dane wyciągniesz z API... [autopromocja]
...to możesz je wstawić do bazy danych. A później z tej bazy wyjść i pokazać w aplikacji na WWW. Ta książka jest praktycznym przewodnikiem po wykorzystaniu Pythona do tego typu celów. Skupia się na budowie aplikacji, w której trzeba skorzystać z usług sieciowych (właśnie API!), baz danych oraz przygotować prezentację zebranych danych. Książka przeprowadza przez cały proces, krok po kroku. A przykładowo rozdział o przykładowym wyciąganiu danych z API zaawiera nieco więcej elementów teoretycznych, które przydadzą się w innych sytuacjach (na przykład rodzaje metod HTTP czy znaczenie kodów odpowiedzi serwera).

Networking for Multiplayer Games in Pygame: An Introduction
Część większego cyklu o tworzeniu gier w Pythonie, skupiająca się na implementacji funkcji sieciowych dla rozgrywki wieloosobowej. Autor pokazuje, jak wykorzystać bibliotekę socket do połączenia wielu graczy w jednym świecie gry. Świetny materiał dla programistów, którzy opanowali już podstawy PyGame i chcą poszerzyć swoje projekty o możliwość wspólnej zabawy przez sieć.

#ux

How to Design an Effective Survey Questionnaire?
Wnikliwy przewodnik po projektowaniu kwestionariuszy ankietowych, które faktycznie dostarczają wartościowych danych. Autor wykracza poza podstawowe zasady formułowania pytań, skupiając się na całościowym podejściu do projektowania badań. Lektura niezbędna dla badaczy UX, analityków i marketingowców, którzy chcą uzyskać rzetelne odpowiedzi zamiast potwierdzać własne hipotezy.

#wizualizacja_danych

7 Python APIs to Power Your Geospatial Dashboard
Przegląd siedmiu bibliotek Pythona do wizualizacji danych przestrzennych, wykraczający poza popularne Folium i GeoPandas. Autor przedstawia mniej znane, ale równie potężne narzędzia, które mogą znacząco wzbogacić twoje dashboardy geospatialne. Kilka smaczków poza dość typowym Folium i GeoPandas się znajdzie. Warto zagłębić się w szczegółowe opisy i przykłady zastosowań każdej z wymienionych bibliotek, aby odkryć ich pełny potencjał.

Dashboard Design Patterns: A Comprehensive Guide to Crafting Engaging and Effective Dashboards
Dogłębna analiza najskuteczniejszych wzorców projektowania dashboardów, poparta badaniami i przykładami z praktyki. Autor przedstawia sprawdzone rozwiązania organizacji interfejsu, które zwiększają czytelność danych i ułatwiają podejmowanie decyzji. Nieoceniony zasób dla wszystkich projektujących systemy analityczne, którzy chcą, aby ich dashboardy były nie tylko ładne, ale przede wszystkim użyteczne.

How to Prompt GPT-4 For Authentic Data Visuals That Make You Look Like a Pro
Praktyczny tutorial pokazujący, jak formułować zapytania do GPT-4, aby uzyskać wysokiej jakości wizualizacje danych. Autor przedstawia konkretne strategie przekształcania surowych danych w estetyczne i informatywne wykresy. Przydatny materiał dla analityków, którzy chcą gwałtownie tworzyć profesjonalne wizualizacje bez zagłębiania się w niuanse bibliotek graficznych.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału