Newsletter Dane i Analizy, 2025-06-23

blog.prokulski.science 9 godzin temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Witaj w kolejnym numerze, który jak zwykle został przygotowany z myślą o tym, żebyś nie musiał(a) przebijać się samodzielnie przez 500 artykułów tygodniowo w poszukiwaniu prawdziwych perełek. Tym razem szczególnie różnorodny zestaw - od trenowania modeli językowych, przez serwery MCP i praktyczne implementacje w Pythonie (w szczególności przepływów danych i wykresów), aż po narzędzia, które mogą realnie zmienić użycie konsoli.

Ciekawostką tego numeru jest analiza protestu wyborczego z polskich wyborów 2025 - rzadko kiedy mamy okazję zobaczyć, jak statystyka spotyka się z rzeczywistością polityczną w tak bezpośredni sposób.

Na koniec polecam wykład, gdzie Andrej Karpathy opowiada o swojej wizji tego, jak zmienia się programowanie.

Hity zeszłego tygodnia:

37 Lessons From My 7 Years in Software Engineering 1 = 1 Really Necessary in SQL Queries Which Data Architecture Should I Choose for My Workplace? — A Data Engineer’s Approach Step-by-Step Guide to Deploying Machine Learning Models with FastAPI and Docker

Tradycyjnie zapraszam też na moje sociale związane z tym newsletterem: fanpage i LinkedIn.


#ai_ml

Coachella Tweet Sentiment Analysis (Deep Learning Tutorial)
Tutorial pokazujący, jak fine-tunować model RoBERTa na tweetach z Coachelli 2015, żeby przewidywać nastroje fanów festiwalu. Autor prowadzi przez cały proces - od przygotowania danych po ewaluację modelu, wszystko w Google Colab za darmo. Bonus: konkretne pomysły na zastosowanie w biznesie, jak real-time monitoring nastrojów po ogłoszeniu lineupu.

Building AI Workflows with Model Context Protocol
Praktyczny przewodnik po tym, jak MCP może uprościć workflow DevOpsowy - zamiast żonglować między Claude, przeglądarką i GitHubem, wszystko działa w jednym miejscu. Autor pokazuje konkretną implementację z kodem, która eliminuje przełączanie kontekstu i automatyzuje research. Idealny punkt wyjścia dla zespołów myślących o integracji AI z ich codziennymi narzędziami.

Top 7 Popular Open Source MCP Servers
Przegląd najciekawszych open source’owych serwerów MCP - GitHub, Slack, Puppeteer, Google Drive itd. Każdy z opisem funkcji i przypadków użycia. Przydatne dla wszystkich, którzy chcą podłączyć LLMy do rzeczywistych danych i systemów, ale nie wiedzą od czego zacząć.

#analiza_danych_projekty

Unsupervised Anomaly Detection for Unseen Risk Events
Solidny tutorial o wykrywaniu anomalii z użyciem IsolationForest, z praktyczną symulacją cyklu wykrywania fraudu. Autor pokazuje, jak automatyczne flagi anomalii mogą stopniowo poprawiać zarówno system detekcji, jak i główny model klasyfikacyjny. Konkretny kod i realistyczne podejście do tego, co dzieje się po wykryciu anomalii.

#architektura

E-Commerce Data Architecture
Kompletny blueprint skalowalnej architektury danych e-commerce opartej na Data Mesh, Databricks i Kafka. Autor szczegółowo tłumaczy, jak uniknąć wąskiego gardła centralnego zespołu danych, dając autonomię domenowym zespołom. Zawiera konkretny diagram architektury i praktyczne wskazówki dotyczące implementacji w Google Cloud.

#big_data

Elasticsearch vs ClickHouse vs Apache Doris — which powers observability better?
Porównanie trzech platform pod kątem observability - wydajność, koszty, łatwość użycia i otwartość ekosystemu. Autor przedstawia Apache Doris jako ciekawą alternatywę, z live demo i rzeczywistymi case studies. Konkretne metryki i benchmarki zamiast marketingowego bla bla.

#ciekawostki

Analiza dowodów manipulacji w wyborach 2025
Merytoryczna analiza statystyczna dowodów z protestu wyborczego przeciwko wyborom prezydenckim 2025. Autor metodycznie sprawdza każdy argument, pokazuje błędy w interpretacji i proponuje alternatywne podejście do wykrywania anomalii w komisjach wyborczych. Rzadki przykład tego, jak poprawnie stosować statystykę w kontekście politycznym.

Andrej Karpathy: Software Is Changing (Again)
Karpathy omawia ewolucję od klasycznego kodowania (software 1.0) przez trenowanie modeli (2.0) do programowania promptami (3.0). Wystąpienie pełne praktycznych insights o projektowaniu aplikacji dla świata z agentami AI - "suwak autonomii", interfejsy dla LLM, dokumentacja dla maszyn. Must-watch dla wszystkich, kto projektuje nowoczesny software. [YT, 40 minut, po angielsku]

Writing documentation for AI: best practices
Przewodnik po pisaniu dokumentacji, która jest jednakowo przydatna dla ludzi i systemów RAG. Autor wyjaśnia, jak AI przetwarza dokumenty i jakie wzorce pisania mogą zaszkodzić zrozumieniu przez LLMy. Konkretne wskazówki i przykłady - przydatne w czasach, gdy coraz więcej osób "czyta" nasze dokumentacje przez ChatGPT.

#data_engineering

Stream Kafka Topic to the Iceberg Tables with Zero-ETL
Ciekawa funkcjonalność Table Topic od AutoMQ, która pozwala streamować dane z Kafka bezpośrednio do tabel Iceberg bez dodatkowych pipeline’ów.

Boosting Python ML Pipelines with DuckDB and Scikit Learn
Praktyczny tutorial o tym, jak DuckDB może usprawnić pipeline ML - zapytania SQL na ogromnych datasetach, przetwarzanie bez ładowania wszystkiego do pamięci, bezpośrednia praca z Parquet. Kod pokazuje, jak DuckDB + scikit-learn = szybsze eksperymenty i lepsza wydajność.

#devops

15 rust cli tools that will make you abandon bash scripts forever
Przegląd 15 narzędzi CLI napisanych w Ruscie, które robią to samo co klasyczne uniksowe komendy, ale szybciej i z lepszym UX. Od ripgrep (grep na sterydach) po zoxide (cd z pamięcią), każde narzędzie z konkretnym opisem, dlaczego warto zamienić stare przyzwyczajenia.

#powerbi

Dynamic Power BI Reports: Conditional Formatting + Calculation Groups Combo!
Tutorial o dynamicznym formatowaniu warunkowm w Power BI z użyciem Calculation Groups. Autor pokazuje, jak utworzyć tabele, które zmieniają kolorystykę w zależności od wybranej kategorii wydajności. Krok po kroku z konkretnym DAXem i przykładami biznesowymi.

#python

Data Validation Libraries for Polars
Przegląd pięciu bibliotek do walidacji danych dla Polars DataFrames - Pandera, Dataframely, Patito, Pointblank i Validoopsie. Autor testuje każdą pod kątem różnych scenariuszy: type-safe pipelines, raportowanie dla stakeholderów, walidacja statystyczna. Praktyczne porady, którą bibliotekę wybrać w zależności od potrzeb.

Python Meets Arrow and DuckDB for High Performance Dataframes
Wyjaśnienie, dlaczego połączenie PyArrow z DuckDB może zastąpić Pandas w wielu scenariuszach. Autor pokazuje konkretne problemy z Pandas i jak Arrow + DuckDB je rozwiązują.

Pandas, PySpark, or Both?
Case study z projektu Wildlife Conservation Analytics w Afryce Wschodniej (300GB danych o słoniach i nie tylko). Autor pokazuje, kiedy używać Pandas, kiedy PySpark, a kiedy oba razem. Praktyczne podejście z prawdziwymi danymi i konkretną architekturą.

FastAPI Tutorial for Beginners: Database Integration
Kolejna część serii o FastAPI, tym razem o integracji z bazami danych przez SQLAlchemy i Pydantic. Autor wprowadza także Alembic do migracji. Kod krok po kroku, bez zbędnej teorii - od modeli ORM po gotowe endpointy API.

7 Stunning Scientific Charts I Created with Matplotlib That You Shouldn’t Miss
biór siedmiu nietypowych wykresów naukowych w matplotlib - od calendar heatmap przez polar plots po diagramy fazowe. Autor pokazuje, jak wykorzystać wykresy znane z innych dziedzin (np. Bode plot z elektroniki) do wizualizacji danych COVID-19. Kreatywne podejście z konkretnym kodem.

Customizing Your Folium Maps: Tiles, Zoom, and Popups for Urban Analysis
Praktyczny tutorial o tworzeniu interaktywnych map z kilkoma linijkami kodu w Pythonie. Autor pokazuje różne style map, ustawianie zoomu i dodawanie popupów z HTML. Krótko, konkretnie i od razu można użyć w projekcie. Dobre zamiast szukania po dokumentacji.

Python Fractal Geometry Visualization
Przewodnik po wizualizacji geometrii fraktalnej - zbiór Mandelbrota, drzewa L-system i symulacja naczyń płucnych. Autor łączy matematykę z programowaniem, pokazując jak NumPy + Matplotlib mogą tworzyć spektakularne animacje. Bonus: zastosowania w badaniach naukowych.

#spark

15 Production-Grade Interview Questions
Zbiór 15 scenariuszy opartych na rzeczywistych rozmowach rekrutacyjnych w Netflixie i Amazonie — od optymalizacji 10-terabajtowych zbiorów danych z nierównomiernym rozkładem danych (data skew), po zapewnienie dokładnie jednokrotnego przetwarzania zdarzeń (semantyka exactly-once) w systemach przetwarzania strumieniowego. Autor nie tylko zadaje pytania, ale też szczegółowo je omawia, prezentując gotowy do użycia w produkcji kod. Idealna pomoc w przygotowaniach do rozmów kwalifikacyjnych na stanowisko Senior Data Engineera.

#wizualizacja_danych

A friendly guide to choosing a chart type
Praktyczny przewodnik po wyborze typu wykresu w zależności od celu - pokazywanie zmian w czasie, udziałów, korelacji czy przepływów. Autor kategoryzuje dziesiątki typów wykresów i wyjaśnia, kiedy ignorować pie charty, a kiedy sięgnąć po treemapy. Przydatny ściągawka dla wszystkich, kto tworzy dashboardy.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału