BIG01: Juna-alusta

Tämä harjoitus poikkeaa muista harjoituksista siten, että alustan toteutukseen löytyy YouTube-soittolista avuksi. Soittolistan videoissa kasataan lähes identtinen alusta siitä, mitä sinä kasaat. Erona on eri data, mikä vaikuttaa pienissä määrin tiedon lataukseen, tiedon mallintamiseen ja visualisointiin.

Videot: YouTube Playlist: Data-alustat BIG101 demo
Esimerkkitoteutuksen data: Jäätelöauto API
Esimerkkitoteutuksen koodi: data-alustat-demo

Soittolistan videoilla kasataan alusta, joka:

Tuo feikkidataa jaateloauto-API:sta
Edustaa Data-alustat/Arkkitehtuuri mukaista yhden koneen ja yhden tietolähteen arkkitehtuuria
Mallintaa datan Kimballin tähtimallia muotoilevaksi Silver-kerrokseksi
Mallinta datan one big table -tyyppiseksi aggregaattitauluksi Gold-kerrokselle
Tarjoaa loppukäyttäjille Evidence BI-työkalun, jolla valittu bisnesongelma visualisoidaan

Sinun tehtäväsi on luoda mahdollisimman automatisoitu putki, joka hyödyntää dbt:tä, DuckDB:tä ja Evidenceä työkaluina, ja DuckDB-tietovarastoon tehdään medaljonkiarkkitehtuuri (bronze, silver, gold).

Muokkaa monorepoksi

Vuoden 2025 toteutuksessa tämä oli kurssin loppupuoliskon käytännön toteutus, ja täten se eli yksin omassa repositoriossaan. Vuodesta 2026 alkaen toteutuksessa on käytetty monorepoa. Älä siis toista laput silmillä opettajan komentoja vanhasta videosta: tee samat asiat nykyisen etunimisukunimi/ repositoriosi sisään, esimerkiksi hakemistoon etunimisukunimi/big01/.

Voi olla kannattavaa avata tuo hakemisto omaan VS Code -ikkunaan. Osa VS Coden ominaisuuksista, erityisesti Python virtuaaliympäristöön liittyvät, toimivat parhaiten kun ne ovat VS Coden näkökulmasta projektin juurihakemistossa.

Videon vaiheet

Soittolistan videoissa näkyy TODO-lista, jota opettaja seuraa. Alla on sama lista tarjottuna sinulle, siltä varalta, että se helpottaa tehtävän tekemistä tai videoiden seuraamista. Jos siitä ei ole apua, hyppää yli.

Demossa valittu bisnesongelma on: Jäätelöautojen viikoittainen kumulatiivinen sekä keskimääräinen (p50 ja p90) pysäkiltä myöhässä lähteminen (eli "departure lateness").

Luento 1: Jaateloauto REST API to staging

Part 1/3: Projektin aloitus

HOX! Oikeaa tehtävää tehdessä tässä välissä olisi hyvä pitää dokumentaatio kunnossa. Onhan sinulla README.md-tiedosto vähintään jo otsikkotasolla päivitetty?

Part 2/3: Jaateloauto REST API

HOX! Tähän väliin käytännön vinkki: teille on täysin sallittua sijoittaa repositorioon MEMO.md tai ./notes/*.md tai ylläpitää muistiinpanoja Notionissa tai käyttää fyysistä muistivihkoa. Minä en sitä tee videoilla, mutta opiskellesssa suosittelen tekemään muistiinpanoja. Ethän aja itseäsi tilanteeseen, jossa "Ajoin komennon, jota en muista, ja sit tuli virhe, jota en muista, mutta nyt tämä ei enää toimi." Tätä kannattaa käyttää myös työelämässä.

HOX! Tee muistiinpanoja myös kurssipalautteeseen liittyvistä asioita. Näin osaat antaa parempaa palautetta kurssin lopuksi, kun ongelmakohdat eivät ole muistin varassa. Voit käytännössä copy-pasteta palautteen intran kaavakkeeseen. Kukaan meistä ei ole täydellinen, mutta me kaikki voimme kehittyä. Palaute auttaa tässä.

HOX! Varsinaiset skriptit voit kehittää .ipynb-Notebookissa, jos kaipaat interaktiivisuutta kehittäessä, mutta luo niistä kuitenkin lopulta .py-skriptit, jotta niiden parametrisointi ja automatisointi on helppoa myöhemmin.

HOX! Get-metodin palauttaman objektin metodi .json() on kiva plärätessä, mutta jos haluat Bronzen todella olevan as-raw-as-possible, kirjoita palautuneet bytet sellaisina kuin ne ovat saapuneet ilman turhia enkoodauksia, joita ko. metodi väkisinkin ujuttaa mukaan.

HOX! Huomaa, että sinun tulee aina lukea käyttämäsi API:n käyttöehdot ja -ohjeet. Esimerkiksi Fintrafficilla on oma Tuki > Ohjeita ja lisätietoa rajapintojen käyttöön -ohje, jossa neuvotaan pakolliset headerit (eli 'Digitraffic-User: Junamies/FoobarApp 1.0') sekä kuvaukset rajoituksista, jotka rajoittavat kyselyiden tiehyttä (default: 60 kpl/min).

Part 3/3: Ingestion Tool

📅 Tähän pisteeseen teidän pitäisi päästä ensimmäisellä viikolla! Kirjoittakaa jäätelöautodatan kylkeen skriptit, jotka louhivat kyseisen dummydatan sijasta aitoa raideliikennedataa.

Luento 2: Staging to Bronze using dbt

Part 1/3: dbt ja DuckDB

Luo lokaali profiles.yml:

dbt_warehouse:
  target: dev
  outputs:
    dev:
      type: duckdb
      path: '../data/warehouse/warehouse.duckdb'
      schema: main

Part 2/3: dbt ja Fake CSV

Part 3/3: dbt Jaatelo Bronzelle

Luento 3: Silver and Gold modelling

Part 1/3: Silver Timetable

Part 2/3: Silver Fact and Dim

Luotavat 🥈 Silver taulut hakevat kumpikin tiedot yllä tehdystä aputaulusta.

f_stop : A fact table representing one row per stop - including arrival and departure. The ice cream trucks stops to sell ice cream. It will include columns for arrives lateness and depature lateness. In short, the data is nearly the same as in the one above, but granularity has been reduced to stop (instead of stop-event). The moment of a truck stopping to sell ice cream has been chosen as a business event that is tracked. Primary key needs to be a surrogate key, since we don't get a unifying UUID from source system of other suitable id.
- PK/SK: sk_stop (sk_jaateloauto + stop_id) using
d_truck : One row per truck. In real life, we would most likely enrich this data with other information such as route length, amount of stops on the truck's route et cetera. Primary key is truck_id, which is essentially a natural key, since customer's would see this truck id in the time schedule.
- PK: truck_id
- Huomaa, että koska jäätelöauton perustiedot pysyvät päivästä toiseen samana, voimme noutaa kaiken tiedon kyseisen trukin uusimmasta rivistä, ja voimme myös pitää esimerkiksi pelkästään departuren.
Puske GitLabiin

Part 3/3: Gold

Luotavat 🥇 Gold taulut:

jaateloauto_weekly_lateness : one row per week + truck_id + operator_name combo. We will focus on departure times. Aggregated fields field be e.g. total_departure_lateness, p50_departure_lateness (alias median) and p90_departure_lateness.
- Tsekkaa Aggregate Functions: quantile cont
Tarkista, että dbt docsissa lineage näkyy oikein.
Puske GitLabiin

Luento 4: Evidence

Info

Jos haluat, voit korvata Evidencen jollakin toisella BI-työkalulla. Vaihtoehtoja ovat esimerkiksi:

Marimo Notebook + Altair
Streamlit + Matplotlib/Plotly/Altair/etc.
Power BI tai Tableau
JavaScript + D3.js

Evidencen setup on aiheuttanut joillakin Windows-käyttäjillä päänvaivaa, joten sallin myös vaihtoehtoiset ratkaisut. BI-kerros ei ole tämän harjoituksen pääpointti, mutta se pitää kuitenkin olla olemassa, jotta Gold-tason tauluille on jokin merkitys olemassa.

Part 1/2

Tutustu Evidencen dokumentaatioon
- Ja gh:evidence-dev/docker-devenv esimerkkiin
- Ja minun vastaaviin Docker Compose ja Dockerfile tiedostoihin
Aja ensin init
- docker compose -f docker-compose.init.yml up --build
- docker compose -f docker-compose.init.yml down
- ... jotta saat bi/workspace kansion.
Lisää GitLabiin

Tässä välissä, jos haluat, voit tutkia mitä uusi volume sisältää.

# Huomaat, että sinulle on uusi volume evidence_node_modules
docker volume ls

# Luo tilapäinen kontti, johon volume on mountattu
docker run --rm -it \
  -v evidence_node_modules:/mnt \
  ubuntu bash

# Kontin sisällä voit ajaa seuraavat komennot.
# Ctrl + D sulkee ja tuhoaa kontin (mutta ei volumea)
cd /mnt
ls

Aja sitten palvelu ylös
- Tarpeen mukaan docker compose build
- docker compose up --watch
- Kokeile muokata index.md:tä. Sivun pitäisi päivittyä.
Puske GitLabiin

Tässä välissä vaihdan Windowsiin, jotta homma olisi hieman cross OS -testattua:

Aja ensin dbt-komennot, jotta warehouse.duckdb on ajan tasalla.
Testaa kummatkin tilanteet:
- on ensin ajettu rm -r bi/workspace ja sitten ajetaan kummatkin docker-komennot. Kontin pitäisi päivittyä kun index.md:tä muokataan.
- workspace on valmiiksi olemassa, mutta tämän koneen Docker-ympäristöstä puuttuu evidence_node_modules. Muista tuhota se ensin yllä olevan testin jäljiltä. Muutoin testi on sama kuin yllä.

Part 2/2

Videolla esitettävä

Tässä harjoituksessa videon tulee osoittaa alustasi ja datarakenteesi keskeisimmät oivallukset. Koska teit tässä useita vaiheita, tiivistä presentaatio näyttämään prosessin kulku. Videolla näkyy vähimmillään seuraavat vaiheet:

Aloitus ja tavoite: Kerro valitsemasi junadatan bisnesongelma (esim. joidenkin tiettyjen junien myöhästymiset) ja näytä, mihin REST API -päätepisteeseen olet yhdistänyt.
Raakadatan nouto: Näytä Python-skriptisi (ingestion tool), joka hakee datan, ja demonstroi, että raakadata tallentuu onnistuneesti .json tai .csv -muodossa Datalaken staging-kansioon.
Bronze (dbt & DuckDB): Esittele, miten dbt tekee raakadatasta DuckDB-tietovaraston Bronze-tason taulun (näytä esim. SQL-kyselysi tai DuckDB UI -näkymä).
Silver & Gold -mallinnus (dbt): Esittele tekemäsi dimensionalinen mallinnus (Silver-tason ratkaisut) sekä lopputuloksena syntyvä Gold-tason aggregaatiotaulu.
dbt Docs & Lineage: Avaa dbt docs selaimessa ja näytä projektisi data lineage -graafi varmistaaksesi putken oikeellisuuden.
BI: Esittele lopuksi dashboard, joka hyödyntää DuckDB:n Gold-tasoa ja vastaa alussa asettamaasi bisnesongelmaan. Voit tehdä kerroksen valitsemallasi työkaulla; ei ole pakko käyttää Evidenceä.