Hyppää sisältöön

Terminologia

Alla useita kurssin aikana käytettyjä termejä keskitetysti.

ACID

Neljän tekijän (atomisuus, eheys, eristyvyys ja pysyvyys) kokonaisuus. ACID-periaatteita noudattava kanta on ihanteellisessa maailmassa virheenkestävä jopa vikatilanteissa tai suorittaessa useita kilpailevia kirjoitusoperaatiota yhtä aikaa

CDC

Muutostiedon kaappaus (englanniksi change data capture). Prosessi, jossa tunnistetaan lähdekannan muutokset joko lähes reaaliaikaisesti tai ajastetusti.

Data Lakehouse

Arkkitehtuuri, joka yhdistää tietovaraston (eng. data warehouse) sekä tietoaltaan (eng. data lake) toiminnallisuuksia

Delta Lake

Avoimen lähdekoodin tiedontallennuksen kerros, joka lisää ACID-periaatteiden mukaisen toiminnallisuuden tiedostopohjaiseen tietoaltaaseen.

ELT

Alemman akronyymin eli ETL:n mukaelma, jossa tiedon muokkaus ja tiedon lataus kohdekantaan suoritetaan käänteisessä järjestyksessä. Tietomallia muokataan vasta määränpäässä, joka voi olla esimerkiksi tietovarasto tai jokin moderni tietoalusta

ETL

Prosessi, jossa tieto kaapataan lähdekannasta (extract), muunnetaan kohdekannan tietomallin mukaiseksi (transform) ja ladataan kohdekantaan (load), joka on tyypillisesti tietovarasto

Modern Data Stack

Modernin vastakohtana on legacy, jolla viitataan menneiden vuosikymmenien monoliittisiin tietoalustoihin. Modern Data Stack ei ole yksittäisen palveluntarjoajan myymä tietoalusta vaan kokoelma erilaisia työkaluja, joiden avulla dataa voidaan käsitellä ja analysoida. Tyypillisesti moderni data stack koostuu tietoaltaasta, tietovarastosta, tietovirrasta ja BI-työkalusta. Siihen kuuluu tyypillisesti myös orkestrointityökaluja, infraan hallitsemiseen liittyviä työkaluja sekä datakatalogi. Moderni data stack on usein pilvipohjainen. Yksittäiset komponentit ovat modulaarisia, joten niitä voidaan päivittää tarpeen mukaan. Sekä pilvipohjaisuus että modulaarisuus mahdollistavat skaalautuvuuden, joka on yksi modernin data stackin keskeisistä ominaisuuksista.

OLAP

Online Analytics Processing. Tietovarastojen tiedon hakemisen ja tallentamisen malli.

OLTP

Online Transaction Processing. Operatiivisten kantojen tiedon hakemisen ja tallentamisen malli.

Tietoallas

Suurten tietomassojen tallennukseen tarkoitettu arkkitehtuuri. Mahdollistaa strukturoimattoman tiedon tallennuksen ja käsittelyn. Tallennuskapasiteetti on usein hajautettua ja tiedostopohjaista, mikä mahdollistaa edullisen horisontaalisen skaalauksen. Englanniksi data lake.

Tietovarasto

Järjestelmä, johon tuodaan ETL tai ELT-prosessin avulla useista eri tietokannoista tietoa, jotta hajallaan olevaa dataa voidaan käsitellä ja analysoida keskitetysti. Englanniksi data warehouse