Tečaj "Inženjer podataka" - tečaj 95 000 rub. iz Yandex Workshopa, obuka 6,5 mjeseci, Datum: 11. prosinca 2023.
Miscelanea / / November 30, 2023
Za praktične programere
Naučite izgraditi infrastrukturu za rad s podacima i sistematizirajte svoje znanje kako biste ga upotrijebili u svojoj trenutnoj ulozi ili promijenite smjer u podatkovnog inženjera.
Za ambiciozne podatkovne inženjere
Strukturiranje znanja: uz jasnu teoriju bit će i puno prakse. Steći ćete iskustvo radeći na projektima - to će vam pomoći da izgradite portfelj, istaknete se od ostalih kandidata i ne izgubite se u stvarnom poslu.
Stručnjaci za podatkovnu znanost i analitičari
Ovladajte vještinama koje će vam pomoći da se učinkovitije nosite sa zadacima: izgradite podatkovne kanale, dizajnirajte izloge, izgradite ETL i prikupljajte neobrađene podatke u velikim količinama.
Ažuriranje podatkovnog modela
1 modul 2 tjedna
Tvrtka vas nastavlja uranjati u svoje procese. Podaci s kojima ste radili su ažurirani, pa morate promijeniti model podataka.
U ovom tečaju vi:
- razumjeti kako tvrtka gradi bazu podataka;
- ažurirati strukturu postojeće baze podataka u skladu s novim zahtjevima poslovanja;
- pripremiti nove prikaze i metrike za analitičare i menadžere.
Tehnologije i alati:
- PostgreSQL
+1 projekt u portfelju
Izgradite stanicu podataka s inkrementalnim učitavanjem za analizu publike online trgovine.
DWH: revizija modela podataka
Modul 2 3 tjedna
Tvrtka raste, podatkovna arhitektura postaje sve složenija. Dobili ste zadatak - optimizirati procese s podacima.
U ovom tečaju vi:
- razmislite o procesu prijelaza sa stare sheme baze podataka na novu uz minimiziranje poslovnih gubitaka (uvođenje bez prekida);
- pripremiti migraciju podataka;
- uzeti u obzir moguće probleme i dizajnirati opciju vraćanja promjena;
- implementirati novu strukturu baze podataka i prilagoditi je postojećim procesima oko podataka.
Tehnologije i alati:
- PosgreSQL
- Piton
+1 projekt u portfelju
Uredit ćete podatkovni model i migrirati podatke unutar trenutne pohrane online trgovine.
ETL: automatizacija pripreme podataka
Modul 3 3 tjedna
Sada znate gotovo sve o skladištu podataka tvrtke. Vrijeme je da ponovno razmislimo o ETL procesima.
U ovom tečaju vi:
- automatizirati cjevovod podataka;
- konfigurirati automatsko preuzimanje podataka iz izvora;
- naučiti redovito i postupno učitavati podatke u bazu podataka.
Tehnologije i alati:
- Piton
- Protok zraka
- PostgreSQL
+1 projekt u portfelju
Izgradite cjevovod za automatizirano primanje, obradu i učitavanje podataka iz izvora u izlog za projekt e-trgovine.
Provjera kvalitete podataka
Modul 4 1 tjedan
Želite biti sigurni da vaši prvi cjevovodi rade dobro. Mora se provjeriti kvaliteta podataka, a kvarovi se moraju pravovremeno pratiti.
U ovom tečaju vi:
- razumjeti kako koristiti metainformacije i dokumentaciju;
- ocijeniti kvalitetu podataka.
DWH za više izvora
Modul 5 2 tjedna
Nastavljate istraživati DWH jer se razvoj tvrtke, a time i povećanje količine podataka, ne može zaustaviti.
U ovom tečaju vi:
- izgraditi DWH od nule na relacijskom DBMS-u;
- upoznati MongoDB kao izvor podataka.
Tehnologije i alati:
- PostgreSQL
- MongoDB
+1 projekt u portfelju
Dizajnirat ćete i implementirati DWH za in-house startup.
Analitičke baze podataka
Modul 6 2 tjedna
Sve je više specifičnih nestrukturiranih podataka koje također treba pohraniti i obraditi. Stoga ćemo vas na primjeru Vertica DBMS-a upoznati s konceptom analitičkih baza podataka.
U ovom tečaju vi:
- organizacija skladištenja studija u Vertici;
- naučiti kako raditi osnovne operacije s podacima u Vertici;
- izgraditi jednostavno skladište podataka u Vertici.
Tehnologije i alati:
- Vertica
- PostgreSQL
- Protok zraka
- S3
+1 projekt u portfelju
Izgradite DWH za visokoopterećeni niskostrukturirani podatkovni sustav glasnika pomoću Vertice.
Organizacija Data Lake
Modul 7 4 tjedna
Klasična rješenja ne pomažu u suočavanju s količinom podataka. Kako biste se nosili s novim poslovnim izazovima, izgradit ćete i popuniti podatkovno jezero.
U ovom tečaju vi:
- razmotriti Data Lake arhitekturu (prev. "podatkovno jezero");
- naučiti obrađivati podatke u MPP sustavu;
- napuniti Data Lake podacima iz izvora;
- vježbati obradu podataka koristeći PySpark i Airflow.
Tehnologije i alati:
- Hadoop
- MapReduce
- HDFS
- Apache Spark (PySpark)
+1 projekt u portfelju
Izgradite Data Lake i automatizirajte učitavanje i obradu podataka u njemu.
Obrada toka
Modul 8 3 tjedna
Prevladali ste poteškoće s velikom količinom podataka, ali pojavio se novi zadatak - morate pomoći poduzeću da brže donosi odluke. Ovdje će vam trebati znanje o obradi podataka toka. strujanje).
U ovom tečaju vi:
- razmotriti značajke obrade tokovnih podataka;
- izgradite vlastiti sustav za strujanje;
- izgradite izlog koristeći podatke u stvarnom vremenu.
Tehnologije i alati:
- Kafka
- Spark Streaming
+1 projekt u portfelju
Razvit ćete sustav za obradu podataka u stvarnom vremenu.
Tehnologije u oblaku
Modul 9 3 tjedna
Sada možete raditi s velikim količinama podataka i tokovima. Ostaje još samo automatizirati skaliranje sustava pomoću usluga u oblaku.
U ovom tečaju naučit ćete kako implementirati već proučena rješenja, ali u oblaku (na primjeru Yandex Clouda).
Tehnologije i alati:
- Yandex. Oblak
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 projekt u portfelju
Razvit ćete infrastrukturu za pohranu i obradu podataka u oblaku.
Diplomski rad
Modul 10 3 tjedna
Potvrdite da ste naučili nove vještine.
Ovdje ćete morati samostalno odabrati i implementirati rješenja za poslovni problem. To će vam pomoći da ponovno ojačate korištenje alata koje ste naučili, kao i svoju neovisnost.