Tečaj "Analitičar podataka" - tečaj 96 000 rub. iz Yandex Workshopa, obuka 7 mjeseci, datum 7. prosinca 2023.
Miscelanea / / December 02, 2023
Analitičar podataka izvlači značenje iz brojeva i vrijednosti: on vidi trendove, predviđa događaje i pomaže tvrtki razumjeti klijente, optimizirati procese i rasti.
Tržište treba stručnjake koji mogu korisno koristiti podatke. Studija kadrovske tvrtke Ancor za rujan 2022. pokazala je da 45% ruskih tvrtki traži analitičare koji bi se pridružili svom timu.
Vještine koje ćete naučiti na tečaju
Naziv radnog mjesta
Analitičar, analitičar podataka, analitičar podataka
Mogućnosti razvoja: Analitičar proizvoda, marketinški analitičar, BI analitičar, stručnjak za podatkovnu znanost
Ovo su tehnologije i alati koje ćete koristiti:
Piton
Jupyterova bilježnica
SQL
PostgreSQL
Tableau
A/B testovi
Počnite zarađivati analizirajući
Krenut ćete s juniorske pozicije, a onda ići samo naprijed. Penjati ćete se na ljestvici karijere i rasti u vrijednosti. I jednog dana za tebe neće biti cijene.
Kompletan program tečaja za analitiku podataka
Redovito ga ažuriramo kako bismo osigurali da zadovoljava potrebe industrije i poslodavaca.
Drugim riječima, učite samo ono što će vam sigurno koristiti u radu.
Besplatan dio - 1 tjedan
Besplatan uvod: Osnove Pythona i analiza podataka
Naučite osnovne koncepte analize podataka i razumite što rade analitičari podataka i znanstvenici podataka.
• Moskva Catnamycs. Prikaz podataka na ekranu. CSV datoteke. Rad s tablicama. Toplinske karte. Množenje stupca cijelim brojem.
• Greške u kodu. Sintaktičke pogreške. Pogreške u imenovanju. Pogreške kod dijeljenja s nulom. Pogreške prilikom uvoza modula.
• Varijable i tipovi podataka. Varijable. Vrste podataka. Aritmetičke operacije s brojevima i nizovima.
• Kako postavljati hipoteze. Hipoteze. HADI ciklusi. Analitičko razmišljanje. Čitanje grafova.
• Što rade znanstvenici podataka. Zadaci analitičara. Pojašnjenje zadataka. Raspad. Faze projekta.
• Provjera konverzija. Pretvorba. Istraživanje podataka. Formiranje zaključaka.
• Povrat reklamnih kampanja. Stupasti grafikon. Razlika elemenata. Indeksiranje u stupcima.
• Strojno učenje i znanost o podacima. Obuka u strojnom učenju. Pronalaženje jedinstvenih vrijednosti u stupcima. Logičko indeksiranje. Grupiranje vrijednosti u tablici. Greške u predviđanju.
• Završni projekt. Segmentacija korisnika.
PythonPandas Pogreške SeabornHipotezeVarijable konverzije Vrste podataka Toplinske karte
1 sprint 3 tjedna
Osnovni Python
Zaronite dublje u programski jezik Python i biblioteku Pandas.
• Varijable i tipovi podataka. Python jezik. Varijable. Prikaz podataka na ekranu. Prikazivanje objekata na ekranu. Rješavanje pogrešaka, pokušaj...osim operatera. Vrste podataka. Pretvorbe tipova podataka.
• Linije. Indeksi u redovima. Rezovi linija. Operacije na nizovima. String metode. Formatiranje stringova, metoda format(), f-stringovi.
• Popisi. Indeksi u listama. Navedite kriške. Dodavanje stavki na popis. Uklanjanje stavki popisa. Zbrajanje i množenje lista. • Razvrstavanje popisa. Tražite stavke na popisu. Dijeljenje niza u popis nizova, ulančavanje popisa nizova u niz.
• Za petlju. Ciklusi. Nabrajanje elemenata. Ponavljanje preko indeksa elemenata. Obrada elemenata popisa pomoću petlji: pronalaženje zbroja i umnoška elemenata.
• Ugniježđene liste. Prolazak kroz ugniježđene popise s prebrojavanjem vrijednosti. Dodavanje elemenata u ugniježđene liste. Razvrstavanje ugniježđenih popisa.
• Uvjetni operator. Dok petlja. Booleov tip podataka. Booleove vrijednosti. Logički izrazi. Složeni logički izrazi. Uvjetna izjava if...elif...else. Grananje. Filtriranje popisa pomoću uvjetnog operatora. Dok petlja.
• Funkcije. Dodjela funkcija. Parametri i argumenti. Parametri sa zadanim vrijednostima. Pozicijski i imenovani argumenti. Vraćanje rezultata iz funkcije.
• Rječnici. Ključevi i vrijednosti. Traženje vrijednosti po ključu. Dodavanje stavki u rječnik. Popis rječnika. Prekrasan izlaz rječnika.
• Knjižnica Pandas. Čitanje csv datoteka. Dataframe. Konstruktor okvira podataka. Ispis prvog i zadnjeg reda podatkovnog okvira. Indeksiranje u podatkovnim okvirima. Indeksiranje na stupcima serije.
• Predobrada podataka. GIGO princip. Preimenovanje stupaca okvira podataka. Rukovanje vrijednostima koje nedostaju. Rukovanje eksplicitnim i implicitnim duplikatima.
• Analiza podataka i prezentacija rezultata. Grupiranje podataka. Razvrstavanje podataka. Osnove deskriptivne statistike.
• Jupyter Notebook - bilježnica u ćeliju. Jupyter Notebook sučelje. Prečaci za Jupyter Notebook.
Petlje PythonPandeStringoviPopisiFunkcijeRječniciPodatkovniokvirVarijableVrstepodatakaUvjetna izjava
Projekt
Usporedite korisničke podatke Yandex Musica prema gradu i danu u tjednu.
2 sprinta 2 tjedna
Predobrada podataka
Naučite očistiti podatke od odstupanja, izostavljanja i duplikata, kao i pretvoriti različite formate podataka.
• Rad s propusnicama. Pretvorba. Kolačići. Kategorijalne i kvantitativne varijable. Rukovanje prazninama u kategoričkim varijablama. Rukovanje prazninama u kvantitativnim varijablama. Rješavanje nedostataka u kvantitativnim varijablama prema kategoriji.
• Promjena tipova podataka. Čitanje Excel datoteka. Pretvori niz u brojčani tip. Modul brojeva, metoda abs(). Rad s datumom i vremenom. Rješavanje pogrešaka, pokušaj...osim operatera. Spajanje podatkovnih okvira, metoda merge(). Zaokretne tablice.
• Tražite duplikate. Traži duplikate, razlikuje velika i mala slova.
• Kategorizacija podataka. Dekompozicija tablica. Kategorizacija prema brojčanim rasponima. Kategorizirajte na temelju više vrijednosti po retku.
• Sustavno i kritičko mišljenje u radu analitičara. Sistemsko razmišljanje. Uzroci grešaka u podacima. Kritičko razmišljanje.
PythonPandasGap handlingObrada podatakaDuplicate processingKategorizacija podataka
Projekt
Analizirati podatke o klijentima banke i utvrditi udio kreditno sposobnih.
3 sprinta 2 tjedna
Istraživačka analiza podataka
Naučite osnove vjerojatnosti i statistike. Koristite ih za istraživanje osnovnih svojstava podataka, traženje uzoraka, distribucija i anomalija. Upoznajte biblioteku Matplotlib. Crtajte dijagrame i vježbajte analizu grafova.
• Prvi grafikoni i zaključci. Korištenje zaokretnih tablica. Grafikon. Distribucije. Dijagram raspona.
• Proučavanje odsječaka podataka. Metoda query(). Rad s datumom i vremenom. Iscrtavanje grafova metodom plot(). Occamova britva.
• Rad s više izvora podataka. Isječak podataka temeljen na vanjskim objektima. Dodavanje novih stupaca u podatkovni okvir. Dodavanje podataka iz drugih podatkovnih okvira. Preimenovanje stupaca. Kombiniranje tablica pomoću metoda merge() i join().
• Odnosi podataka. Dijagram raspršenosti. Korelacija varijabli. Matrica raspršenog dijagrama.
• Validacija rezultata. Konsolidacija grupa. Podjela podataka u grupe.
PythonPandasMatplotlibHistogrami Isječci podataka Analiza podataka ScatterplotScatterplot Vizualizacija podataka Deskriptivna statistika
Projekt
Istražite arhivu oglasa za prodaju nekretnina u Sankt Peterburgu i Lenjingradskoj regiji.
4 sprinta 3 tjedna
Statistička analiza podataka
Naučiti analizirati odnose u podacima pomoću statističkih metoda. Naučite što su statistička značajnost i hipoteze.
• Kombinatorika. Kombinacije. Pravilo množenja. Preuređivanja. Broj permutacija. Plasmani. Broj plasmana. Kombinacije. Broj kombinacija.
• Teorija vjerojatnosti. Eksperiment. Prostor vjerojatnosti. Događaji. Vjerojatnost. Događaji koji se presijecaju i međusobno isključuju. Euler-Vennov dijagram. Zakon velikih brojeva.
• Opisne statistike. Kategorijalne i kvantitativne varijable. Mod i medijan. Prosječna vrijednost. Disperzija. Standardna devijacija. Kvartili i percentili. Dijagram raspona. Stupasti grafikon. Gustoća frekvencije. Grafikon.
• Slučajne varijable. Diskretna slučajna varijabla. Distribucija vjerojatnosti za diskretnu slučajnu varijablu. Kumulativna funkcija (funkcija distribucije) diskretne slučajne varijable. Matematičko očekivanje diskretne slučajne varijable. Disperzija diskretne slučajne varijable.
• Distribucije. Bernoullijev eksperiment. Binomni eksperiment. Binomna distribucija. Kontinuirana ravnomjerna raspodjela. Normalna distribucija. Standardna normalna distribucija. CDF i PPF za normalnu distribuciju. Poissonova distribucija. Aproksimacija jedne distribucije drugom.
• Testiranje hipoteza. Opća populacija. Uzorak. Distribucija uzorkovanja. Centralni granični teorem. Jednostrane i dvostrane hipoteze. P-vrijednost. Testiranje jednostranih i dvostranih hipoteza za jedan uzorak. Testiranje hipoteze o jednakosti sredina dviju općih populacija. Testiranje hipoteze o jednakosti srednjih vrijednosti za zavisne uzorke.
ScipyNumpyPythonPandasMatplotlibKombinatorikaDistribucijaTestiranje hipoteza Teorija vjerojatnosti
Projekt
Testirajte hipoteze usluge iznajmljivanja skutera kako biste pomogli u razvoju vašeg poslovanja.
Dodatni sprint
Teorija vjerojatnosti
Prisjetite se ili prepoznajte osnovne pojmove u teoriji vjerojatnosti: nezavisni, suprotni, nekompatibilni događaji itd. Na jednostavnim primjerima i zabavnim zadacima uvježbat ćete rad s brojevima i graditi logiku rješenja.
Ovo je izborni sprint. To znači da svaki student sam bira jednu od opcija:
• Savladajte dodatni sprint od 10 kratkih lekcija, obnovite teoriju i riješite probleme.
• Otvorite samo blok sa zadacima za razgovor, podsjetite se na praksu bez teorije.
• Potpuno preskočite tečaj ili mu se vratite kada bude vremena i potrebe.
Python Događaji VjerojatnostBayesov teorem Slučajne varijable Teorija vjerojatnosti Statistička analiza podataka
5 sprinta 1 tjedan
Završni projekt prvog modula
Naučite kako provesti preliminarno istraživanje podataka te formulirati i testirati hipoteze.
ScipyNumpyPythonPandasMatplotlib Analiza podataka Testiranje hipoteza Obrada podataka
Projekt
Pronađite uzorke u podacima o prodaji igara.
6 sprint 2 tjedna
Osnovni SQL
Naučite osnove strukturiranog upitnog jezika SQL i relacijske algebre za rad s bazama podataka. Upoznajte se sa značajkama rada u PostgreSQL-u, popularnom sustavu za upravljanje bazama podataka (DBMS). Naučite pisati upite različitih razina složenosti i prevesti poslovne probleme u SQL. Radit ćete s bazom podataka online trgovine specijalizirane za filmove i glazbu.
• Uvod u baze podataka. Sustavi za upravljanje bazama podataka (DBMS). SQL jezik. SQL upiti. Formatiranje SQL upita.
• Odsječci podataka u SQL-u. Tipovi podataka u PostgreSQL-u. Pretvorba tipa podataka. WHERE klauzula. Logički operatori. Isječci podataka. Operatori IN, LIKE, BETWEEN. Rad s datumom i vremenom. Rukovanje vrijednostima koje nedostaju. Uvjetna CASE konstrukcija.
• Funkcije agregacije. Grupiranje i sortiranje podataka. Matematičke operacije. Funkcije agregacije. Grupiranje podataka. Razvrstavanje podataka. Filtriranje prema agregiranim podacima, operator HAVING.
• Odnosi između tablica. Vrste spajanja tablica. ER dijagrami. Preimenovanje polja i tablica. Aliasi. Spajanje tablica. Vrste spojeva: UNUTARNJI SPOJ, LIJEVI SPOJ, DESNI SPOJ, PUNI VANJSKI SPOJ. Alternativne vrste sindikata UNION i UNION ALL.
• Podupiti i uobičajeni tablični izrazi. Podupiti. Podupiti u FROM. Podupiti u WHERE. Kombinacija spajanja i podupita. Uobičajeni tablični izrazi (CTE). Varijabilnost zahtjeva.
SQLDBMSPostgreSQL PodupitiBaze podatakaSQL upiti Filtriranje podatakaSortiranje podatakaGrupiranje podatakaSpajanje tablicaUobičajeni izrazi tablice
Projekt
Napisat ćete niz upita različite složenosti u bazu podataka koja pohranjuje podatke o venture investitorima, startupima i ulaganjima u njih.
7 sprint 3 tjedna
Analiza pokazatelja poslovanja
Saznajte što su mjerni podaci u poslovanju. Naučite koristiti alate za analizu podataka u poslovanju: kohortnu analizu, prodajni lijevak i jediničnu ekonomiju.
• Mjerni podaci i tokovi. Pretvorba. Lijevci. Marketinški lijevak. Dojmovi. Klikovi. CTR Lijevak proizvoda.
• Kohortna analiza. Korisnički profil. stopa zadržavanja. Stopa odljeva. Horizont analize. Vizualizacija kohortne analize. Analiza zadržavanja slučajnih kohorti. Konverzija u kohortnoj analizi. Izračunavanje metrike u Pythonu.
• Jedinična ekonomija. Mjerni podaci LTV, CAC, ROI. ARPU, ARPPU. Izračunavanje metrike u Pythonu. Napredna vizualizacija metrike. Sharey parametar. Pomični prosjek.
• Prilagođena metrika. Procjena aktivnosti korisnika. Korisnička sesija. Istraživanje anomalije.
Mjerni podaci Tokovi Konverzija Ekonomija jedinice Analiza kohorte Mjerni podaci proizvoda Marketinški pokazatelji
Projekt
Na temelju podataka razumite ponašanje korisnika, kao i analizirajte profitabilnost kupaca i ROI oglašavanja kako biste dali preporuke za marketinški odjel.
8 sprint 2 tjedna
Napredni SQL
Proći ćete dodatni tečaj rada s bazama podataka i postati još bliži poslu. Koristeći SQL jezik analizirat ćete izračun glavnih poslovnih metrika s kojima ste se upoznali u sprintu “Analiza poslovnih pokazatelja”. Razmislite o radu sa složenim alatom kao što su funkcije prozora. Naučite mijenjati sadržaj baza podataka lokalno, bez simulatora, koristeći posebne klijentske programe i biblioteke za Python.
• Izračun pokazatelja poslovanja. Shema podataka. Pretvorba. LTV. ARPU. ARPPU. ROI. Izračun pomoću SQL-a.
• Združivanje funkcija prozora. PREKO izraza. PARTICIJA PO parametru prozora.
• Funkcije rangiranja prozora. Funkcije rangiranja. Operator prozora ORDER BY. ROW_NUMBER(). RANG(). DENSE_RANK(). NTILE(). Operatori prozora zajedno s funkcijama rangiranja.
• Funkcije pomaka prozora. Kumulativne vrijednosti. Offset funkcije. VODITI(). LAG(). Prozorske funkcije i aliasi.
• Kohortna analiza. Stopa zadržavanja, Stopa odljeva. LTV.
• Instalacija i konfiguracija baze podataka i klijenta baze podataka. Klijent baze podataka. Instaliranje PostgreSQL-a. Instalacija DBeaver-a. DBeaver sučelje. Izrada baze podataka. Postavljanje dumpa baze podataka. Učitavanje rezultata upita. Prezentacija rezultata upita.
SQLDBMSMetricsPostgreSQLBaze podatakaSQL upiti Funkcije prozora Analiza kohorte
Projekt
Koristeći Python i SQL, povežite se s bazom podataka, izračunajte i vizualizirajte ključne metrike u sustavu usluga programiranja pitanja i odgovora.
9 sprint 2 tjedna
Odlučivanje u poslovanju
Naučit ćete što je A/B testiranje i razumjeti u kojim slučajevima se koristi. Naučite dizajnirati A/B testiranje i procijeniti njegove rezultate.
• Osnove testiranja hipoteza u poslovanju. Vodeća metrika. Osnove eksperimenata. Generiranje hipoteza. Određivanje prioriteta metrike. Odabir metode izvođenja pokusa. Kvalitativne metode za provjeru hipoteza. Kvantitativne metode za provjeru hipoteza. Prednosti i nedostaci A/B testova.
• Određivanje prioriteta hipoteza. RICE okvir. Parametar dosega. Parametar utjecaja. Parametar povjerenja. Parametar napora.
• Priprema za provođenje A/B testa. A/A test. Pogreške tipa I i II. Snaga statističkog testa. Značaj statističkog testa. Višestruke usporedbe, metode za smanjenje vjerojatnosti pogreške. Izračun veličine uzorka i trajanja A/B testa. Grafička analiza metrike.
• Analiza rezultata A/B testa. Provjera hipoteze o jednakosti udjela. Shapiro-Wilkov test za testiranje normalnosti podataka. Neparametrijski statistički testovi. Mann-Whitney test. Stabilnost kumulativne metrike. Analiza outliera i burstova.
• Algoritmi ponašanja. Činjenice, emocije, procjene. Objasnite svoje stajalište.
A/B testiranje Prioritizacija hipoteza Priprema za A/B testiranje Analiza rezultata A/B testiranja Analiza rezultata A/B testiranja
Projekt
Analizirajte rezultate A/B testiranja u velikoj online trgovini.
10 sprinta 1 tjedan
Završni projekt drugog modula
Naučite testirati statističke hipoteze pomoću A/B testiranja te pripremiti zaključke i preporuke u obliku analitičkog izvješća.
Sales funnelA/B testiranje Obrada podataka Analiza podataka istraživanja
Projekt
Istražite prodajni lijevak i analizirajte rezultate A/B testiranja u mobilnoj aplikaciji.
11 sprint 2 tjedna
Kako ispričati priču s podacima
Naučit ćete pravilno prikazati rezultate svog istraživanja pomoću grafikona, najvažnijih brojki i njihovu ispravnu interpretaciju. Upoznajte knjižnice Seaborn i Plotly.
• Kome, kako, što i zašto reći. Prezentacija rezultata istraživanja. Ciljana publika pripovjedača. Što i zašto reći analitičaru podataka.
• Knjižnica Seaborn. Knjižnica Seaborn kao proširenje biblioteke Matplotlib. jointplot() metoda. Rasponi boja. Stilovi grafikona. Vizualizacija distribucija.
• Plotly knjižnica. Interaktivni grafikoni. Linijski grafikon. Stupasti grafikon. Kružni graf. Dijagram lijevka.
• Vizualizacija podataka u geoanalitici. Geoanalitika. Biblioteka Folija. Prikaz karte. Postavljanje oznaka s navedenim koordinatama. Stvaranje klastera točaka. Prilagođene ikone za markere. Horoplet.
• Priprema prezentacije. Zaključci temeljeni na studiji. Sezonalnost i vanjski čimbenici. Apsolutne i relativne vrijednosti. Simpsonov paradoks. Principi konstruiranja prezentacija. Izvješća u Jupyter Notebooku.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalyticsVizualizacija podataka
Projekt
Pripremite studiju tržišta na temelju otvorenih podataka o javnim ugostiteljskim objektima u Moskvi, vizualizirajte dobivene podatke.
12 sprint 2 tjedna
Izrada nadzornih ploča u Tableau
U ovom sprintu radit ćete s Tableau BI sustavom. Naučite se povezati s podacima i modificirati ih, izraditi različite vrste grafikona, sastaviti nadzorne ploče i prezentacije.
• Osnove rada s Tableauom. BI sustavi. Tableau. Izrada dokumenta. Spremanje dokumenta. Objava dokumenta.
• Rad s izvorima podataka. Izvori podataka. Spajanje podataka. Metoda odnosa. Metoda spajanja. Metoda miješanja. Sindikalna metoda. Promjena formata tablice.
• Vrste podataka. Osnovni tipovi podataka. Mjerenja. Mjere. Rad s datumom i vremenom. Setovi. grupe. Mogućnosti. Promjena formata varijabli. Nazivi mjera varijabli, vrijednosti mjerenja, brojanje.
• Tablice i izračuni. Sučelje za uređivanje listova. Zaokretne tablice. Izračunata polja. LOD izrazi.
• Filtri i sortiranje. Mjere sortiranja. Razvrstavanje dimenzija. Ugniježđene vrste. Sortiranje pomoću parametra. Filteri.
• Vizualizacije. Kontrole vizualizacije. Toplinske karte. Okrugli grafikoni. Stupasti grafikoni. Histogrami. Dijagrami raspona. Dijagram raspršenja. Linijski grafikoni. Kombinirani grafikoni. Površinski grafikoni.
• Posebne vizualizacije i opisi alata. Kartice. Mapa znakova. Mjehurićasti grafikon. Karta stabla. Dijagrami kružnih pogleda. Bullet dijagrami. gantogrami. Mjerite imena i mjerite vrijednosti u vizualizacijama. Obrnuti inženjering. Opisi alata. Opisi s vizualizacijama. Vrijednosti praga na grafikonima. Analitički alati u Custom.
• Prezentacije. Dodatne mogućnosti. Proučavanje tipičnih parametara. Izrada prezentacije.
• Nadzorne ploče. Učitavanje i priprema podataka. Priprema vizualizacija. Montaža armaturne ploče. Radnje. Demonstracija nadzorne ploče. Objavljivanje nadzorne ploče.
TableauDashboardsBI-toolsBI-tools Vizualizacija podataka
Projekt
Istražite povijest TED konferencija i izradite nadzornu ploču u Tableau na temelju dobivenih podataka.
Dodatni sprint
Osnove strojnog učenja
Upoznajte se s osnovama strojnog učenja i upoznajte se s glavnim zadaćama strojnog učenja u poslovanju.
PythonPandasSklearn Strojno učenje Zadaci strojnog učenja Algoritmi strojnog učenja
Dodatni sprint
Vježbajte Python
Odslušat ćete nekoliko laboratorijskih nastava s dodatnim zadacima u programskom jeziku Python. Također ćete naučiti kako izvući podatke iz web izvora.
Hoćeš:
• u strukturi HTML stranica i radu GET zahtjeva,
• naučiti pisati jednostavne regularne izraze,
• upoznati API i JSON,
• napraviti nekoliko zahtjeva stranicama i prikupiti podatke.
JSONPythonREST API Web struganje
13 sprint 3 tjedna
Diplomski rad
U zadnjem projektu potvrdite da ste savladali novo zanimanje. Pojasnite klijentov zadatak i prođite kroz sve faze analize podataka. Sada nema lekcija ni domaćih zadaća - sve je kao na pravom poslu.
Završni sprint uključuje rad na projektu, A/B testiranje i SQL zadatke te dodatni zadatak. Projekt sadrži prikaz problema, očekivani rezultat, skup podataka i njihov opis.
Zadatak se odnosi na jedno od pet poslovnih područja:
• banke,
• maloprodaja,
• igre,
• mobilne aplikacije,
• e-trgovina.
Neće biti uobičajenog opisa koraka u projektu. Sami ćete ih proći.
SQ LPython PandasTableau Nadzorne ploče Postgre SQL Dekompozicija A/B testiranje