Inženjering pouzdanosti mjesta - tečaj 65 000 rub. iz Slurma, trening, Datum 1. siječnja 2024.
Miscelanea / / November 29, 2023
LJUDIMA
SRE inženjer može biti ili operativni inženjer ili programer. Tijekom intenzivnog tečaja puno ćete vježbati, a stečene vještine i znanja možete prilagoditi i implementirati u bilo kojem području.
POSLOVANJE
SRE rješava iste probleme kao i DevOps: povećava brzinu objavljivanja novih značajki i poboljšava procese unutar tima. Ali glavni zadatak SRE-a je osigurati stabilnost i pouzdanost usluga, isključujući situacije u kojima se korisnici žale na kvarove, a inženjeri imaju zelene rasporede.
Gradimo:
Naše mjesto za obuku sastoji se od nekoliko mikroservisa. Objedinjuje podatke o predstavama, cijenama i slobodnim sjedalima iz svih kina, prikazuje najave filmova, omogućuje odabir kina, predstave, dvorane i mjesta, rezervaciju i plaćanje ulaznica.
Formulirati ćemo SLO, SLI, SLA indikatore za ovu stranicu, razviti arhitekturu i infrastrukturu koja će ih podržavati, postaviti nadzor i uzbunjivanje.
Pogreške programera, kvarovi infrastrukture, priljev posjetitelja i DoS napadi dovode do pogoršanja SLO-a.
Analiziramo stabilnost, proračun grešaka, praksu testiranja, upravljanje prekidima i radnim opterećenjem.
Dogodila se nesreća. Usluga obrade plaćanja ne radi. Kako djelovati da vratite funkcionalnost u najkraćem mogućem roku?
Organiziramo rad interventnog tima: uključivanje kolega, obavještavanje dionika, postavljanje prioriteta. Osposobljavamo se za rad pod pritiskom u ekstremno ograničenim vremenskim uvjetima.
Pogledajmo pristup stranici s gledišta SRE. Analiziramo incidente (uzroke nastanka, tijek otklanjanja). Donosimo odluke kako ih dalje spriječiti: poboljšavamo nadzor, mijenjamo arhitekturu, pristup razvoju i radu te regulativu. Automatiziramo procese.
— Imamo desetke izgrađenih infrastruktura i stotine pisanih CI/CD cjevovoda,
— certificirani Kubernetes administrator,
— Autor nekoliko tečajeva o Kubernetesu i DevOpsu,
— Redoviti govornik na ruskim i međunarodnim IT konferencijama.
1. DAN: AMA početna sesija
Razgovarat ćemo o ciljevima i ciljevima tečaja, a također ćemo vam reći što je SRE i podijeliti ga u timove.
Otvaranje 2 teorijske teme:
Tema 1: Praćenje
- Zašto je potrebno praćenje?
- Percentili
- Uzbunjivanje
- Uočljivost
Tema 2: SRE teorija
- SLO, SLI, SLA
- Izdržljivost
- Proračun pogreške
2. DAN: analiza praksi i slučajeva
Praksa: Izrada osnovne nadzorne ploče i postavljanje potrebnih upozorenja
Praksa: Dodavanje SLO/SLI + upozorenja na nadzornu ploču
Praksa: Prvo učitavanje sustava
Rješenje za slučaj 1: ovisnost o nizvodnom dijelu.
U velikom sustavu postoji mnogo međuovisnih servisa koji ne rade uvijek jednako dobro. Posebno je neugodno kada je vaša usluga u redu, ali susjedna, o kojoj ovisite, povremeno pada.
Obrazovni projekt naći će se upravo u takvim uvjetima, a vi ćete osigurati da i dalje proizvodi kvalitetu na najvišoj mogućoj razini.
3. DAN: AMA sesija, odgovori na pitanja
Otvara se pristup 2. teoretskom modulu:
Rješavanje problema s okolišem i arhitekturom
Drugi modul je izgrađen oko rješavanja dva slučaja: uzvodne ovisnosti i arhitektonskih problema. Govornici će govoriti o upravljanju incidentima, pravilima za vatrogasnu postrojbu i radu s obdukcijama te dati predloške koje možete koristiti u svom timu.
Tema 3: Upravljanje incidentima
- Inženjering otpornosti
- Kako nastaje vatrogasna postrojba
- Koliko je vaš tim učinkovit u incidentu?
- 7 pravila za voditelja incidenta
- 5 pravila za vatrogasca
- HiPPO - mišljenje najplaćenije osobe. Voditeljica komunikacija
TTema 4: Varrum alati i upravljanje upozorenjima.
Najbolja praksa drugih tvrtki u organiziranju upravljanja incidentima.
4. DAN: analiza praksi i slučajeva
Rješenje za slučaj 2: uzvodna ovisnost.
Jedna je stvar kada ovisite o usluzi s niskim SLO. Druga je stvar kada je vaša usluga ista za ostale dijelove sustava. To se događa ako kriteriji ocjenjivanja nisu dosljedni: na primjer, odgovorite na zahtjev unutar sekunde i smatrate ga uspješnim, ali ovisna usluga čeka samo 500 moskovskog vremena i odlazi s pogreškom.
Na slučaju ćemo razgovarati o važnosti usklađivanja metrike i naučiti kvalitetu gledati očima klijenta.
Rješenje za slučaj 3: problemi s bazom podataka.
Baza podataka također može biti izvor problema. Na primjer, ako ne nadzirete relej replikacije, replika će postati zastarjela i aplikacija će vratiti stare podatke. Štoviše, otklanjanje pogrešaka u takvim slučajevima posebno je teško: sada su podaci nedosljedni, ali nakon nekoliko sekundi više nisu dosljedni i nije jasno što je uzrok problema.
Kroz kućište ćete osjetiti svu bol otklanjanja pogrešaka i naučiti kako spriječiti takve probleme.
Praksa: Pišemo postmortem o prethodnom slučaju i raspravljamo o njemu sa govornicima.
5. DAN: AMA sesija, odgovori na pitanja
AMA sesija i odgovori na pitanja o prethodnim temama.
Otvara se pristup 3. teoretskom modulu:
Zaštita prometa i oslobađanje kanarinaca
U trećem modulu analizirat ćemo slučaj posvećen problemu okoliša (bit će detaljna analiza Zdravstva Provjeravam), a također ćemo korak po korak analizirati kako implementirati SRE u tvrtkama te saznati iskustva tvrtki u kojima govornici rade intenzivan
Tema 5: Zdravstveni pregled
- Provjera zdravlja u Kubernetesu
- Živi li još uvijek naš servis?
- Izvršne sonde
- InitialDelaySeconds
- Sekundarna zdravstvena luka
- Sidecar Health Server
- Sonda bez glave
- Hardverska sonda
Tema 6: Metode implementacije
Tema 7: Uključivanje u SRE projekt
Velike tvrtke često formiraju zaseban SRE tim, koji preuzima usluge drugih odjela za podršku. Ali nije svaka usluga spremna za prihvaćanje podrške. Reći ćemo vam koje zahtjeve mora ispunjavati. Govornici će također podijeliti svoja iskustva, kako su implementirali SRE i koje su greške napravili.
6. DAN: analiza praksi i slučajeva
Rješenje slučaja 4: postoji problem s okolišem, nemoguće je kupiti karte.
Zadatak Healthchecka je otkriti pokvarenu uslugu i blokirati promet prema njoj. A ako mislite da je za to dovoljno podnijeti zahtjev servisu s rootom i dobiti odgovor, onda vi griješite: čak i ako usluga odgovori, to ne jamči njezin rad - problemi mogu nastati u okruženje.
Kroz ovaj slučaj naučit ćete kako konfigurirati ispravan Healthcheck i ne dopustiti da promet ide tamo gdje se ne može obraditi.
Sažimajući