LJSear.ch - servis za one koji trebaju datoteke „Live Journal”
Web Usluge / / December 24, 2019
Želite li naći u „naučiti” rekord stoljeća stare, ali ne mogu, jer su opcije pretraživanja ograničeno na jedan mjesec? Vi ćete osloboditi usluge LJSear.ch, Koji sadrži arhive ruskog jezika LiveJournal za razdoblje 2000-2015. Razgovarajte o tome njegov tvorac rimski Ivanov (kukutz).
rimski Ivanov
Voditelj proizvoda u „Yandex”. Pokrenula je potragu blog, personaliziranu traži „Yandex”, nekoliko verzija „Yandex. Mail "usluge" Yandex. Lenta "" Ya.ru "" Yandex. Slike „i nekoliko drugih. Sada se bavi „Yandex. Browser „i LJSear.ch.
Što je LJSear.ch?
„Saznajte” To je više od terabajt arhiva. Indeksirane i dostupne za pretraživanje 340 milijuna postove i komentare 1 milijarde od 2000. do jeseni 2015. godine. I sve to uz poznate na blog alat za pretraživanje: Granica po autoru, po datumu, po zajednici.
Novi unosi nisu indeksirane, kao što smo u obzir naš projekt kao arhiva, spomen.
Projekt je u potpunosti neprofitna, nema reklama, i druge načine kako zaraditi novac nije namijenjen.
Zašto trebam uslugu?
U jesen 2015. sposobnosti pretraživanja za blogove „Yandex” bili ograničeni na samo prošlog mjeseca. Objašnjenje je jednostavno: velika većina ljudi koji su u potrazi za informacijePovezana s nedavnim podacima, i duboko potraga za njima je suvišan.
To je istina. Prošli mjesec je dovoljno za zadatke kao što je redovito praćenje ili Vanity pretraživanja mišljenja nekih nedavnih događaja. No, tu je problem i dublje istraživanje.
Vjerujem da je u „Saznajte” dogodilo, ili barem se odrazilo gotovo sve ruskog govornog kulture nulte godine. Vrijednost ovog arhiva ne može biti precijenjena. Kada je „Yandex” ima zatvorenu pretraživanje arhive, ja sam jako razočaran, jer je uvjeren da je ovaj skup podataka mora zadržati za čovječanstvo. Pa i ja pitao: „Yandex” arhiva, a on odjednom složio i dao ih.
Arhiva Blog prilično jedinstvena, jer toliko ne mogu preuzeti u „učiti”. Mnogi časopisi su uklonjene od strane njihovih autora, neki slomljena i uništena od strane hakera, u nekim slučajevima, podaci nisu izbrisani, ali skriven pod ključem.
U posljednjih šest mjeseci na I. bio je odgovoran za osiguravanje da podaci nisu izgubljeni. Zvao sam na pomoć prijatelja, a među njima bilo je i onih koji su pristali pomoći shvatiti da li možemo informacije dostupne za pretraživanje. Mi smo stvorili uslugu LJSear.ch i očito ga je vozio na zdravom stanju.
Volonteri su bili mnogo?
Pronađena. Poznati stručnjak u području UX Kohl Zayarny Došao sam s dizajnom. Sasha Belyanskiy Uzeo sam BEM-vorstku i krajnji na Node.js. Spaceinvaderz kojom sistemsku primjenu. Backend programiranje u PHP sam počeo na temelju samog prototipa, koji je napravio moj prijatelj dio odjeće.
Najveći problem je bio željezni: tko će platiti za hosting? Prijatelji uvjereni da možete prikupiti novac za kraudfandingovyh stranicama, ali sam bio skeptičan. A tu su divni ljudi došli da nas iz Servers.ru i ponudio pomoć. Kao rezultat toga, imamo veliku posvećena poslužitelj s SSD za indeksiranje i pretraživanje pozadina plus Oblak virtualni server na sučelju.
Tko može biti zainteresirani za projekt?
Kao novi zapisi nisu indeksirane, publika, što mislim - su istraživači. Kako je doslovno istraživači kulturne slojeve nula godina, a sadašnji ili bivši korisnik „Saznajte”, koji žele pronaći nešto što je pisano u tim godinama. I zato nisam ograničiti maksimalno vrijeme izvršenja pretraživanja: istražitelj mogu čekati za složene upite i minutu i dvije. Naravno, jednostavni upiti izvode brzo, a ako se usluga otkrije da je upit sada puno, to uključuje kontroliranu degradaciju, uključujući ograničenja timeout zahtjev.
LJSear.ch →