Yandex je naučio neuronske mreže dešifrirati arhivske zapise složenim pravopisom
Miscelanea / / April 03, 2023
Povijesne rukopise, koje je teško raščlaniti, umjetna inteligencija gotovo trenutno pretvara u tiskani tekst.
Yandex je pokrenuo novu uslugu pod nazivom Archive Search, koja koristi neuronske mreže za dešifriranje arhivskih zapisa složenim predrevolucionarnim pravopisom.
Usluga omogućuje pristup više od 2,5 milijuna stranica povijesnih dokumenata s tekstualnim transkriptima. Njegov algoritam, izgrađen na temelju sustava za optičko prepoznavanje znakova, uzima u obzir osobitosti rukopisa, prepoznaje slova koja su izgubila svoju važnost i razumije posebnu strukturu arhivskih dokumenata.
Stručnjaci tvrtke trenirali su neuronsku mrežu na nizu podataka od stotina tisuća rukom pisanih redaka iz stvarnih tekstova 18.-19. stoljeća i desetaka milijuna generiranih primjera.
Rukopise koje je nepripremljenoj osobi teško analizirati, Yandexova tehnologija gotovo trenutno pretvara u tiskani tekst. Zahvaljujući tome, u bazi podataka usluge možete brzo pronaći dokumente sa spominjanjem prezimena, mjesta ili bilo koje druge riječi.
„Pretraživanje u arhivima“ povećat će učinkovitost rada povjesničara, sociologa, demografa, genealoga i pomoći onima koji traže podatke o svojoj obitelji.
Prvi fond predstavljen u servisu bio je Glavni arhiv Moskve - programeri su na njegovim materijalima trenirali neuronsku mrežu. Baza podataka sadrži i dokumente iz arhiva Orenburške i Novgorodske oblasti. S vremenom će se povećati broj pohrana i dostupnih skeniranih datoteka.
Možete pretraživati materijale iz 18. - ranog 20. stoljeća, koji su najpopularniji među korisnicima. Riječ je o župnim maticama, ispovjednim listovima i revizionim kazama s rezultatima popisa stanovništva. Dokumente možete pronaći u katalogu ili putem tražilice. Postoje filteri po godinama, arhivima, fondovima i inventarima.
Pored skenirane slike svake stranice prikazano je dekodiranje redak po redak napravljen neuronskim mrežama. Ako zadržite pokazivač iznad željenog fragmenta, on će odmah biti označen na digitalnoj kopiji.