Nareszcie jedna z naszych szacownych antykapitalistycznych instytucji bibliotecznych zrobiła digitalizację naprawdę z prawdziwego zdarzenia, bo jakość woluminu papierowego znakomita, markowa optyka skanera i "rozdziałka" ponadprzeciętnie wysoka, więc moduł Tesseract OCR German Fraktur w wersji 5.3 (lub bardzo pokrewny, bo nie wiem przecież dokładnie, czym rozpoznawali tekst) poszedł po tym "jak burza" i bez istotniejszych przekłamań, więc mamy dwustumegabajtowego PDF-a w jakości HQ oraz z wiarygodną warstwą OCR, czyli dowolny, nawet domorosły, historyk może se totoż przeszukiwać alfanumerycznie pod kątem określonych wyrazów, dat itd. Równolegle opublikowano także odrębną warstwę OCR oraz pełnej jakości skany wsadowe/źródłowe.
Efekt pracy szacownego ze wszech miar archiwisty z Biblioteki Uniwersyteckiej w Toruniu wpierdyknięto do zasobów kalifornijskich, więc korzystajmy ...
(Marcin Perliński)
Brak komentarzy:
Prześlij komentarz