La laboro por enbitigi periodaĵojn daŭras en Biblioteko Molera. Lasta aldono estas gazeto Voĉo de kuracistoj (1909-1911). Oftas la obstakloj dum tiu ĉi laboro. Dum la skanado, la ĉefan problemon oni trovas kun gazetoj binditaj. Ju pli dika la volumo aŭ pli mallarĝaj la margenoj des pli problemoj por skani.
Kiam oni jam havas bildojn el ĉiuj paĝoj, jam estas tempo por pretigi traserĉeblajn PDF-dosierojn. Nun la programo pli uzata estas Adobe Acrobat. Ĉefa malavantaĝo de Acrobat, krom ĝia prezo: Esperanto malestas en ĝia lingvolisto por tekstorekono.
Alia programo populara tra esperantistoj estas Abbyy FineReader, kiu jam de tempo enhavas Esperanton en ĝia lingvaro.
Abbyy FineReader akceptas artefaritajn lingvojn kiel Esperanton
Tamen, estas ankaŭ senpagaj, malfermitkodaj programoj, kiuj kapablas fari preskaŭ la saman laboron ol Acrobat aŭ FineReader. Eble la plej interesa estas Tesseract. Temas pri komandlinia interfacprogramo por Linux, Windows, Mac...
Por bone signorekonadi esperantlingvajn tekstojn nepras instali la prian lingvilon. La instalmetodo jenas:
Por Mac
Malfermu Terminal kaj skribu
brew update
por certigi, ke ni havas ĉiujn lastajn versiojn bezonatajn. Kaj poste:
brew install tesseract-lang
Sen la parametro -lang, Tesseract nur instalus tri lingvojn.
Sufiĉas la komando
tesseract --list-langs
por kontroli ĉu Esperanto disponeblas por la programo. Nun ĝi estas inter la 162 lingvoj uzeblaj per Tesseract.
Por Linux
Komando
apt-get install tesseract-ocr
instalos nur la anglan. Por aldoni Esperanton nepras uzi la komandon
apt-get install tesseract-ocr-epo
aŭ
apt-get install tesseract-ocr-all
por instali ĉiujn disponeblajn lingvilojn.
Por Windows
Por instali Tesseract en Windows, oni devas unue elŝuti exe-dosieron kaj simple sekvi la agordajn instrukciojn. Por uzi pli lingvoj ol la angla, nepras musklaku sur Additional language data (download) kaj elekti la deziratajn lingvojn.
Instalilo por Windows. Nepre aldonu Esperanton
Por la sekvaj ekzemploj mi uzos du paĝojn el la Originala Verkaro de Zamenhof, kiuj cetere estis bitigita de Podlaska Biblioteka Cyfrowa. Ĉiuj uzataj dosieroj estas elŝuteblaj pere de la ligilo sube de tiu ĉi paĝo por pliaj komparoj.
Du paĝoj el la Originala Verkaro. Klaku por pligrandigi
1. El bildo al PDF tekstrekonita dosiero
Por konverti nur unu bildo, la jena komando
tesseract -l epo ov64.jpg ov64 pdf
konvertas bilddosieron ov64.jpg en PDF-dosieron ov64.pdf. La lasta ero indikas la celdosiertipon, ĉi-okaze PDF. Troas aldoni ".pdf" al la celdosiero, ĉar tio rezultos en nomo ov64.pdf.pdf. La parametro -l epo petas al programo uzi la bibliotekon de la esperanta lingvo.
Kiam oni laboras kun alilingvaj gazetoj, oni devas uzi -l xxx kie xxx estas la trilitera ISO-kodo de tiu lingvo.
Eblas uzi pli ol unu rekonlingvon. Ekzemple, por la periodaĵo L'Espérantiste ni uzos la parametron
-l epo+fra
kaj la programon traserĉos la vortarojn kaj normojn de Esperanto kaj la franca.
La celdosiero ov64.pdf estas tute traserĉebla.
2. El bildo al tekstdosiero (.txt)
Kiam oni ne bezonas PDF-dosieron sed nur tekstdosieron, eblas uzi la komandon:
tesseract -l epo ov64.jpg ov64 txt
Nun ni komparu la rezultojn inter tri tekstdosieroj de la paĝo 64 de la libro Originala Verkaro de Zamenhof havigitaj respective de Tesseract, Adobe Acrobat kaj Abbyy FineReader
Eblas elŝuti la dosierojn .txt pere de la ligiloj sube de tiu ĉi paĝo. Jen ekzemplo el la dua paragrafo:
Tesseract
Nia Regularo estis preta jam antaŭ kelkaj monatoj; sed antaŭ ol
presi ĝin, ni volis aŭdi la opinion kaj la konsilojn de ĉiuj? amikoj kaj
tial ni petis, ke oni sendu al ni diversajn projektojn, por ke ni povu
kompari ilin kun la nia kaj en okazo de bezono fari en nia Regularo
kelkajn ŝanĝojn kaj plibonigojn. Nun, traleginte la alsenditajn pro-
jektojn, ni vidas, ke ni nenion gravan ellasis en nia Regularo kaj ke
ĝi nun povas jam ricevi vivon. Tial ni prezentas nun nian Regularon
al niaj amikoj kaj ni esperas, ke ili ne malkonsentos, se ni hodiaŭ
sciigos publike, ke de la tago hodiaŭa la Ligo jam estas fondita. Ni
petas la amikojn de nia afero komenci de hodiaŭ ilian laboradon, kaj
Dio donos sian helpon al nia penado por la sankta afero.
Adobe Acrobat
Nia Regularo estis preta jam an tau kelkaj monatoj; sed an tau ol presi gin, ni volis au.di la opinion kaj la konsilojn de êiuj 2 amikoj kaj tial ni petis, ke oni sendu al ni diversajn projektojn, por ke ni povu kompari ilin kun la nia kaj en okazo de bezono fari en nia Regularo kelkajn sangojo kaj plibonigojn. Nun, traleginte la alsenditajn pro.jektojn, ni vidas, ke ni nenion gravan ellasis en nia Regularo kaj ke gi nun povas jam ricevi vivon. Tial ni prezentas nun nian Regularon al niaj amikoj kaj ni esperas, ke ili ne malkonsentos, se ni hodiau sciigos publike, ke de la tago hodiaua la Ligo jam estas fondita. Ni petas la amikojn de nia afero komenci de hodiau ilian laboradon, kaj Dio donos sian helpon al nia penado por la sankta afero.
Abbyy FineReader
Nia Regularo estis preta jam antaŭ kelkaj monatoj; sed antaŭ ol presi ĝin, ni volis afldi la opinion kaj Ia konsilojn de ĉiuj2 amikoj kaj tial ni petis, ke oni sendu al ni diversajn projektojn, por ke ni povu kompari ilin kun la nia kaj en okazo de bezono fari en nia Regularo kelkajn ŝanĝojn kaj plibonigojn. Nun, traleginte la alsenditajn pro-jektojn, ni vidas, ke ni nenion gravan ellasis en nia Regularo kaj ke ĝi nun povas jam ricevi vivon. Tial ni prezentas nun nian Regularon al niaj amikoj kaj ni esperas, ke ili ne malkonsentos, se ni hodiaŭ sciigos publike, ke de la tago hodiafla la Ligo jam estas fondita. Ni petas la amikojn de nia afero komenci de hodiaŭ ilian laboradon, kaj Dio donos sian helpon al nia penado por la sankta afero.
Inter Adobe kaj Tesseract, la rezulto estas rimarkinde pli bona por Tesseract kaj ne nur por la vortoj kun supersignitaj literoj. FineReader eĉ rekonas la notindikilon, sed videblas eraretojn sur kelkajn vortoj kun esperantaj diakritaĵoj: afldi, Ia, hodiafla
La plej elstara malagrablaĵo el Tesseract estas ĝia konfuzo inter fino de linio kaj fino de paragrafo. Aliflanke, Tesseract eĉ pli bone legas la trian paragrafon, kie aperas makulon super la vorto ‘superflue’:
Komenci disputadon pri
la apartaj flankoj de la Regularo estas laŭ nia opinio superflue, ĉar,
ni ripetas: (Tesseract)
Komenci disputadon pri la apartaj flankoj de la Regularo . estas Jau nia opinio syerflue, êar, ni ripetas: (Acrobat)
Komenci disputadon pri la apartaj flankoj de la Regularo estas laŭ nia opinio si^perflue, ĉar, ni ripetas: (FineReader)
Signorekonado tra pluraj bildosieroj
Kompreneble, per Tesseract ankaŭ eblas peti la tekstrekonadon de pluraj bilddosiero. Jen ekzemplo por teserakti ĉiujn JPG-dosierojn en dosierujo. Unue iri al tiu dosierujo, kaj poste lanĉi ĉi tiun komandon:
for i in *.jpg; do echo $i; tesseract -l epo $i $(basename $i .jpg) pdf; done
Jen la rezulto:
Tekstrekonado de pluraj dosieroj
Unupaĝaj PDF-dosieroj ne estas tre utilaj. Kutime oni bezonas arigi ilin laŭ libroj, gazetoj aŭ jarkolektoj. Por tio estas utila la programo Poppler. Ankaŭ ĝi estas senpaga kaj tre facile instalebla. Ekzemple por Mac:
brew install poppler
Ankaŭ eblas uzi Poppler en Windows aŭ Linux.
Komando
pdfunite bildo01.pdf bildo02.pdf bildo03.pdf bildo04.pf tuto.pdf
kunigos la kvar unuaj dosieroj, laŭ tiu ordo, en la kvinan dosieron (ĉi tie nomata tuto.pdf)
Alia facila ebleco estas enmeti ĉiujn bildpaĝoj de la libro aŭ gazeto en dosierujo kaj uzi komandon
pdfunite *.pdf tuto.pdf
Tiu ĉi komando ordigos la paĝojn de la cel-pdf-dosiero laŭ alfabeta ordo de la bilddosieroj. Pro tio oni devas uzi nomojn kiel bild001.jpg, bild002.jpg, bild003.jpg, bild004.jpg ... bild112.jpg kaj ne bild1.jpg, bild2.jpg ... bild11.jpg, bild12.jpg ĉar en tiu lasta ekzemplo paĝo bild11.jpg, bild12.jpg antaŭiros al bild2.jpg.
Vidu ankaŭ Ekzemplo de bitigado