{"id":202,"date":"2016-09-15T19:32:07","date_gmt":"2016-09-15T17:32:07","guid":{"rendered":"http:\/\/siedlarz.net\/blog\/?p=202"},"modified":"2017-08-06T13:27:56","modified_gmt":"2017-08-06T11:27:56","slug":"sensowna-segmentacja-finereaderem","status":"publish","type":"post","link":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/","title":{"rendered":"Sensowna segmentacja FineReaderem"},"content":{"rendered":"<p style=\"text-align: left;\">Digitalizacja zabytkowych<span id='easy-footnote-1-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-1-202' title='Jako zabytkowe definiuj\u0119 tu raczej wszystko, co wykracza poza obszar wsp\u00f3\u0142cze\u015bnie produkowanych dokument\u00f3w. W\u0142\u0105czy\u0107 tu mo\u017cna tak\u017ce wzgl\u0119dnie nowe rzeczy, kt\u00f3re z powodu uszkodze\u0144 maj\u0105 cechy zbie\u017cne z dokumentami zabytkowymi, na przyk\u0142ad niebia\u0142e t\u0142o lub skazy na papierze, a tak\u017ce niedok\u0142adnie wykonany druk, s\u0142aby kontrast itp.'><sup>1<\/sup><\/a><\/span>\u00a0materia\u0142\u00f3w bibliotecznych jest w kontek\u015bcie globalnym dosy\u0107 niszowym zagadnieniem, nie ma wi\u0119c co oczekiwa\u0107, \u017ce wykorzystywane oprogramowanie b\u0119dzie kompletnie przyjazne od razu po instalacji. Jednak brak dost\u0119pu do\u00a0rozwi\u0105za\u0144, kt\u00f3re s\u0105 wygodnie konfigurowalne i zoptymalizowane nie oznacza automatycznie, \u017ce usprawnienie przetwarzania nie jest mo\u017cliwe i \u017ce skazani jeste\u015bmy wy\u0142\u0105cznie na to, co dany program domy\u015blnie oferuje jako jedyne i s\u0142uszne.<\/p>\n<p style=\"text-align: left;\">Skoro w\u0142a\u015bciwie zmieni\u0107 ustawie\u0144 si\u0119 nie da, trzeba b\u0119dzie nadrobi\u0107 te braki w inny spos\u00f3b. Koniecznie musimy zapozna\u0107 si\u0119 ze szczeg\u00f3\u0142ami tego, jak program materia\u0142 przetwarza, z czym ma problem, co robi dobrze oraz jakie, pozornie niezwi\u0105zane g\u0142\u00f3wnym zadaniem,\u00a0mechanizmy mo\u017cemy wykorzysta\u0107 podczas przetwarzania.\u00a0Istotna jest te\u017c \u015bwiadomo\u015b\u0107 pierwotnego przeznaczenia\u00a0u\u017cywanego programu, gdy\u017c pomaga to zrozumie\u0107 dlaczego pewne mechanizmy dzia\u0142aj\u0105 tak, jak dzia\u0142aj\u0105 i dlaczego tw\u00f3rcy pewnych dla nas oczywistych funkcji nie stworzyli w og\u00f3le.<\/p>\n<p style=\"text-align: left;\">Wpis ten pierwszorz\u0119dnie dotyczy FineReadera w procesie digitalizacji, jednak wi\u0119kszo\u015b\u0107 sugerowanych rozwi\u0105za\u0144 zastosowa\u0107 mo\u017cna do dowolnego programu, w kt\u00f3rym konfiguracja eksportu jest ograniczona. Przyk\u0142ady s\u0105 z wersji 12, aczkolwiek poprzednie wi\u0119kszo\u015b\u0107 z tych opcji b\u0119d\u0105 mie\u0107 zorganizowanych tak samo lub bardzo podobnie, z jednym drobnym wyj\u0105tkiem, kt\u00f3ry tu jednak nie jest istotny<span id='easy-footnote-2-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-2-202' title='FineReader 12 ma funkcj\u0119 PreciseScan, kt\u00f3ra tutaj jednak wi\u0119kszego zastosowania nie ma.'><sup>2<\/sup><\/a><\/span>. Niekt\u00f3re funkcje maj\u0105 w r\u00f3\u017cnych wersjach inne nazwy, w miar\u0119 mo\u017cliwo\u015bci dopisz\u0119 te\u017c nomenklatur\u0119 z wersji 11, innymi wersjami nie dysponuj\u0119, wi\u0119c w takich przypadkach trzeba b\u0119dzie pokombinowa\u0107 samemu.<\/p>\n<p style=\"text-align: left;\">Je\u017celi chcemy u\u017cy\u0107 FineReadera do konwertowania historycznych materia\u0142\u00f3w bibliotecznych, mo\u017ce si\u0119 nam troch\u0119 tych nieoczywistych\u00a0rzeczy przyda\u0107. I o ile dokument\u00f3w DjVu lepiej tym programem robi\u0107\u00a0nie pr\u00f3bowa\u0107, bo niczego sensownego wytworzy\u0107 si\u0119 nam nie uda<span id='easy-footnote-3-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-3-202' title='O tym, dlaczego tak jest, napisz\u0119 innym razem. Na razie mo\u017cna wierzy\u0107 na s\u0142owo, lub nie wierzy\u0107 wcale : ).'><sup>3<\/sup><\/a><\/span>, to w przypadku pedeef\u00f3w sprawa ca\u0142kiem beznadziejna nie jest. Zaznaczam na wst\u0119pie, \u017ce bardzo porz\u0105dnej optymalizacji przy jednoczesnej wysokiej jako\u015bci oczekiwa\u0107 nie spos\u00f3b, jednak da si\u0119 tym programem zrobi\u0107 dokumenty, kt\u00f3re przynajmniej nie b\u0119d\u0105 w ka\u017cdym aspekcie sknocone.\u00a0Najwa\u017cniejsza jednak jest zmiana podej\u015bcia, poniewa\u017c zrobienie w miar\u0119 porz\u0105dnie przygotowanego dokumentu FineReaderem jest mo\u017cliwe, wymaga jednak cierpliwo\u015bci oraz sporego nak\u0142adu pracy. Podej\u015bcie <em>wrzu\u0107\u2014kliknij\u2014wyjmij<\/em>\u00a0zupe\u0142nie\u00a0si\u0119 tutaj nie sprawdzi.<\/p>\n<h3 style=\"text-align: left;\">Zbadanie dzia\u0142ania programu<\/h3>\n<p style=\"text-align: left;\">Zak\u0142adam, \u017ce czytaj\u0105cy te s\u0142owa mniej wi\u0119cej wie, co to jest FineReader i do czego s\u0142u\u017cy, a tak\u017ce jakie\u015b pobie\u017cne do\u015bwiadczenie z tym programem ma i potrafi\u00a0przygotowa\u0107 go do roli w prezentowanym tutaj procesie, kt\u00f3ra ogranicza si\u0119 jedynie do rozpoznania tekstu i konwersji do formatu prezentacyjnego. Je\u017celi idzie t\u0119 ostatni\u0105 spraw\u0119, okazuje si\u0119, \u017ce kilka spraw jest troch\u0119 sknoconych \u2014 z paru innych da si\u0119 zmontowa\u0107 jakie\u015b prymitywne ustawienia, \u017ceby mie\u0107 wp\u0142yw na wynik przetwarzania.<\/p>\n<figure id=\"attachment_212\" aria-describedby=\"caption-attachment-212\" style=\"width: 544px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-212 size-full\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/08\/finereader-opcje-zapisu-pdf.png\" alt=\"FineReader 12: Ustawienia zapisu PDF\" width=\"544\" height=\"561\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/08\/finereader-opcje-zapisu-pdf.png 544w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/08\/finereader-opcje-zapisu-pdf-420x433.png 420w\" sizes=\"auto, (max-width: 544px) 100vw, 544px\" \/><figcaption id=\"caption-attachment-212\" class=\"wp-caption-text\">Jakie\u015b opcje s\u0105, mo\u017cna wi\u0119c pr\u00f3bowa\u0107.<\/figcaption><\/figure>\n<p style=\"text-align: left;\">Z ca\u0142ego tego panelu interesuj\u0105 nas trzy rzeczy: <em>Skompresuj obrazy przy u\u017cyciu technologii MRC <\/em>w FR12<em>\u00a0<\/em>lub\u00a0<em>U\u017cyj mieszanej zawarto\u015bci rastrowej<\/em> w FR11\u00a0\u2014 czyli w\u0142\u0105cz\/wy\u0142\u0105cz segmentacj\u0119, <em>Dodaj znaczniki PDF <\/em>lub<em>\u00a0W\u0142\u0105cz PDF ze znacznikami<\/em>\u00a0\u2014 kt\u00f3ra powinna w naszym kontek\u015bcie si\u0119 nazywa\u0107\u00a0<em>Uwzgl\u0119dnij bloki obraz\u00f3w przy segmentacji<\/em>, poniewa\u017c to jedyny aspekt tej opcji, kt\u00f3ry ma znaczenie dla obrazu wynikowego<span id='easy-footnote-4-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-4-202' title='I tak znaczniki i inne zaawansowane rzeczy lepiej w takich przypadkach robi\u0107 po konwersji, o ile w og\u00f3le jest sens.'><sup>4<\/sup><\/a><\/span>. Wy\u0142\u0105czenie tego powoduje kompletne zignorowanie czegokolwiek, co jest zaznaczone przez blok obrazu i zastosowanie przetwarzania niskiej jako\u015bci, tak, jak w przypadku fragment\u00f3w niezaznaczonych. Za\u0142\u0105czenie powoduje zapis obszar\u00f3w zaznaczonych jako obrazy w wy\u017cszej rozdzielczo\u015bci i z mniejszym stopniem kompresji. O szczeg\u00f3\u0142ach tej funkcji pewnie co\u015b jeszcze napisz\u0119, poniewa\u017c cz\u0119sto s\u0105 z tym spore k\u0142opoty. Trzeci\u0105 istotn\u0105 opcj\u0105 s\u0105\u00a0<em>Ustawienia obrazu<\/em> \u2014 lista rozwijana, z kt\u00f3rej wa\u017cne s\u0105 tylko dwie rzeczy:\u00a0<em>Najlepsza jako\u015b\u0107 (rozdzielczo\u015b\u0107 obrazu \u017ar\u00f3d\u0142owego)\u00a0<\/em>oraz\u00a0<em>Niestandardowa\u2026<\/em> Dwie pozosta\u0142e raczej nie maj\u0105 zastosowania.<\/p>\n<figure id=\"attachment_214\" aria-describedby=\"caption-attachment-214\" style=\"width: 434px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-214 size-full\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/08\/finereader-opcje-zapisu-pdf-niestandardowe.png\" alt=\"FineReader 12: Niestandardowa...\" width=\"434\" height=\"313\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/08\/finereader-opcje-zapisu-pdf-niestandardowe.png 434w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/08\/finereader-opcje-zapisu-pdf-niestandardowe-420x303.png 420w\" sizes=\"auto, (max-width: 434px) 100vw, 434px\" \/><figcaption id=\"caption-attachment-214\" class=\"wp-caption-text\">Rozdzielczo\u015bci lepiej nie zmniejsza\u0107.<\/figcaption><\/figure>\n<p style=\"text-align: left;\">W ustawieniach niestandardowych jest suwak jako\u015bci, kt\u00f3ry na jako\u015b\u0107 kompresji obraz\u00f3w ciag\u0142otonalnych nie wp\u0142ywa, aczkolwiek ma jak\u0105\u015b sztywn\u0105 warto\u015b\u0107 niemaksymaln\u0105, co pozwala nam u\u017cy\u0107 tej opcji gdy chcemy bardziej skompresowa\u0107 dokument. Zaznaczamy tam brak zmiany rozdzielczo\u015bci i automatyczny wyb\u00f3r kontroli kolor\u00f3w oraz pozwalamy na utrat\u0119 jako\u015bci, pozycja suwaka ma jedynie znaczenie dla bitonalnych obraz\u00f3w wej\u015bciowych, mo\u017cna wi\u0119c ustawi\u0107\u00a0cokolwiek<span id='easy-footnote-5-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-5-202' title='Zaznaczy\u0107 musz\u0119, \u017ce domy\u015blne\u00a045 jest troch\u0119 poni\u017cej granicy bezpiecze\u0144stwa, trza podnie\u015b\u0107 do minimum 50. Wi\u0119cej o tym napisz\u0119 przy okazji przetwarzania obraz\u00f3w prawdziwie czarnych i bia\u0142ych.'><sup>5<\/sup><\/a><\/span>.<\/p>\n<p style=\"text-align: left;\">A teraz bardzo wa\u017cna sprawa. Na wynik segmentacji w PDF-ach ma wp\u0142yw odpowiednie zaznaczenie blok\u00f3w. Fakt ten powoduje, \u017ce nie da si\u0119 porz\u0105dnie zautomatyzowa\u0107 przetwarzania przy jednoczesnej optymalizacji plik\u00f3w wynikowych \u2014 ci\u0105g\u0142a kontrola poprawno\u015bci zaznacze\u0144 blok\u00f3w jest wi\u0119c fundamentalnym warunkiem powodzenia sprawy. Nie mo\u017cna wi\u0119c na skr\u00f3ty dzia\u0142a\u0107, ka\u017cd\u0105 stron\u0119 trzeba sprawdzi\u0107 i bloki poprawi\u0107 \u2014 na co szczeg\u00f3lnie uwag\u0119 zwracam \u2014 wprowadzenie wi\u0119c PDF-\u00f3w i przetwarzanie FineReaderem segmentacji\u00a0nie przyspieszy ani nie usprawni. Nie wszystko z tego powodu musi by\u0107 jednak negatywne, by\u0107 mo\u017ce to dobra okazja do ponownej ewaluacji wska\u017anik\u00f3w i skupienia si\u0119 na jako\u015bci, skoro i tak trzeba poprawia\u0107 i sprawdza\u0107.<\/p>\n<p style=\"text-align: left;\">Mamy wi\u0119c pewien ograniczony wp\u0142yw na stopie\u0144 kompresji obrazu wyj\u015bciowego oraz spos\u00f3b segmentacji lub jej ca\u0142kowite wy\u0142\u0105czenie, czyli wzgl\u0119dnie ma\u0142o w por\u00f3wnaniu np. z DocumentExpress \u2014 z drugiej strony jednak mo\u017cemy regulowa\u0107 zaznaczenia obszar\u00f3w, co pozwala na lepsz\u0105 kontrol\u0119 nad zawarto\u015bci\u0105 stron i umo\u017cliwia\u00a0r\u0119czne wsparcie segmentacji \u2014 w przypadku ca\u0142kowicie zautomatyzowanego przetwarzania nie by\u0142o to mo\u017cliwe w og\u00f3le. Oczywi\u015bcie poprawia to\u00a0tak\u017ce jako\u015b\u0107 rozpoznania tekstu.<\/p>\n<h3>Przygotowanie materia\u0142u wej\u015bciowego<\/h3>\n<p style=\"text-align: left;\">Skoro na etapie konwersji naustawia\u0107 wiele si\u0119 nie da, trzeba to przenie\u015b\u0107 do poprzedniego etapu, w kt\u00f3rym mo\u017cemy mie\u0107 wp\u0142yw na kilka rzeczy. Je\u017celi chcemy cokolwiek sensownego uzyska\u0107 na wyj\u015bciu, to zdecydowanie\u00a0nale\u017cy odpu\u015bci\u0107 sobie 300 ppi, poniewa\u017c segmenter FineReadera nie ma kompletnie \u017cadnych optymalizacji dla obraz\u00f3w o niskiej rozdzielczo\u015bci, a tak\u017ce dlatego, \u017ce nie da si\u0119 ustawia\u0107 dzielnik\u00f3w ani jako\u015bci kompresji dla poszczeg\u00f3lnych warstw. Je\u017celi dysponujemy materia\u0142em \u017ar\u00f3d\u0142owym o rozdzielczo\u015bci 600 ppi, to mo\u017cna go za\u0142adowa\u0107 bezpo\u015brednio i bez obaw przetworzy\u0107. Co jednak, gdy mamy tylko 300? Trzeba pliki \u017ar\u00f3d\u0142owe zinterpolowa\u0107. Docelowo rozdzielczo\u015b\u0107 ok. 500 ppi jest wystarczaj\u0105ca. Wi\u0119cej ni\u017c 600 z 300 robi\u0107 nie polecam, poniewa\u017c pojawi\u0105 si\u0119 dodatkowe k\u0142opoty, kt\u00f3re dosy\u0107 ci\u0119\u017cko si\u0119 kompensuje, a poza tym 600 wystarcza do wi\u0119kszo\u015bci wsp\u00f3\u0142czesnych zastosowa\u0144. Program dzieli na sztywno przez trzy. Je\u017celi podamy na wej\u015bciu\u00a0600 ppi, to uzyskamy t\u0142o o rozdzielczo\u015bci 200 ppi, kt\u00f3re b\u0119dzie ju\u017c wystarczalne i w miar\u0119 bezpieczne w razie\u00a0niepowodzenia segmentacji pewnych obszar\u00f3w<span id='easy-footnote-6-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-6-202' title='A tego si\u0119 po FineReaderze spodziewa\u0107 nale\u017cy raczej w ka\u017cdym przypadku'><sup>6<\/sup><\/a><\/span>. Warto powi\u0119ksza\u0107 obrazy czym\u015b, co dobrze interpoluje. Zdecydowanie odradzam eksportowanie w wi\u0119kszej rozdzielczo\u015bci bezpo\u015brednio ze ScanTailora, gdy\u017c nie radzi sobie wystarczaj\u0105co dobrze. \u015awietnie za to radzi sobie z tym ImageMagick, wi\u0119c na skanach \u017ar\u00f3d\u0142owych, zanim cokolwiek z nimi zrobimy innego, trzeba wykona\u0107:<\/p>\n<p style=\"text-align: left;\"><code>mogrify -resample 600 -verbose -format jpg -quality 97 *.tif<\/code><\/p>\n<p style=\"text-align: left;\">Tak, mo\u017cna do jpega, o ile si\u0119 go za bardzo nie \u015bci\u015bnie. A przy okazji nie zast\u0119pujemy plik\u00f3w \u017ar\u00f3d\u0142owych, da si\u0119\u00a0wi\u0119c powt\u00f3rzy\u0107, je\u015bli si\u0119 co\u015b nie powiedzie za pierwszym razem.\u00a0Stosuj\u0105c odpowiedni\u0105 rozdzielczo\u015b\u0107 wej\u015bciow\u0105 mo\u017cna \u0142adnie ustali\u0107, co otrzymamy na wyj\u015bciu. Poza tym zwi\u0119kszenie rozmiaru ma bardzo pozytywny wp\u0142yw na geometri\u0119 znak\u00f3w, co wida\u0107 poni\u017cej.<\/p>\n<figure id=\"attachment_235\" aria-describedby=\"caption-attachment-235\" style=\"width: 728px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-235 size-full\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/krolikicomb.png\" alt=\"Por\u00f3wnanie 300\/600 ppi\" width=\"728\" height=\"554\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/krolikicomb.png 728w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/krolikicomb-420x320.png 420w\" sizes=\"auto, (max-width: 728px) 100vw, 728px\" \/><figcaption id=\"caption-attachment-235\" class=\"wp-caption-text\">Z lewej: wynik bezpo\u015bredniego przetworzenia obrazu wej\u015bciowego (300 ppi). <br \/>Z prawej: po przetworzeniu z\u00a0zastosowaniem wcze\u015bniejszej interpolacji (600 ppi ze\u00a0\u017ar\u00f3d\u0142a 300 ppi).<\/figcaption><\/figure>\n<p style=\"text-align: left;\">R\u00f3\u017cnica w rozmiarze wynikowego pliku wynosi ok. 210%, otrzymujemy jednak czterokrotne zwi\u0119kszenie powierzchni i dok\u0142adno\u015bci zarazem.\u00a0Jak si\u0119 w praktyce okazuje, przeprowadzenie\u00a0interpolacji pomaga te\u017c na obrazy zaszumione i jpegi z widocznymi artefaktami, w zwi\u0105zku z tym w wi\u0119kszo\u015bci przypadk\u00f3w op\u0142aca si\u0119 to wykona\u0107 i tak.\u00a0<a href=\"http:\/\/siedlarz.net\/blog\/2016\/jak-krecic-skutecznie\/\">Szczeg\u00f3\u0142owo opisa\u0142em spraw\u0119 tutaj<\/a>. Gdy ju\u017c mamy odpowiednio powi\u0119kszone pliki, mo\u017cemy je poobraca\u0107 i przykroi\u0107 ScanTailorem, poprawi\u0107 nieco akutancj\u0119 i ostro\u015b\u0107, po czym za\u0142adowa\u0107 do FineReadera. Z racji tego, \u017ce obrazy mamy ju\u017c przygotowane, trzeba w FineReaderze wy\u0142\u0105czy\u0107 przetwarzanie wst\u0119pne, poniewa\u017c program pokr\u0119ci obrazy po swojemu i wprowadzi niesp\u00f3jno\u015b\u0107 rozmiaru stron w dokumencie wynikowym, co brzydkie i nieprofesjonalne jest.<\/p>\n<h3>Rozpoznanie i korekta obszar\u00f3w<\/h3>\n<p style=\"text-align: left;\">FineReader dokona analizy uk\u0142adu strony na ka\u017cdym ze skan\u00f3w. Niestety, jak to automat, superskuteczny w tym zadaniu nie jest, a im bardziej z\u0142o\u017cony lub dziwny dokument, tym mniejsze szanse powodzenia. Z zachowania programu wywnioskowa\u0107 mo\u017cna, \u017ce g\u0142\u00f3wnym celem przetwarzania s\u0105 dokumenty biurowe i proste, wsp\u00f3\u0142czesne ksi\u0105\u017cki \u2014 z tym FineReader radzi sobie w miar\u0119 dobrze i wiele poprawia\u0107 nie trzeba. Je\u015bli jednak mamy do skonwertowania dokument historyczny w nie najlepszym stanie, na dodatek z\u0142o\u017cony wielokolumnowo i z ilustracjami, sprawa si\u0119 troch\u0119 komplikuje. Problem wynika z odmiennego podej\u015bcia do segmentacji obrazu ni\u017c w DocumentExpress lub nawet w przypadku robienia DjVu FineReaderem. Przy eksporcie do DjVu ca\u0142o\u015b\u0107 obrazu zostaje podana segmenterowi do przetworzenia. Przy PDF na wynik maj\u0105 wp\u0142yw zaznaczone bloki. I je\u017celi s\u0105 zaznaczone poprawnie oraz program poradzi\u0142 sobie z ich rozpoznaniem<span id='easy-footnote-7-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-7-202' title='Co nie zawsze si\u0119 zdarza i czasem naprawd\u0119 dziwne rzeczy si\u0119 dziej\u0105. Ufa\u0107 temu nie spos\u00f3b.'><sup>7<\/sup><\/a><\/span>, to wynik jest dobry. \u017beby go uzyska\u0107, nale\u017cy przejrze\u0107 ka\u017cd\u0105 stron\u0119 i wszystkie bloki poprawi\u0107.<\/p>\n<p style=\"text-align: left;\">Zanim zabierzemy si\u0119 jednak do poprawiania, nale\u017cy zdecydowa\u0107 jak b\u0119dziemy segmentowa\u0107 dokument. Przydadz\u0105 si\u0119 nam do tego opcje, kt\u00f3re wcze\u015bniej opisa\u0142em. W por\u00f3wnaniu z klasycznym tr\u00f3jwarstwowym modelem MRC, zastosowanym w DjVu (kt\u00f3ry tutaj te\u017c mo\u017cemy zastosowa\u0107), PDF pozwala nam na dodanie jeszcze jednej warstwy \u2014\u00a0obszar\u00f3w ilustracji, kt\u00f3rych rozdzielczo\u015b\u0107 nie b\u0119dzie redukowana, a stopie\u0144 kompresji niewielki. \u015awietna rzecz, jednak trzeba z tym ostro\u017cnie, gdy\u017c \u0142atwo przez niew\u0142a\u015bciwe u\u017cycie doprowadzi\u0107 do sporego niepotrzebnego zwi\u0119kszenia rozmiaru plik\u00f3w wynikowych oraz bardzo widocznych granic mi\u0119dzy obszarami<span id='easy-footnote-8-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-8-202' title='W starszych wersjach by\u0142 to powa\u017cny problem, zdaje si\u0119, \u017ce zosta\u0142 znacznie poprawiony w wersjach nowszych, niemniej uwa\u017ca\u0107 trzeba.'><sup>8<\/sup><\/a><\/span>, co zmniejsza komfort czytania i generalnie dra\u017cni. Podsumowuj\u0105c: decydujemy, czy robimy trzy warstwy, czy cztery. Z do\u015bwiadcze\u0144 moich wysz\u0142o, \u017ce je\u017celi mamy dokumenty, kt\u00f3rych papier jest ciemny i ma dosy\u0107 mocno widoczn\u0105 faktur\u0119, lepiej robi\u0107 tr\u00f3jwarstwowo; natomiast bardziej wsp\u00f3\u0142czesne, kt\u00f3re maja g\u0142adkie t\u0142o, mo\u017cna robi\u0107 czterowarstwowo. Je\u017celi chcemy cztery\u00a0warstwy, za\u0142\u0105czamy znaczniki PDF, je\u017celi natomiast chcemy trzy \u2014 wy\u0142\u0105czamy. Oczywi\u015bcie rodzaj papieru nie jest jedynym kryterium, istotnym przy decyzji o sposobie segmentowania. Przy takim samym materiale wej\u015bciowym, przetwarzanie trzywarstwowe da w wi\u0119kszo\u015bci przypadk\u00f3w znacznie mniejsze obrazy ni\u017c czterowarstwowe, co mo\u017ce by\u0107 po\u017c\u0105dane. Istnieje jeszcze jedna wa\u017cna przewaga tr\u00f3jwarstwowego sposobu konwersji \u2014 w og\u00f3le\u00a0nie musimy przejmowa\u0107 si\u0119 zaznaczaniem i poprawianiem blok\u00f3w typu obraz, gdy\u017c zostan\u0105 przez program zupe\u0142nie\u00a0pomini\u0119te \u2014 czyli znacznie mniej roboty przy korekcie. Tryb czterowarstwowy przydaje si\u0119 szczeg\u00f3lnie w przypadku nowych dokument\u00f3w, kt\u00f3re zawieraj\u0105 bardzo szczeg\u00f3\u0142owe ilustracje \u2014 zastosowanie zaznacze\u0144 powoduje eksport tych fragment\u00f3w w oryginalnej rozdzielczo\u015bci. Je\u017celi jednak papier nie jest g\u0142adki, trzeba si\u0119 spodziewa\u0107 tego, \u017ce program pozaznacza wi\u0119kszo\u015b\u0107 obszaru stron niezadrukowanych jako obrazy, co spowoduje, \u017ce niekt\u00f3re z nich b\u0119d\u0105 mie\u0107 przy eksporcie nawet kilka megabajt\u00f3w i doprowadzi te\u017c do pewnej paradoksalnej sytuacji, w kt\u00f3rej strony niezadrukowane b\u0119d\u0105 lepszej jako\u015bci ni\u017c zadrukowane, a raczej nie po to optymalizujemy dokumenty :).<\/p>\n<p style=\"text-align: left;\">Program tre\u015b\u0107 odnalaz\u0142 i oznaczy\u0142 \u2014 przyst\u0105pmy do korekt. Na pewno trzeba pozaznacza\u0107 ca\u0142y tekst, gdy\u017c wszystko, co nie jest zaznaczone\u00a0podane zostanie segmenterowi w specjalnym trybie, kt\u00f3ry szuka tylko linii i kraw\u0119dzi ramek \u2014 a to si\u0119 dla tekstu mo\u017ce sko\u0144czy\u0107 \u017ale<span id='easy-footnote-9-202' class='easy-footnote-margin-adjust'><\/span><span class='easy-footnote'><a href='https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#easy-footnote-bottom-9-202' title='Bardzo \u017ale natomiast si\u0119 to ko\u0144czy dla grafik, kt\u00f3re s\u0105 wype\u0142niane liniowaniem, o ile linie s\u0105 poziome lub pionowe. Trzeba wtedy u\u017cy\u0107 trybu czterowarstwowego i pozaznacza\u0107 takie ilustracje.'><sup>9<\/sup><\/a><\/span>. Poza tym raczej chcemy mie\u0107 tekst rozpoznany. Je\u017celi stosujemy tryb trzywarstwowy, mo\u017cemy pozaznacza\u0107 jako obrazki te fragmenty skanu, kt\u00f3re na pewno maj\u0105 nie by\u0107 segmentowane. FineReader ma czasem problem z rozpoznaniem bloku. W obszarze podgl\u0105du rozpoznania taki blok b\u0119dzie widoczny, jednak nie b\u0119dzie zawiera\u0142 \u017cadnych znak\u00f3w (lub b\u0119dzie brakowa\u0107 fragmentu tre\u015bci).<\/p>\n<figure id=\"attachment_253\" aria-describedby=\"caption-attachment-253\" style=\"width: 744px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-253 size-medium\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/fine-pustyblok-1-744x183.png\" alt=\"fine-pustyblok\" width=\"744\" height=\"183\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/fine-pustyblok-1-744x183.png 744w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/fine-pustyblok-1-420x103.png 420w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/fine-pustyblok-1-768x188.png 768w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/fine-pustyblok-1-1200x294.png 1200w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/fine-pustyblok-1.png 1561w\" sizes=\"auto, (max-width: 744px) 100vw, 744px\" \/><figcaption id=\"caption-attachment-253\" class=\"wp-caption-text\">Czasem trzeba zmodyfikowa\u0107 rozmiar obszaru zaznaczenia, by w og\u00f3le umo\u017cliwi\u0107 rozpoznanie. <br \/>Zmiana typu na tabel\u0119 te\u017c mo\u017ce pom\u00f3c.<\/figcaption><\/figure>\n<p style=\"text-align: left;\">Aby to naprawi\u0107 w wi\u0119kszo\u015bci wypadk\u00f3w wystarczy sprawdzi\u0107, czy si\u0119 nie w\u0142\u0105czy\u0142a inwersja tekstu w bloku, a je\u015bli nie, nale\u017cy spr\u00f3bowa\u0107 lekko zmieni\u0107 rozmiar zaznaczenia i spr\u00f3bowa\u0107 rozpozna\u0107 ponownie. Je\u015bli to nie pomaga, mo\u017cna spr\u00f3bowa\u0107 zmieni\u0107 typ bloku na tabel\u0119, co program zdaje si\u0119 odczytywa\u0107 delikatnie sprawniej. A je\u015bli i to nie pomaga, to niestety trudno \u2014 przepad\u0142o i fragment musi i\u015b\u0107 do ty\u0142u. Je\u017celi odpowiednio powi\u0119kszyli\u015bmy obraz, to straty z tego powodu nie b\u0119d\u0105 dotkliwe. Wa\u017cny jest te\u017c poprawny wyb\u00f3r j\u0119zyka rozpoznania \u2014 przy nieodpowiednim ustawieniu ryzyko, \u017ce program \u017ale roz\u0142o\u017cy mi\u0119dzy warstwy\u00a0umlauty, ogonki i inne dodatki, znacznie wzrasta. Bardzo istotn\u0105 rzecz\u0105 jest tak\u017ce usuwanie zaznacze\u0144 kod\u00f3w kreskowych, gdy\u017c z obrazu docelowego s\u0105 one wycinane, co bywa sporym k\u0142opotem i jest bardzo widoczne. Da\u00a0si\u0119 to\u00a0wprawdzie\u00a0w opcjach wy\u0142\u0105czy\u0107 i program nie szuka w og\u00f3le kod\u00f3w przy rozpoznawaniu, aczkolwiek jako\u015b ta opcja przynajmniej w mojej wersji 11 nie chcia\u0142a si\u0119 zapami\u0119ta\u0107 i resetowa\u0142a wci\u0105\u017c po zamkni\u0119ciu programu. Zwykle w ksi\u0105\u017ckach bibliotecznych jest jeden lub dwa kody, to wzgl\u0119dnie niewiele, trzeba klikn\u0105\u0107 i skasowa\u0107 taki blok. Czasami zdarza si\u0119 te\u017c, \u017ce fragment tekstu zostaje rozpoznany jako kod kreskowy \u2014 bezwzgl\u0119dnie trzeba takie bloki likwidowa\u0107.<\/p>\n<figure id=\"attachment_255\" aria-describedby=\"caption-attachment-255\" style=\"width: 744px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-255 size-medium\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wycietykod-744x620.png\" alt=\"wycietykod\" width=\"744\" height=\"620\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wycietykod-744x620.png 744w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wycietykod-420x350.png 420w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wycietykod-768x640.png 768w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wycietykod.png 1077w\" sizes=\"auto, (max-width: 744px) 100vw, 744px\" \/><figcaption id=\"caption-attachment-255\" class=\"wp-caption-text\">Pozostawienie zaznacze\u0144 kod\u00f3w kreskowych ko\u0144czy si\u0119 tak.<\/figcaption><\/figure>\n<p style=\"text-align: left;\">Najbardziej problematycznymi fragmentami dokument\u00f3w s\u0105 reklamy i tabelki. FineReader nie umie rozpozna\u0107 tekstu, kt\u00f3ry jest z\u0142o\u017cony pod k\u0105tem, lub jest jaki\u015b mocno nietypowy \u2014 co si\u0119 najcz\u0119\u015bciej zdarza w\u0142a\u015bnie w reklamach. Trzeba czasem mocno pokombinowa\u0107 z blokami. Je\u017celi k\u0105t nachylenia nie jest bardzo du\u017cy, mo\u017cna spr\u00f3bowa\u0107 zaznaczy\u0107 ka\u017cd\u0105 liter\u0119 osobno, czasem si\u0119 udaje to rozpozna\u0107 i zsegmentowa\u0107. Tabelki natomiast zwykle rozpoznaj\u0105 si\u0119 \u017ale. Szczeg\u00f3lnie takie, kt\u00f3re maj\u0105 r\u00f3\u017cne kierunki tekstu. Trza to wszystko pozaznacza\u0107 i ca\u0142\u0105 struktur\u0119 tabeli czasem zbudowa\u0107 od zera. Du\u017co pracy, jednak si\u0119 op\u0142aca.<\/p>\n<figure id=\"attachment_239\" aria-describedby=\"caption-attachment-239\" style=\"width: 744px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-239 size-medium\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/tabelazla-744x531.png\" alt=\"tabelazla\" width=\"744\" height=\"531\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/tabelazla-744x531.png 744w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/tabelazla-420x300.png 420w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/tabelazla-768x548.png 768w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/tabelazla.png 898w\" sizes=\"auto, (max-width: 744px) 100vw, 744px\" \/><figcaption id=\"caption-attachment-239\" class=\"wp-caption-text\">Z\u0142a jako\u015b\u0107 obrazu to nie wszystko, tekst nie zosta\u0142 poprawnie rozpoznany. Zwi\u0119kszenie rozdzielczo\u015bci wej\u015bciowej skompensuje przynajmniej nieco straty na jako\u015bci w takich przypadkach. Warto pozaznacza\u0107 porz\u0105dnie.<\/figcaption><\/figure>\n<p style=\"text-align: left;\">Kolejnym k\u0142opotem s\u0105 nag\u0142\u00f3wki wpuszczone i dopiski na marginesach. Ka\u017cdy z nich musi znale\u017a\u0107 si\u0119 w osobnym bloku, gdy\u017c program nie umie odczyta\u0107 w jednym bloku tekst\u00f3w z r\u00f3\u017cnymi pozycjami linii bazowej. Podobnie jest z inicja\u0142ami je\u017celi s\u0105 wpuszczone. Rzecz\u0105 beznadziejn\u0105 s\u0105 natomiast z\u0142o\u017cone wzory matematyczne. Kombinowa\u0107 z blokami jak najbardziej mo\u017cna, jednak i tak ko\u0144czy si\u0119 to niedobrze. Na razie nie znam skutecznego sposobu. W takich przypadkach du\u017ca rozdzielczo\u015b\u0107 wej\u015bciowa jest obowi\u0105zkowa, inaczej nie b\u0119dzie si\u0119 da\u0142o tego nawet przeczyta\u0107.<\/p>\n<figure id=\"attachment_256\" aria-describedby=\"caption-attachment-256\" style=\"width: 744px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-256 size-medium\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle-744x355.png\" alt=\"wzor-zle\" width=\"744\" height=\"355\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle-744x355.png 744w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle-420x200.png 420w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle-768x366.png 768w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle-1200x572.png 1200w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png 1648w\" sizes=\"auto, (max-width: 744px) 100vw, 744px\" \/><figcaption id=\"caption-attachment-256\" class=\"wp-caption-text\">Je\u015bli nic si\u0119 z tym nie robi, efekt jest taki.<\/figcaption><\/figure>\n<figure id=\"attachment_257\" aria-describedby=\"caption-attachment-257\" style=\"width: 744px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-257 size-medium\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-lepiej-744x355.png\" alt=\"wzor-lepiej\" width=\"744\" height=\"355\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-lepiej-744x355.png 744w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-lepiej-420x200.png 420w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-lepiej-768x366.png 768w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-lepiej-1200x572.png 1200w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-lepiej.png 1648w\" sizes=\"auto, (max-width: 744px) 100vw, 744px\" \/><figcaption id=\"caption-attachment-257\" class=\"wp-caption-text\">Podniesienie rozdzielczo\u015bci oraz manipulacja blokami daj\u0105 znacznie lepsze rezultaty.<\/figcaption><\/figure>\n<figure id=\"attachment_258\" aria-describedby=\"caption-attachment-258\" style=\"width: 744px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-258 size-medium\" src=\"http:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-powiekszenie-744x271.png\" alt=\"wzor-powiekszenie\" width=\"744\" height=\"271\" srcset=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-powiekszenie-744x271.png 744w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-powiekszenie-420x153.png 420w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-powiekszenie-768x280.png 768w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-powiekszenie-1200x438.png 1200w, https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-powiekszenie.png 1769w\" sizes=\"auto, (max-width: 744px) 100vw, 744px\" \/><figcaption id=\"caption-attachment-258\" class=\"wp-caption-text\">Pi\u0119knie nie jest, jednak o wiele bezpieczniej.<\/figcaption><\/figure>\n<h3>Eksport<\/h3>\n<p style=\"text-align: left;\">Je\u015bli ju\u017c wszystko mamy pozaznaczane i poprawione, mo\u017cemy przyst\u0105pi\u0107 do eksportu. Jak wcze\u015bniej wspomnia\u0142em co\u015b tam si\u0119 poustawia\u0107 da, mamy wi\u0119c dwie mo\u017cliwo\u015bci: eksportujemy w maksymalnej jako\u015bci, co jest do wi\u0119kszo\u015bci rzeczy zalecane i bezpieczne \u2014 pliki jednak b\u0119d\u0105 do\u015b\u0107 du\u017ce; alternatywnie u\u017cywamy niestandardowego ustawienia jako\u015bci, co powoduje, \u017ce obraz\u00a0b\u0119dzie bardziej skompresowany \u2014 w przypadku dokument\u00f3w o czystym papierze i wzgl\u0119dnie dobrej jako\u015bci druku mo\u017cna \u015bmia\u0142o stosowa\u0107 ten spos\u00f3b i zyska\u0107 troch\u0119 na rozmiarze. Niestety nic poza tym ustawi\u0107 si\u0119 nie da, wi\u0119c nie ma co liczy\u0107 na wielk\u0105 optymalizacj\u0119. Troch\u0119 jednak mo\u017cna, wi\u0119c do eksperyment\u00f3w zach\u0119cam.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Digitalizacja zabytkowych\u00a0materia\u0142\u00f3w bibliotecznych jest w kontek\u015bcie globalnym dosy\u0107 niszowym zagadnieniem, nie ma wi\u0119c co oczekiwa\u0107, \u017ce wykorzystywane oprogramowanie b\u0119dzie kompletnie przyjazne od razu po instalacji. Jednak brak dost\u0119pu do\u00a0rozwi\u0105za\u0144, kt\u00f3re s\u0105 wygodnie konfigurowalne i zoptymalizowane nie oznacza automatycznie, \u017ce usprawnienie przetwarzania nie jest mo\u017cliwe i \u017ce skazani jeste\u015bmy wy\u0142\u0105cznie na to, co dany program domy\u015blnie [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":256,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[3,4,2],"tags":[10,13,11],"class_list":["post-202","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-interpolacja","category-poradniki","category-przetwarzanie-obrazu","tag-finereader","tag-jakosc","tag-kompresja"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v25.2 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Sensowna segmentacja FineReaderem &#8212; Bart\u0142omiej Siedlarz<\/title>\n<meta name=\"description\" content=\"O\u00a0ustawianiu FineReadera i\u00a0innych program\u00f3w, kt\u00f3re ma\u0142o opcji maj\u0105 oraz o\u00a0przygotowaniu materia\u0142u wej\u015bciowego, a\u00a0tak\u017ce o\u00a0cz\u0119stych przy tym problemach.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/\" \/>\n<meta property=\"og:locale\" content=\"pl_PL\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Sensowna segmentacja FineReaderem &#8212; Bart\u0142omiej Siedlarz\" \/>\n<meta property=\"og:description\" content=\"O\u00a0ustawianiu FineReadera i\u00a0innych program\u00f3w, kt\u00f3re ma\u0142o opcji maj\u0105 oraz o\u00a0przygotowaniu materia\u0142u wej\u015bciowego, a\u00a0tak\u017ce o\u00a0cz\u0119stych przy tym problemach.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/\" \/>\n<meta property=\"og:site_name\" content=\"Rzecz o kopiowaniu\" \/>\n<meta property=\"article:published_time\" content=\"2016-09-15T17:32:07+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2017-08-06T11:27:56+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1648\" \/>\n\t<meta property=\"og:image:height\" content=\"786\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Bart\u0142omiej Siedlarz\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Napisane przez\" \/>\n\t<meta name=\"twitter:data1\" content=\"Bart\u0142omiej Siedlarz\" \/>\n\t<meta name=\"twitter:label2\" content=\"Szacowany czas czytania\" \/>\n\t<meta name=\"twitter:data2\" content=\"15 minut\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/\",\"url\":\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/\",\"name\":\"Sensowna segmentacja FineReaderem &#8212; Bart\u0142omiej Siedlarz\",\"isPartOf\":{\"@id\":\"https:\/\/siedlarz.net\/blog\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png\",\"datePublished\":\"2016-09-15T17:32:07+00:00\",\"dateModified\":\"2017-08-06T11:27:56+00:00\",\"author\":{\"@id\":\"https:\/\/siedlarz.net\/blog\/#\/schema\/person\/2c966c11d96d10e08f20d2ab3c9e4084\"},\"description\":\"O\u00a0ustawianiu FineReadera i\u00a0innych program\u00f3w, kt\u00f3re ma\u0142o opcji maj\u0105 oraz o\u00a0przygotowaniu materia\u0142u wej\u015bciowego, a\u00a0tak\u017ce o\u00a0cz\u0119stych przy tym problemach.\",\"breadcrumb\":{\"@id\":\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#breadcrumb\"},\"inLanguage\":\"pl-PL\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"pl-PL\",\"@id\":\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#primaryimage\",\"url\":\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png\",\"contentUrl\":\"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png\",\"width\":1648,\"height\":786},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Strona g\u0142\u00f3wna\",\"item\":\"https:\/\/siedlarz.net\/blog\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Sensowna segmentacja FineReaderem\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/siedlarz.net\/blog\/#website\",\"url\":\"https:\/\/siedlarz.net\/blog\/\",\"name\":\"Rzecz o kopiowaniu\",\"description\":\"digitalizacja i produkcja dokument\u00f3w\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/siedlarz.net\/blog\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pl-PL\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/siedlarz.net\/blog\/#\/schema\/person\/2c966c11d96d10e08f20d2ab3c9e4084\",\"name\":\"Bart\u0142omiej Siedlarz\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pl-PL\",\"@id\":\"https:\/\/siedlarz.net\/blog\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/872f04c80f5b12b9f23681e7634d88007280466cf06b6d72730408378c207108?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/872f04c80f5b12b9f23681e7634d88007280466cf06b6d72730408378c207108?s=96&d=mm&r=g\",\"caption\":\"Bart\u0142omiej Siedlarz\"},\"sameAs\":[\"http:\/\/siedlarz.net\"],\"url\":\"https:\/\/siedlarz.net\/blog\/author\/bsdz\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Sensowna segmentacja FineReaderem &#8212; Bart\u0142omiej Siedlarz","description":"O\u00a0ustawianiu FineReadera i\u00a0innych program\u00f3w, kt\u00f3re ma\u0142o opcji maj\u0105 oraz o\u00a0przygotowaniu materia\u0142u wej\u015bciowego, a\u00a0tak\u017ce o\u00a0cz\u0119stych przy tym problemach.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/","og_locale":"pl_PL","og_type":"article","og_title":"Sensowna segmentacja FineReaderem &#8212; Bart\u0142omiej Siedlarz","og_description":"O\u00a0ustawianiu FineReadera i\u00a0innych program\u00f3w, kt\u00f3re ma\u0142o opcji maj\u0105 oraz o\u00a0przygotowaniu materia\u0142u wej\u015bciowego, a\u00a0tak\u017ce o\u00a0cz\u0119stych przy tym problemach.","og_url":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/","og_site_name":"Rzecz o kopiowaniu","article_published_time":"2016-09-15T17:32:07+00:00","article_modified_time":"2017-08-06T11:27:56+00:00","og_image":[{"width":1648,"height":786,"url":"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png","type":"image\/png"}],"author":"Bart\u0142omiej Siedlarz","twitter_card":"summary_large_image","twitter_misc":{"Napisane przez":"Bart\u0142omiej Siedlarz","Szacowany czas czytania":"15 minut"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/","url":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/","name":"Sensowna segmentacja FineReaderem &#8212; Bart\u0142omiej Siedlarz","isPartOf":{"@id":"https:\/\/siedlarz.net\/blog\/#website"},"primaryImageOfPage":{"@id":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#primaryimage"},"image":{"@id":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#primaryimage"},"thumbnailUrl":"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png","datePublished":"2016-09-15T17:32:07+00:00","dateModified":"2017-08-06T11:27:56+00:00","author":{"@id":"https:\/\/siedlarz.net\/blog\/#\/schema\/person\/2c966c11d96d10e08f20d2ab3c9e4084"},"description":"O\u00a0ustawianiu FineReadera i\u00a0innych program\u00f3w, kt\u00f3re ma\u0142o opcji maj\u0105 oraz o\u00a0przygotowaniu materia\u0142u wej\u015bciowego, a\u00a0tak\u017ce o\u00a0cz\u0119stych przy tym problemach.","breadcrumb":{"@id":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#breadcrumb"},"inLanguage":"pl-PL","potentialAction":[{"@type":"ReadAction","target":["https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/"]}]},{"@type":"ImageObject","inLanguage":"pl-PL","@id":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#primaryimage","url":"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png","contentUrl":"https:\/\/siedlarz.net\/blog\/wp-content\/uploads\/2016\/09\/wzor-zle.png","width":1648,"height":786},{"@type":"BreadcrumbList","@id":"https:\/\/siedlarz.net\/blog\/2016\/sensowna-segmentacja-finereaderem\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Strona g\u0142\u00f3wna","item":"https:\/\/siedlarz.net\/blog\/"},{"@type":"ListItem","position":2,"name":"Sensowna segmentacja FineReaderem"}]},{"@type":"WebSite","@id":"https:\/\/siedlarz.net\/blog\/#website","url":"https:\/\/siedlarz.net\/blog\/","name":"Rzecz o kopiowaniu","description":"digitalizacja i produkcja dokument\u00f3w","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/siedlarz.net\/blog\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pl-PL"},{"@type":"Person","@id":"https:\/\/siedlarz.net\/blog\/#\/schema\/person\/2c966c11d96d10e08f20d2ab3c9e4084","name":"Bart\u0142omiej Siedlarz","image":{"@type":"ImageObject","inLanguage":"pl-PL","@id":"https:\/\/siedlarz.net\/blog\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/872f04c80f5b12b9f23681e7634d88007280466cf06b6d72730408378c207108?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/872f04c80f5b12b9f23681e7634d88007280466cf06b6d72730408378c207108?s=96&d=mm&r=g","caption":"Bart\u0142omiej Siedlarz"},"sameAs":["http:\/\/siedlarz.net"],"url":"https:\/\/siedlarz.net\/blog\/author\/bsdz\/"}]}},"_links":{"self":[{"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/posts\/202","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/comments?post=202"}],"version-history":[{"count":37,"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/posts\/202\/revisions"}],"predecessor-version":[{"id":329,"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/posts\/202\/revisions\/329"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/media\/256"}],"wp:attachment":[{"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/media?parent=202"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/categories?post=202"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/siedlarz.net\/blog\/wp-json\/wp\/v2\/tags?post=202"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}