Issuu on Google+

Pytania kontrolne OCR Agata Staniak (nick praktykanta: poliglotka26) 1. Co to jest OCR i w jakim celu jest stosowany przez tłumaczy? OCR czyli Optical Character Recognition jest to zestaw technik lub rodzaj oprogramowania służącego do rozpoznawania znaków i całych tekstów w pliku graficznym o postaci rastrowej. Wykorzystanie OCR ma zazwyczaj na celu rozpoznanie tekstu w zeskanowanym dokumencie źródłowym. Niegdyś termin OCR oznaczał samo rozpoznawanie ciągów znaków, głównie drukowanych, które są łatwiejsze do rozpoznania, dziś techniki OCR umożliwiają rozpoznawanie także pisma odręcznego oraz cech formatowania dokumentu źródłowego takich jak: krój pisma, stopień pisma, interlinia (techniki służące do tego typu zaawansowanego rozpoznawania nazywane są terminem ICR), a nawet układów tabelarycznych, np. formularzy. Pozwala to na zachowanie formatowania oryginału tłumaczonego dokumentu źródłowego. OCR jest wykorzystywane w pracy tłumacza także z uwagi na konieczność pracy z dokumentami źródłowymi dostarczonymi przez klienta w formie plików w formacie zamkniętym, uniemożliwiającym edycję, czyli głównie w formacie pdf. Konwersja plików pdf do formatu edytowalnego jest możliwa praktycznie jedynie dzięki wykorzystaniu OCR. Za pomocą OCR można też konwertować do postaci formatów edytowalnych pliki dokumentów źródłowych w formatach JPMG, TIFF czy BMP. 2. Czym różnią się dokumenty PDF, RTF, DOC i TXT ? PDF- Portable Document Format ( przenośny format dokumentu) – format plików służący do prezentacji, przenoszenia i drukowania treści tekstowograficznych, stworzony i promowany przez firmę Adobe Systems. Pliki tego typu obsługuje m.in. program Acrobat Reader. W przypadku pracy tłumacza jest to format zamknięty, uniemożliwiający edycję dokumentu w takim stopniu, aby możliwe było wykonanie w nim tłumaczenia. Pliki źródłowe w formacie pdf wymagają konwersji do innych formatów. RTF-Rich Text Format) - format pliku opracowany w 1987 r. przez Microsoft do międzyplatformowej wymiany informacji między procesorami tekstów.


RTF posługuje się zestawami znaków ANSI, PC-8, Macintosh lub IBM PC do sterowania formatowaniem tekstu na ekranie i w druku. Od wersji 1.6 RTF obsługuje Unicode. Składnia jest podobna do składni TeX. Użycie kodów sterujących pozwala łatwo tworzyć dokumenty z definicją czcionki, wielkością czcionki, kolorem tekstu czy tablicami - stąd popularność wśród programistów. RTF jest formatem domyślnych edytorów w systemie Mac OS X - TextEdit, oraz w systemie Microsoft Windows - WordPad. DOC- to rozszerzenie plików w formacie Microsoft Word. Jest to tzw. format otwarty pozwalający na w pełni swobodną edycję plików i współpracę z narzędziami CAT. TXT- Plik tekstowy (ang.) text file – plik zawierający dane w postaci alfanumerycznej. Przykładem pliku tekstowego może być plik źródłowy strony internetowej, z rozszerzeniem nazwy HTM lub HTML. Programy pisane w języku skryptowym również zapisywane są w plikach tekstowych, z dowolnym rozszerzeniem nazwy. Procesor tekstu posiada możliwość zapisu dokumentu w formacie pliku tekstowego, jednak wiąże się to z utratą używanych danych formatujących.

3. Dlaczego jakość wydruku źródła będzie lepsza niż jakość wydruku tłumaczenia, skoro oba dokumenty zapisane są w tym samym formacie PDF? Jakość tłumaczenia zmniejsza zarówno konwersja plik źródłowego do formatu pdf jak i możliwe zmiany podczas edycji niektórych elementów graficznych, które występowały w pliku źródłowym. 4. Dlaczego ważne jest wskazanie języka źródłowego dokumentu przed jego konwersją w programie ABBYY PDF Transformer? Ponieważ program podczas rozpoznawania tekstu korzysta ze słownika adekwatnego do wskazanego języka źródłowego i dzięki temu zasugerowanie programowi właściwego języka zmniejsza ilość błędów, jakie mogą wystąpić po rozpoznaniu tekstu. W przypadku języka polskiego będą to litery typowe dla języka polskiego, w przypadku innych języków mogą to być błędy dotyczące różnego rodzaju znaków diakrytycznych.



Pytania kontrolne OCR poliglotka26