Page 1

Лекция Компьютерные словари и системы компьютерного перевода текстов Системы оптического распознавания документов Компьютерные словари ● ● ●

Первые словари для перевода текстов с одного языка на другой были созданы около 5 тысяч лет назад в Шумере и представляли собой глиняные таблички, разделенные на две части. С одной стороны записывалось слово на шумерском языке, а в другой аналогичное по значению слово на другом языке, иногда с краткими пояснениями. Современные словари построены по такому же принципу. В настоящее время существуют тысячи словарей для перевода между сотнями языков, причем каждый из них может содержать десятки тысяч слов. Поиск в бумажном варианте словаря является довольно трудоемким процессом.

История машинного перевода ● ● ●

● ●

● ● ●

Мысль использовать ЭВМ для перевода была высказана в 1946 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии. Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно -переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике. Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме. Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики попрежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.

Системы машинного перевода ● ● ●

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, СанктПетербург).

Отечественные системы машинного перевода ● Российскими разработчиками созданы четыре поколения программ-переводчиков. Первое поколение ● 1991 г. - появление пакета PROMT; ● 1992 г. - появился пакет Stylus; ● 1993 г. - был создан пакет Stylus for Windows 2.0. Второе поколение ● В 1994 г. была представлена полноценная версия Stylus for Windows;


В 1995 г. был разработан пакет Stylus Lingvo Office. Третье поколение ● В 1996 г. появляется 32-разрядная версия Stylus под Windows-95 и –NT; ● Переводчики для Internet — WebTranSite и «упрощенная» версия Stylus Lite появляются в 1997 г. Четвертое поколение ● Программа-переводчик четвертого поколения РROМТ-98: -PROMT - среда переводчика; -File Translator - приложение для пакетной обработки большого количества доку ментов; -WebWiew — браузер с синхронным переводом HTML-страниц. ● В основе программ-переводчиков четвертого поколения лежит технология HTML-to-HTML, позволяющая переводить Web- страницы с полным сохранением форматирования и впоследствии двигаться по переведенным ссылкам. ● В 1998 г. появляется новая версия переводчика для Интернета — WebTranSite-98 и версия 1.0 переводчика для карманных компьютеров — Pocket PROMT. ●

Современные СМП ● ● ● ● ● ●

● ● ● ● ● ● ● ●

Название / Name: Lingvo Portable 12.0.0.356 Платформа / OS: Windows 2000/ XP/ 2003/ Vista Язык интерфейса / Language: Eng Rus+ Размер файла / Size, Mb: 101,9 Простенький в использовании "старый добрый" англо-русский и русско-английский словарик в портабельной версии. Неприхотливый и очень удобный. В дополнение - несколько online сервисов по переводу текстов, слов и даже сайтов.

Название / Name: Babylon 7.5.2.10 Portable Rus Платформа / OS: Windows 2000/ XP/ 2003/ Vista Язык интерфейса / Language: Rus+ Размер файла / Size, Mb: 11,5 Сайт / Site мультиязычный словарь Работать со словарем очень просто: после нажатия кнопкой мыши на интересующее слово, появляется окно с его переводом Позволяет воспользоваться огромными базами данных, сосредоточенными в таких глоссариях, как Britannica, Amazon, Accuweather и др


● ● ● ● ●

Название: Portable Англо-русский тренажер 2.3

● ● ● ● ● ●

Название / Name: 8 in 1 English Pronunciation Dictionary Portable

● ● ●

Название: Сократ Персональный

Платформа / OS: Windows 95/98/ME/NT/2000/XP/2003/Vista Язык интерфейса / Language: Rus+ Размер файла / Size, Mb: 2,1 Компьютер-"преподаватель" всегда по-разному (в том числе, на молодежном "сленге") реагирует на действия пользователя. Смешные физиономии помогают расслабиться и представить, что ЭТО - ВЫ... :-) Поиск "маленьких секретиков" в программе позволяет продлить интерес к изучению иностранного языка

Платформа / OS: Windows 2000/ XP/ 2003/ Vista Язык интерфейса / Language: Rus+ Размер файла / Size, Mb:121 Сайт / Site Словарь включает в себя: ● - Перевод на 12 языках. ● - более чем 2000 картинок и графики для улучшения понимания. ● - содержит более чем 7000 слов включая множественное число, существительные и спряжения глаголов, ● - 10 различных способов поиска слов:

Платформа / OS: Windows 95/98/ME/NT/2000/XP/2003/Vista Язык интерфейса / Language: Eng Rus+


● ●

Размер файла / Size, Mb: 3,9 Система автоматизированного перевода с английского языка на русский и наоборот, предназначенная для работы с текстами общей тематики. Низкие системные требования, интуитивно понятные способы использования, удобный интерфейс и гибкие настройки

++++++++++++++++++++++++++++++++++++++++ ●

В результате сканирования получается графическое изображение, состоящее из точек, т.е. растровое изображение. Количество точек определяется как размером изображения, так и разрешением сканера. Чтобы перевести в текст графический образ, получаемый после сканирования документа, используются специальные программные средства, называемые средствами распознавания образов. Из программ, способных распознавать текст на русском языке наиболее известной является ABBYY Fine Reader. FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати. FineReader имеет массы дополнительных функций и удобный интерфейс.

Преобразование документа в электронный вид происходит в три основных этапа. Каждый из этих этапов может выполняться программами как автоматически, так и под контролем пользователя. 1. Сканирование. Запускается сканирующий модуль, настраиваются параметры сканирования (разрешение, размер, тип сканирования) и происходит собственно сканирование. 2. Сегментация и распознавание текста. Прежде чем получить готовый текст, необходимо разбить фрагменты документа на блоки (текст, рисунок, таблица и т.д.), для того, чтобы правильно их распознать (преобразовать в текстовый документ). 3. Проверка орфографии и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл. Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов). Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.


● ●

Если исходный документ имеет типографское качество то задача распознавания решается методом сравнения с растровым шаблоном. При распознавании документов с низким качеством печати используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).

● ●

ABBYY FineReader 7.0 можно назвать лидером в области распознавания текста Совсем недавно компания ABBYY выпустила восьмую версию известной линейки FineReader.

В новую версию FineReader 8.0 добавлен алгоритм для работы с фотографиями, сделанными с помощью цифровой камеры. Многие пользовались фотокамерой в качестве сканера, но результаты оставляли желать лучшего. Сейчас разработчик рекомендует использовать камеру с разрешением не менее 4 мегапикселей, но в реальности даже с помощью "мыльницы" на 3,2 мегапикселя можно сэкономить на сканере. Название / Name: All Office Converter 6.2 Portable Платформа / OS: Windows 2000/ XP/ 2003/ Vista Язык интерфейса / Language: Eng Rus+

● ● ● ● ● ● ● ●

Размер файла / Size, Mb: 9,9 Сайт / Site Простой в использовании профессиональный инструмент для конвертации документов: Word (doc, docх), Excel (xls .xlsx), PowerPoint (ppt, pptc, pptх), PDF, XLS, RTF, TXT, HTM/HTML, Website, JPG, BMP, GIF, TIF, WMF, EMF, TGA, RLE, PNG и другие. Поддерживает пакетное преобразование документов, web-контента и изображений с качественным


● ●

Название / Name: All Office Converter 6.2 Portable При помощи данного конвертера, можно создать PDF-файл из различных форматов и сконвертировать PDF-файл в другие форматы с качественным результатом. Более того, можно осуществлять конвертацию между различными форматами офисных документов, web-контента, изображений. All Office Converter Pro позволяет изменять различные параметры документов и задавать степень сжатия. Русская версия

● Название / Name: Scanitto Pro 2.03.41 Portable Платформа / OS: Windows 2000/ XP/ 2003/ Vista Язык интерфейса / Language: Eng Rus+ Размер файла / Size, Mb: 10,9 Сайт / Site ● Программа предназначена для сканирования документов и изображений, сохранения их в удобном формате. Кроме того, Scanitto 2.03.41 имеет функцию прямой печати на принтере, что позволит использовать принтер и сканер как копир.

10-02 CMП и СРТ  
Read more
Read more
Similar to
Popular now
Just for you