Процесс сканирования и распознавания текста, а также полезные рекомендации, как добиться более высокого качества распознавания.

Если раньше сканеры для многих были в диковинку, то сейчас ими никого не удивишь. Компьютерная техника стремительно развивается, а цены на нее падают. Поэтому часто люди покупают компьютеры вместе с различными периферийными устройствами, в число которых входит и сканер. Однако лишь единицы могут применять все возможности сканера на практике. Более того, даже с такой задачей, как распознавание текста, справится далеко не каждый пользователь. Рассмотрим некоторые тонкости этого процесса.

Практически любой сканер, который можно приобрести в магазине, пригоден для распознавания текста. В большинстве случаев они легко подключаются и настраиваются. Поэтому вопросов выбора, подключения и настройки сканеров здесь касаться мы не будем.
Обычно в комплекте со сканером поставляется программное обеспечение, служащее для определенных целей, в том числе и для распознавания текста. Однако на практике эти программы проявляют себя не очень хорошо. Для увеличения эффективности процесса распознавания рекомендуется программа ABBYY FineReader, которая на сегодняшний день является одним из популярнейших продуктов, предназначенных для выполнения этой задачи.

Если оригинал текста имеет превосходное качество и простую структуру, можно пользоваться мастером распознавания текста. В противном случае лучше разбить процесс распознавания на несколько этапов – сканирование, разметка, распознавание и сохранение полученных результатов.

Сканирование может выполняться либо средствами самой программы, либо другими средствами, после применения которых потребуется импортирование изображения в программу. Чтобы изображение, передаваемое с бумаги на компьютер в процессе сканирования, было пригодным для нормального распознавания, важно следовать нескольким правилам.

- Выбрать для сканирования наиболее качественную копию документа, если их несколько.
- Если листы документа каким-то образом скреплены или подшиты, лучше всего расшить их перед сканированием при наличии такой возможности.
- Сканируя книгу, нужно позаботиться о том, чтобы ее листы плотно прилегали к стеклу сканера. В противном случае текст, находящийся на сгибе книги, может быть неровно отсканирован и, соответственно, неправильно распознан.
- Чем ровнее на стекле сканера расположен сканируемый документ, тем лучше. Программы, имеющие возможность корректировать угол поворота изображения, не всегда хорошо справляются с этой задачей.
- Не лишним будет после сканирования использовать функцию «Очистить изображение от мусора», которая избавляет полученное изображение от возможных мелких дефектов.
- Естественно, отсканированное изображение следует развернуть не боком и не вверх ногами, а нормально.

Для того, чтобы качество распознавания было на высоком уровне, полезно будет вручную выделить соответствующие блоки, указать программе где текст, а где рисунок или таблица. В принципе, программа и это может сделать сама, но намного менее эффективно, чем человек. Блокам таблиц нужно уделить чуточку больше внимания. Выделив такой блок, над ним следует совершить щелчок правой кнопкой мыши. В появившемся меню нужно выбрать пункт «Анализ структуры таблицы». Если после этого действия подкорректировать расположение линий сетки вручную, то после распознавания таблица будет весьма качественной.

Итак, когда все действия по сканированию и разметке блоков выполнены, нужно нажать «Распознать все» и немного подождать. Если документ имеет большой объем, ожидание может растянуться на довольно продолжительное время.

Последним шагом будет сохранение результатов работы. Какой формат использовать для сохранения данных – зависит от того, какие действия с текстом планируются в дальнейшем. В том случае, если в будущем текст потребуется редактировать, рекомендуется экспортировать его в MS Word, сохранив только размер и начертание шрифта, а не полное форматирование. Это связано с тем, что после экспорта форматирование может быть таким, что привести документ к нормальному виду будет непросто.

Вы убедились, что сканирование и распознавание текстов – абсолютно не сложный процесс. Если некоторые действия выполнять вручную, не полагаясь на программу, то можно получить документы довольно высокого качества. Но, как и в любом деле, лишь с опытом вы доведете этот процесс до автоматизма. А опыт обязательно придет со временем.

 

Добавить комментарий или отзыв


Защитный код
Обновить