Робота з програмою FineReader (48844)

Посмотреть архив целиком

ЗМІСТ


ВСТУП

РОЗДІЛ І. ПОСТАНОВКА ЗАДАЧ

1.1. ВХІДНА ІНФОРМАЦІЯ

РОЗДІЛ ІІ. ІНСТРУКЦІЯ ПО ЕКСПЛУАТАЦІЇ

2.1. ЗАПУСК ПРОГРАМИ, ВВЕДЕННЯ ПОЧАТКОВИХ ДАНИХ

2.2. РОБОТА З ПРОГРАМОЮ

2.3. ДОДАТКОВА ІНФОРМАЦІЯ

ВИСНОВКИ

СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ


ВСТУП


Стрімкий розвиток комп'ютерної техніки і її різноманітного програмного забезпечення — це одна з характерних прикмет сучасного періоду розвитку суспільства. Технологи, основним компонентом яких є комп'ютер, проникають практично в усі сфери людської діяльності. Те, що ще недавно вважалось фантастикою, тепер, завдяки науково-технічному прогресу, особливо прогресу в області комп'ютерних технологій, стало реальністю.

Комп'ютерні технології застосовують у видавництвах і великих бібліо­теках, у парламентах і міністерствах, у банках і на складах, у системах зв'язку і системах управління транспортом, у податкових інспекціях і у сфері розваг тощо. Тепер практично неможливо уявити сучасний офіс без повсякденного і широкого застосування комп'ютерних технологій. Комп'ютер став неодмінним атрибутом робочого місця працівників багатьох професій. У цих умовах продовжує зростати попит на комп'ютерних спеціалістів, особливо на молодих спеціалістів високої кваліфікації. Великою популярністю користуються спеціалісти з комп'ютерної верстки та макетування, комп'ю­терні художники і дизайнери, спеціалісти з банківських та бухгалтерських комп'ютерних систем, спеціалісти з комп'ютерних мереж та ряд інших.

Досить актуальними на сьогоднішній час стали системи оптичного розпізнавання символів ( OCR ).

Системи оптичного розпізнавання символів (Optical Character Recognition) призначені для автоматичного введення друкованих документів в комп'ютер. Однією із таких систем є FineReader.

FineReader - омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання".

На сьогоднішній день існує багато версій програми FineReader, однак найбільш популярною і досконалою є програма версії FineReader 5.0, тому в даній дипломній роботі ми детальніше зупинимося саме на ній.


РОЗДІЛ І. ПОСТАНОВКА ЗАДАЧ


1.1. Вхідна інформація


Процес введення документу в комп'ютер можна розділити на два етапи:

  1. Сканування. На першому етапі сканер відіграє роль «ока» комп'ютера: «переглядає» зображення і передає його комп'ютеру. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових крапок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.

  2. Розпізнавання. Обробка зображення OCR-системою.

Обробка зображення системою FineReader містить у собі аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, зображень, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки.

Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".

  • Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відношень між ними.

  • Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.

  • Адаптивність - здатність OCR-системи до самонавчання.

Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символ, частину символу або декілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно знайти всі структурні елементи і відношення, що їх пов'язують. У кожному структурному елементі виділяються частини, значимі для людського сприйняття, - відрізки, дуги, кільця і крапки. Виходячи з принципу адаптивності, програма самостійно «налагоджується», використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів друку.

Наслідком роботи у вікні FineReader з'явиться розпізнаний текст, який можна редагувати і записати у найзручнішому форматі.

Нові можливості програми FineReader 5.0.

Робота з зображеннями

  • Новий режим відображення сторінок пакета Піктограми, у якому сторінки пакета представляються своїми сильно зменшеними зображеннями.

Сканування

  • Можливість сканування розвороту книги: обидві сторінки розкритої книги скануються одночасно, але обробляються окремо. Зображення, що містить парні сторінки, записується в дві різні сторінки пакета.

Аналіз макету сторінки

  • У програму додана об'єднана процедура аналізу макета сторінки і розпізнавання. Тепер алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу макету сторінки. Нові алгоритми аналізу використовуються автоматично при запуску розпізнавання на сторінці без блоків, тобто аналіз макета і розпізнавання проводяться за один крок. Старий алгоритм аналізу сторінки, що не використовує розпізнавання, як і раніше доступний (меню Процес>Аналіз макету сторінки).

  • Підтримка розпізнавання "вбудованих" зображень: можливо визначити блок "зображення" усередині текстового або табличного блоку.

Розпізнавання

Існує два варіанти поставки ABBYY FineReader: EU - 121 мова розпізнавання (латиниця та грецькі); Cyrillic Plus - 176 мов розпізнавання (латиниця, грецька та кирилиця). Усі мови розпізнавання поділяються на основні мови, додаткові та

штучні мови. Основна група утворена з мов зі словниковою підтримкою. Для цих мов у програмі FineReader підтримана перевірка розпізнаного тексту (знаходження невпевнено розпізнаних слів і слів з орфографічними помилками).

  • Розпізнавання мов програмування (Basic, Cobol, Fortran, Java, C++, Pascal).

  • Розпізнавання підрядкових символів (наприклад, H2O).

  • Розпізнавання вертикального тексту.

  • Коректна передача кольору тексту.

Збереження і редагування

  • Можливість збереження розпізнаного тексту у форматі HTML з повним збереженням оформлення сторінки.

  • Можливість збереження розпізнаного тексту у форматі PDF із збереженням повного оформлення документа.

  • Збереження кольору тексту при збереженні розпізнаного тексту в RTF, PDF і HTML форматах.

  • Підтримка Unicode кодування при збереженні розпізнаного тексту в RTF, DOC, XLS, HTML, TXT і CSV форматах.

FineReader працює зі сканерами через TWAIN-інтерфейс. Це єдиний міжнародний стандарт, введений у 1992 році для уніфікації взаємодії пристроїв для введення зображень у комп'ютер (наприклад, сканеру) із зовнішніми програмами.

Якість розпізнавання багато в чому залежить від того, наскільки гарне зображення отримано при скануванні. Якість зображення регулюється задаванням основних параметрів сканування: типу зображення, роздільної здатності та яскравості.

Основними параметрами сканування є:

  • Тип зображення - сірий (256 градацій).

Сканування в сірому є оптимальним режимом для системи розпізнавання. У випадку сканування в сірому режимі здійснюється автоматичний підбір яскравості. Чорно-білий тип зображення забезпечує більш високу швидкість сканування, але при цьому губиться частина інформації про літери, що може призвести до погіршення якості розпізнавання на документах середньої і низької якості друку. Якщо необхідно, щоб кольорові елементи (картинки, колір літер і фону), що містяться в документі, були передані в електронний документ зі збереженням кольору, необхідно вибрати кольоровий тип зображення. В інших випадках слід використовувати сірий тип зображення.

  • Роздільна здатність – найчастіше слід використовувати 300 dpi ( точок на дюйм ) для звичайних текстів (розмір шрифту 10 і більш пунктів) і 400-600 dpi для текстів, набраних дрібним шрифтом (9 і менше пунктів).

  • Яскравість - у більшості випадків підходить середнє значення яскравості - 50%. На деяких документах при скануванні у чорно-білому режимі може знадобитися додаткове регулювання параметрів яскравості.


РОЗДІЛ ІІ. ІНСТРУКЦІЯ ПО ЕКСПЛУАТАЦІЇ


2.1. Запуск програми, введення початкових даних


Перш ніж приступити до роботи з програмою FineReader слід встановити її на комп’ютері. Для цього необхідно оптичний диск із дистрибутивом програми вставити у пристрій читання дисків (CDROM). Натиснути кнопку Пуск на Панели Задач і вибрати пункт Настройка/Панель управления. Двічі натиснути на іконку Установка и удаление программ. Вибрати закладку Установка и удаление і натиснути кнопку Установить... Після цього потрібно діяти за вказівками програми встановлення.

Після того, як програма встановлення перевірить систему, слід набрати своє ім'я і вказати, куди потрібно встановити ABBYY FineReader. Програма встановлення відобразить декілька параметрів встановлення. Щоб вибрати один з варіантів встановлення, необхідно натисніть відповідну кнопку ( мал. 1).


Повна - встановлюються усі компоненти дистрибутиву, у тому числі всі мови розпізнавання


Мінімальна (рекомендується) - програма встановлюється у мінімальній конфігурації: Мова інтерфейсу (одна) - обрана під час встановлення; мови розпізнавання - англійська + мова, яку обрано під час встановлення.


Встановлення компонент дистрибутиву на вибір - з запропонованого набору компонентів, що входять у дистрибутив, можна вибрати тільки ті, які потрібні (у тому числі доступні мови розпізнавання).

Мал. 1

Після встановлення програми необхідно її запустити. Щоб запустити програму потрібно вибрати пункт ABBYY FineReader 5.0 Pro (Office) у меню Пуск/Програми/ABBYY FineReader 5.0.

Підчас першого запуску FineReader автоматично створить і відобразить на екрані стандартний пакет, у якому міститься файл з зображенням demo.tif. Робота з документами у програмі FineReader виконується у пакеті. Пакет - це каталог на диску, у якому зберігаються зображення сторінок та робочі файли програми. Кожне нове зображення зберігається як окрема сторінка пакету.

Після запуску FineReader на екрані появиться головне вікно програми ( Мал. 2).


Мал. 2


Вгорі Головного вікна FineReader знаходиться головне меню системи, під ним - панелі інструментів. У програмі є чотири панелі інструментів: Стандартна, Форматування, Зображення та Scan&Read.

Включити або виключити відображення панелей інструментів на екрані можна за допомогою меню Вигляд (пункт Панелі інструментів) або за допомогою контекстного меню. Щоб відкрити контекстне меню, слід клацнути правою кнопкою миші на одній з панелей інструментів. Панелі, що у поточний момент відображаються на екрані, будуть відмічені у меню галочкою.

Увесь простір Головного вікна займають, по мірі того як вони з'являються, робочі вікна системи: Пакет, Зображення, Крупний план та ТекстСтандартний режим відображення у вікні Крупний план - чорно-біле зображення, незалежно від того яке саме зображення (кольорове, сіре чи чорно-біле) було відправлене на сканування. Якщо робота здійснюється з кольоровим зображенням і необхідно, щоб у вікні Крупний план зображення відображалось також у кольоровому режимі, то слід зняти позначку вибору з пункту Чорно-біла палітра у вікні Крупний план, що у групі Вікно Зображення, яка на закладці Вигляд (меню Сервіс>Параметри) ( Мал. 3 ).

Є можливість також змінити розташування вікон на екрані, для цього

в меню Вигляд слід вибрати один з пунктів: Вікно Пакет>...; Вікна Зображення та Текст>... або Вікно Крупний план>...

Комбінації клавіш для роботи з вікнами

  • Для того, щоб переключатись між вікнами, натиснути CTRL+TAB.

  • Для того, щоб активізувати вікно Пакет, натиснути Alt+1.

  • Для того, щоб активізувати вікно Зображення, натиснути Alt+2.

  • Для того, щоб активізувати вікно Текст, натиснути Alt+3.

Як уже було сказано вище, у системі FineReader є чотири Панелі інструментів: Стандартна, Зображення, Оформлення і головна панель програми Scan&Read. Кнопки, що на панелях інструментів - найзручніший спосіб доступу до операцій системи. Ті ж операції можна виконувати з меню програми чи за допомогою гарячих клавіш. Якщо необхідно довідатися про призначення тієї чи іншої кнопки на панелі інструментів, потрібно підвести до кнопки курсор миші. Під кнопкою з'явиться докладне повідомлення про її призначення.





Кнопки на головній панелі програми Scan&Read ( мал. 4 ) пов'язані з базовими операціями системи: Сканування, Розпізнавання, Перевірка і Збереження результатів розпізнавання. Цифри на кнопках вказують, у якому порядку потрібно виконати дії, щоб одержати електронну версію паперового документу. Кожну з цих дій можна провести окремо чи об'єднати в одну, натиснувши на кнопку Scan&Read. Вона дозволяє провести повний цикл обробки тексту автоматично. Кожна з кнопок має кілька режимів роботи. Натиснувши на стрілку праворуч від кнопки, у локальному меню, яке відкрилося, можна вибрати один з них, при цьому "інформація" про це відіб'ється на іконці кнопки. Для того, щоб повторити ту ж операцію для іншого зображення, досить повторно натиснути на кнопку.



Назва кнопки

Режими роботи

Scan&Read

Сканувати і розпізнати - запускає сканування і розпізнавання документа

Сканувати і розпізнати кілька сторінок - сканує і розпізнає декілька сторінок у циклі.

Відкрити і розпізнати - дозволяє відкрити і розпізнати зображення, вибрані в діалоговому вікні Відкрити (Open).

Маг Scan&Read - запускає спеціальний режим сканування і розпізнавання, під час якого система контролює дії користувача і підказує йому, що треба робити, щоб одержати той чи інший результат

1-сканувати

Відкрити зображення - додає зображення в пакет, при цьому копія зображення зберігається в папці пакета
Сканувати зображення - сканує зображення
Сканувати декілька сторінок - сканує зображення у циклі. Щоб зупинити сканування, у меню Файл потрібно вибрати пункт Зупинити сканування
Параметри - відкриває закладку Сканування/Зображення діалогового вікна Параметри, на якій можна задати параметри сканування і попередньої обробки документу

2-розпізнати

Розпізнати - розпізнає відкриту сторінку пакета

Розпізнати всі сторінки - розпізнає всі нерозпізнані сторінки пакета

Параметри - відкриває закладку Розпізнавання діалогового вікна Параметри, на якій можна задати параметри розпізнавання документу

3-перевірити

Перевірити правопис - дозволяє знайти в тексті слова, що містять невпевнено розпізнані символи, і неправильно написані слова

Параметри - відкриває закладку Перевірка діалогового вікна Параметри, на якій можна задати параметри перевірки документу

4-зберегти

Маг збереження результатів - відкриває діалогове вікно Маг збереження результатів, у якому можна вибрати програму для збереження і задати параметри збереження

Записати текст у файл - записує розпізнаний текст у файл на диск

Передати сторінки в - прямо передає розпізнаний текст до обраної програми без збереження його на диск. При передачі розпізнаного тексту з декількох сторінок пакету спочатку потрібно виділити їх у вікні Пакет.

Передати всі сторінки в - передає всі розпізнані сторінки до обраної програми без збереження їх на диск

Параметри - відкриває закладку Оформлення діалогового вікна Параметри, на якій можна задати параметри збереження документу


Случайные файлы

Файл
13256.rtf
129974.rtf
71129-1.rtf
ции.doc
138287.rtf




Чтобы не видеть здесь видео-рекламу достаточно стать зарегистрированным пользователем.
Чтобы не видеть никакую рекламу на сайте, нужно стать VIP-пользователем.
Это можно сделать совершенно бесплатно. Читайте подробности тут.