:: ECONOMY :: АВТОМАТИЗОВАНЕ СТРУКТУРУВАННЯ РУКОПИСНИХ ДОКУМЕНТІВ З ВИКОРИСТАННЯМ СЕГМЕНТАЦІЇ ЗОБРАЖЕНЬ :: ECONOMY :: АВТОМАТИЗОВАНЕ СТРУКТУРУВАННЯ РУКОПИСНИХ ДОКУМЕНТІВ З ВИКОРИСТАННЯМ СЕГМЕНТАЦІЇ ЗОБРАЖЕНЬ
:: ECONOMY :: АВТОМАТИЗОВАНЕ СТРУКТУРУВАННЯ РУКОПИСНИХ ДОКУМЕНТІВ З ВИКОРИСТАННЯМ СЕГМЕНТАЦІЇ ЗОБРАЖЕНЬ
 
UA  RU  EN
         

Світ наукових досліджень. Випуск 37

Термін подання матеріалів

23 січня 2025

До початку конференції залишилось днів 2



  Головна
Нові вимоги до публікацій результатів кандидатських та докторських дисертацій
Редакційна колегія. ГО «Наукова спільнота»
Договір про співробітництво з Wyzsza Szkola Zarzadzania i Administracji w Opolu
Календар конференцій
Архів
  Наукові конференції
 
 Лінки
 Форум
Наукові конференції
Наукова спільнота - інтернет конференції
Світ наукових досліджень www.economy-confer.com.ua

 Голосування 
З яких джерел Ви дізнались про нашу конференцію:

соціальні мережі;
інформування електронною поштою;
пошукові інтернет-системи (Google, Yahoo, Meta, Yandex);
інтернет-каталоги конференцій (science-community.org, konferencii.ru, vsenauki.ru, інші);
наукові підрозділи ВУЗів;
порекомендували знайомі.
з СМС повідомлення на мобільний телефон.


Результати голосувань Докладніше

 Наша кнопка
www.economy-confer.com.ua - Економічні наукові інтернет-конференції

 Лічильники
Українська рейтингова система

АВТОМАТИЗОВАНЕ СТРУКТУРУВАННЯ РУКОПИСНИХ ДОКУМЕНТІВ З ВИКОРИСТАННЯМ СЕГМЕНТАЦІЇ ЗОБРАЖЕНЬ

 
08.11.2021 17:03
Автор: Пелех В.В., магістрант, Національний університет «Львівська політехніка», м. Львів, Кафедра програмного забезпечення
[Інформаційні системи і технології]

Постановка задачі. Останнім часом бібліотеки регулярно оцифровують і викладають в Інтернеті великі бази своїх архівів – книги, зображення, історичні рукописні документи, а також відео та звукозаписи.

Пошук та отримання необхідної інформації відбувається набагато швидше і простіше з використанням систем навігації по цих архівах. Для структурування рукописних документів необхідно виділити області, які містять фон, рукописний текст, друковані вставки та встановити між ними зв'язки.

Процес перетворення просканованих документів (книга, журнал, газета і т. д.), в текстовий вигляд проходить через багато етапів (дискретизація, зниження шумів, сегментація, отримання рядків, розпізнавання і т. д.) [3].

Сегментація зображення – один з важливих етапів в системі оптичного розпізнавання тексту. На цьому етапі відбувається пошук на зображенні областей, в яких міститься текст і графічна інформація. Процес сегментації складається з геометричного і логічного аналізу просканованого зображення. Геометричний аналіз виконує пошук максимально подібних областей і класифікує їх за вмістом (текст, ілюстрація, таблиця і т. д.). Логічний аналіз визначає тип кожного текстового блоку, наприклад, заголовок, нумерація сторінки, підпис до рисунка, замітка, основний текст, а також визначає зв'язки між цими блоками.

Для розпізнавання документів необхідно спочатку виконати сегментацію зображення. Часто буває так, що якість вхідного зображення є дуже низькою, наприклад, при аналізі архівних документів. Таке походження дефектів спричинене низькою якістю паперу, віком документу та низьким розширенням при скануванні в зображення.

Аналіз останніх досліджень і публікацій. В даний момент більшість досліджень в області розпізнавання тексту орієнтується на пошук хороших алгоритмів для розпізнавання символів різних мов. Процес сегментації мало досліджується і описані в літературі методи сегментації є недостатньо докладними або мають недоліки при застосуванні.

Формулювання цілей. Мета даної роботи – вирішити одну із задач, що зустрічаються при підготовці зображення до розпізнавання, а саме – автоматична сегментація зображень рукописних документів.

Виклад основного матеріалу дослідження. В літературі є багато методів для вирішення завдання сегментації зображень. У більшій частині статей наведено алгоритми для друкованих матеріалів, які мають горизонтальну орієнтацію сторінки. Методів для роботи з рукописними документами не було знайдено. Наведемо основні алгоритми для роботи з друкованими матеріалами.

До першої категорії можна віднести алгоритми поділу сторінки на подібні області однакового розміру. Спочатку з цих областей виділяють певні ознаки та виконують кластеризацію за допомогою обраного алгоритму. Наприклад, просканований документ ділиться на однорідні прямокутні блоки однакового розміру і для кожного з них обчислюється дискретне перетворення Фур'є, далі ці блоки кластеризують за допомогою методу k-середніх [1].

До другої категорії можна віднести алгоритми аналізу границь бінаризованих областей. Основною вимогою до зображень в цих методах є розташування тексту під однаковим кутом [3]. Спочатку визначають орієнтацію тексту за допомогою проекції інтенсивності зображення. На наступному кроці зображення розмивається і виконують поділ на подібні блоки. Далі виконується обхід в глибину і евристичне об’єднання цих блоків по певних класах.

Більша частина наявних алгоритмів сегментації працює з друкованими матеріалами, а не з рукописним текстом, і в результаті отримують тільки дві бінарних маски, які виділяють на зображенні області з текстом та ілюстраціями. Ці властивості вхідних даних ускладнюють завдання через різноманітність класів сегментів та різних шрифтів авторів.

Методи сегментації та аналізу сторінки поділяються на 3 основні категорії – низхідні, висхідні і комбіновані [3].

Низхідні методи спочатку виконують пошук по класах вмісту, наприклад, області з текстом і графікою, далі колонки розбиваються на абзаци, абзаци на рядки і т. д. Процес продовжується до тих пір, поки не досягається найнижчий рівень – символи. При використанні цього підходу необхідна точна інформація про макет сторінки. До цієї категорії методів відносяться: нерівномірне згладжування, профільна проекція, перетворення Фур'є і т. д.

Висхідні методи починають роботу з пошуку мінімального елемента (наприклад, піксель). Потім пікселі комбінують і з них формують символи, слова, фрази, параграфи та колонки. На перший погляд, це більш гнучкий підхід, але на практиці його важко застосувати через накопичення помилок на кожному етапі обробки. До цієї категорії належать такі методи, як аналіз зв'язних компонентів, об’єднання подібних областей та нейронні мережі.

Метод нерівномірного згладжування [2] є популярним і його часто використовують разом з іншими методами. В основному, це проста обробка зображень, яка виконується наступним чином: зображення сканується горизонтально або вертикально, і колір невеликих фонових областей замінюється в колір тексту. Результатом роботи є ефект розмиття, за допомогою якого об'єднуються близькі символи та елементи зображення. Це використовується для інших методів, таких як профільна проекція, об’єднання подібних областей, нейронні мережі і т. д. Головний недолік методу – визначення розміру області, колір якої необхідно замінити. Якщо цей розмір занадто маленький, розмиття може бути недостатнім, щоб отримати очікуваний результат. На практиці цей розмір визначають емпірично або через наближену оцінку розмірів відстані між текстовими блоками, рядками або розміром шрифту друкованих символів. Обчислення цих параметрів також є недоліком інших методів сегментації.

Також для сегментації існує алгоритм «X-Y дерево» [2]. В ньому сегментація зображення складається з багатьох кроків і на виході отримують побудоване дерево вкладених прямокутних областей. На першому етапі документ сегментується на блоки за допомогою горизонтального і вертикального поділу. Цей процес повторюється для кожного блоку, поки в блоках не буде міститися по одному символу. Особливість цього методу полягає в тому, що отримане дерево блоків відповідає логічній структурі документу. До основного недоліку методу належить те, що текстові блоки повинні мати прямокутну форму і їх можна поділити вертикальними і горизонтальними лініями. 

Запропоновано використати наступні модифікації для сегментації рукописних зображень:

1. На першому етапі виконати алгоритм нерівномірного згладжування і до результату роботи застосувати алгоритм генерації суперпікселів [5].

2. На другому етапі виконати алгоритм «X-Y дерево» і для усунення недоліку поділу на прямокутні блоки замінити цей крок згенерованими на попередньому етапі суперпікселями. Це дозволить точніше визначити границі областей із вмістом.

3. Для визначення типів блоків використати алгоритм багатокритеріального аналізу рішень [4] і у вигляді вхідної інформації подати наступний список ознак, на основі яких буде виконуватися семантична сегментація зображення:

- основні кольори чорнил, присутні на зображенні, отримані за допомогою квантування зображення;

- кількість присутніх пікселів в кожній області, яка буде отримана за допомогою фільтру Кенні [5];

- позиція суперпікселів відносно країв зображення;

- коефіцієнт подібності суперпікселів з сусідами. 




Література:

1. Gupta N. Image Segmentation for Text Extraction / N. Gupta, V. Banga. // International Conference on Electrical, Electronics and Civil Engineering (ICEECE'2012). – 2012. – №2. – С. 182–185.

2. Sasirekha D. Enhanced Techniques for PDF Image Segmentation and Text Extraction / D. Saasicheha, E. Chandra. // (IJCSIS) International Journal of Computer Science and Information Security. – 2012. – №9.

3. Shapiro L. Computer Vision / L. Shapiro, G. Stockman., 2001. – 617 с.

4. Slowinski R. Rough set-based decision support / R. Slowinski, S. Greco, M. Matarazzo. – Boston: Springer, 2005. – 618 с.

5. TurboPixels: Fast Superpixels Using Geometric Flows / [A. Levinshtein, A. Stere, K. Kutulakos та ін.]. // IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE. – 2009. – №12. – С. 2290–2297.



Creative Commons Attribution Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

допомогаЗнайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter


 Інші наукові праці даної секції
ВЕБ-ПЛАГІН ІМПОРТУ CSV/XML - ФАЙЛІВ
08.11.2021 16:54
СИСТЕМА ЗАХИСТУ ПЕРСОНАЛЬНИХ МЕДИЧНИХ ДАНИХ ЗА ДОПОМОГОЮ ТЕХНОЛОГІЇ БЛОКЧЕЙН
08.11.2021 15:52




© 2010-2025 Всі права застережені При використанні матеріалів сайту посилання на www.economy-confer.com.ua обов’язкове!
Час: 0.240 сек. / Mysql: 1630 (0.186 сек.)