Анотація. Приведений аналіз алгоритмів оптичного розпізнавання символів / тексту (Optical Charater Recognition) OCR з метою надання моливості прийняття оптимального вибору існуючих засобів при практичної реалізації задачі розпізнавання тексту.
Ключові слова: оптичне розпізнавання тексту (OCR), обробка зображень, мова Swift, мобільний додаток.
Основна частина. У сучасну епоху цифрової трансформації мобільні додатки стали невід'ємною частиною повсякденного життя. За даними глобальної платформи даних і бізнес-аналітики Statista [1], станом на 2023 рік кількість завантажень мобільних додатків у світі перевищила 200 мільярдів на рік. Зростання використання смартфонів створює потребу в більш інтелектуальних та зручних інструментах для обробки інформації.
Оптичне розпізнавання тексту є однією з ключових технологій, яка дозволяє перетворювати зображення тексту в машинно-читаний формат. За оцінками дослідницької компанії Grand View Research [2], глобальний ринок OCR до 2025 року досягне обсягу понад 13 мільярдів доларів США. Це свідчить про значний попит на рішення, що використовують OCR, особливо в мобільних додатках.
У сфері мобільної розробки на платформі iOS мова програмування Swift та екосистема інструментів Apple надають розробникам потужні засоби для створення ефективних додатків. Інтеграція OCR у Swift-додатки відкриває можливості для автоматизації бізнес-процесів, покращення користувацького досвіду та впровадження інноваційних сервісів, таких як сканування документів, розпізнавання візитних карток, переклад тексту в реальному часі тощо.
Проте, ефективність різних алгоритмів OCR може значно відрізнятися залежно від умов використання, якості зображень та вимог додатка. Вибір оптимального алгоритму є критичним для успіху проекту. У цій статті приведені дослідження ефективності різних алгоритмів OCR у контексті Swift-додатків, аналізуючи їх продуктивність, точність та придатність для мобільних пристроїв.
Огляд алгоритмів OCR для мови програмування Swift
Оптичне розпізнавання тексту є ключовою технологією для багатьох мобільних додатків, що потребують перетворення зображень тексту в машинно-читаний формат. У контексті розробки на мові Swift існує кілька популярних алгоритмів та бібліотек OCR, кожен з яких має свої особливості, переваги та недоліки. Нижче представлено детальний огляд трьох основних рішень: Tesseract OCR, Vision Framework від Apple та Google ML Kit.
Tesseract OCR — це відкрита бібліотека для оптичного розпізнавання тексту, спочатку розроблена Hewlett-Packard, а пізніше підтримувана Google. Вона є однією з найпопулярніших і найбільш точних відкритих систем OCR [3]. До особливостей бібліотеки можна віднести:
- підтримка багатьох мов: Tesseract підтримує понад 100 мов, включаючи українську, англійську та інші. Це робить її універсальним вибором для міжнародних додатків.
- висока точність: завдяки потужним алгоритмам та можливості тренування на спеціалізованих наборах даних, Tesseract забезпечує високу точність розпізнавання.
- розширюваність: розробники можуть додавати нові мови та шрифти, тренуючи модель на своїх даних.
Бібліотека може бути інтегрована зі Swift - існують кілька обгорток для використання Tesseract у Swift-додатках, наприклад, *Tesseract OCR iOS* (https://github.com/gali8/Tesseract-OCR-iOS). При тому політика відкритого коду - безкоштовне використання та можливість модифікації під власні потреби, а також гнучкість використання - можливість налаштування та тренування під специфічні завдання, є безумовними перевагами Tesseract.
Тем не менш, можна відзничити і деякі недолікі:
- інтеграція може бути складнішою порівняно з іншими рішеннями, оскільки вимагає додаткового налаштування та компіляції бібліотеки під iOS;
- додавання Tesseract може збільшити розмір додатка через вагомі мовні моделі та ресурси;
- низка подуктивність: може споживати більше ресурсів пристрою, що впливає на швидкодію, особливо на старих моделях iPhone;
- потребує більш глибокого технічного розуміння для правильної інтеграції та налаштування.
Vision Framework від Apple
Vision Framework — це фреймворк від Apple [4], представлений у iOS 11, який надає інструменти для аналізу та обробки зображень. Він забезпечує потужні можливості комп'ютерного зору, включаючи OCR, тому зрозумілі наступні особливості:
- Оптимізація для iOS: Працює безпосередньо на пристроях Apple, використовуючи апаратні прискорення та оптимізації.
- Простота використання: Інтуїтивний API, який легко інтегрується в Swift-додатки з мінімальним кодом.
- Безпека та конфіденційність: Усі обчислення виконуються локально, без передачі даних на зовнішні сервери.
- Додаткові функції: Окрім OCR, підтримує розпізнавання облич, баркодів, об'єктів та інших елементів.
Що стосується інтеграції зі Swift, то, завдяки детальної документації та великої кількості прикладів використання, надані Apple, інтеграція вважається легкою - достатньо імпортувати фреймворк та налаштувати запит на розпізнавання тексту. Відповідно, можна перелічити безумовні переваги фреймврку:
- висока продуктивність: швидка обробка зображень з мінімальним впливом на ресурси пристрою;
- стабільність: офіційне рішення від Apple гарантує сумісність та підтримку в майбутніх версіях iOS.
Однак, корпоративна належність продукту створює і деякі недоліки:
- обмежена підтримка мов: може не підтримувати всі мови або мати меншу точність для деяких мов, включаючи українську;
- менша гнучкість: менше можливостей для налаштування та тренування моделей порівняно з відкритими рішеннями.
Google ML Kit
Google ML Kit — це набір засобів для розробки програмного забезпечення (SDK - software development kit) від Google [5], який надає інструменти машинного навчання для мобільних додатків. Він дозволяє розробникам легко додавати можливості штучного інтелекту, включаючи OCR, у свої додатки. До особливостей Google ML Kit відносяться:
- крос-платформність: підтримує як iOS, так і Android, що спрощує розробку крос-платформних додатків;
- локальні та хмарні моделі: дозволяє використовувати локальні моделі для швидкої обробки або хмарні сервіси для підвищення точності;
- підтримка багатьох мов: підтримує розпізнавання тексту на кількох десятках мов, хоча точність може варіюватися;
- додаткові API: окрім OCR, надає інструменти для розпізнавання облич, перекладу, аналізу емоцій та інших функцій.
Інсталяція ML Kit через CocoaPods або Swift Package Manager з детальною документацією від Google дає можливість простої і легкої інтеграції зі Swift, хоча для використання хмарних сервісів необхідно налаштувати проект у Firebase та отримати відповідні ключі.
Найголовніші переваги Google ML Kit полягають у наступному:
- гнучкість - можливість вибору між швидкістю (локальні моделі) та точністю (хмарні моделі);
- широкий функціонал - доступ до різноманітних інструментів машинного навчання в одному SDK.
Тем не менш, є і недолікі:
- залежність від зовнішніх сервісів - використання хмарних моделей вимагає інтернет-з'єднання та може створити затримки;
- питання конфіденційності - передача даних на сервери Google може бути неприйнятною для деяких додатків, особливо з точки зору GDPR;
- можливі витрати - при високому обсязі запитів хмарні сервіси можуть стати платними.
Таблиця порівняння алгоритмів OCR за характеристиками
В таблиці порівняння, представленої вище, зібрані основні характеристики, які можуть вплинути на рішення щодо вибору засобів для рішення задач, пов’язаних з ОСR. Tesseract OCR є потужним інструментом для додатків, де критично важлива висока точність та підтримка багатьох мов. Він підходить для проектів, де розробники готові інвестувати час у налаштування та оптимізацію, а продуктивність пристрою дозволяє використовувати ресурсоємні алгоритми. Vision Framework від Apple є оптимальним вибором для більшості iOS-додатків завдяки простоті інтеграції, високій швидкості та ефективності. Він особливо корисний, якщо додаток орієнтований на швидке розпізнавання тексту на підтримуваних мовах, і де важлива конфіденційність даних. Нарешті, Google ML Kit стане в нагоді розробникам, які створюють крос-платформні додатки або потребують додаткових можливостей машинного навчання. Проте слід враховувати можливі обмеження щодо конфіденційності та залежність від інтернет-з'єднання для хмарних функцій.
Таким чином, можна сформулювати наступні рекомендації:
Оцінка вимог проекту: Перед вибором алгоритму слід чітко визначити пріоритети: точність, швидкість, підтримка мов, вимоги до ресурсів та конфіденційність даних.
Тестування в реальних умовах: Провести практичні тести з використанням цільових зображень та сценаріїв, щоб оцінити фактичну продуктивність та точність кожного рішення.
Розгляд гібридних підходів: У деяких випадках може бути доцільним комбінувати кілька алгоритмів або використовувати різні налаштування для досягнення оптимальних результатів.
Висновки. Детальний аналіз алгоритмів OCR для Swift-додатків показує, що немає універсального рішення, яке підходило б для всіх випадків. Кожен алгоритм має свої сильні та слабкі сторони. Вибір залежить від специфіки проекту та вимог користувачів. Розробникам рекомендується враховувати всі аспекти, включаючи технічні можливості, обмеження та цілі додатка, щоб зробити обґрунтований вибір.
Список літератури
1. Statista. Number of mobile app downloads worldwide from 2016 to 2023.- URL: https://www.statista.com
2. Grand View Research. Optical Character Recognition Market Size & Share Report, 2020-2027. URL: https://www.grandviewresearch.com
3. Dar-Shyang Lee, Ray Smith. Improving Book OCR by Adaptive Language and Image Models. Google Inc. – URL: https://tesseract-ocr.github.io/ docs/Improving_Book_OCR_by_Adaptive_Language_and_Image_Models.pdf
4. Документація Apple Vision Framework. URL: https://developer.apple.com/documentation/vision
5. Google ML Kit, Machine learning for mobile developers . URL: https://developers.google.com/ml-kit
|