Штучний Інтелект (ШІ), Машинне Навчання (МН) та доступністю великих наборів даних обумовили найкращі показники інноваційної динаміки, процесів структурних трансформацій та бізнес-впровадженнь у сфері генерації реалістичних зображень [4-7]. Перспективність та важливість досліджуваних технологій також обумовлена широкими можливостями мультимодальності, шляхом креації нейронними мережами зображень на основі різних типів даних (текстових, аудіо, відео або сенсорних даних) [2, 4].
Сучасна проблематика інноваційних та корисних для широкого кола користувачів нами вбачається у пропозиції конкретних рішень для мобільних пристроїв, оскільки такі переважно призначені для використання на стаціонарних комп'ютерах або серверах. Як наслідок, існує проблема обмеження доступності та практичного використання можливостей ШІ для звичайних користувачів [4]. Таким чином, створення мобільного застосунку для керованого синтезу фотореалістичних зображень з використанням дифузійних моделей є актуальним, зокрема у сфері рекламної діяльності, кіноіндустрії, відеоігор та соціальних медіа.
Варто зазначити, що на сьогодні нейромережі ControlNet та Stable Diffusion визначені нами як провідні або ключові нашої системи. ControlNet, характеризуючись доволі високим ступенем гнучкості та широкими можливостями контролю результату процесу генерації реалістичних зображень, використовує текстові вхідні дані. Stable Diffusion використовується для нівелювання шуму у зображеннях та власне з метою підвищення чіткості й якості зображень.
Наступним етапом процесу креації якісного зображення є процес декодування. Мета такого у генерації читабельного для людського ока зображенні (в піксельному просторі). Отже, нами вбачається можливість удосконалення моделі ШІ на телефононах, дронах, планшетах та інших мобільних пристроях з малими обчислювальними можливостями та переважно занизькими продуктивними можливостями, завдяки оптимізації шарів моделі, перетворень та оптимізації моделі, і збереженні такої в пам'ять.
За результатами практично-пошукової роботи, нами сформована послідовність використання моделей ШІ для керованого синтезу фотореалістичних зображень, із можливим збереженням проміжних результатів в файлові структури даних: центрування, обрізання, сегментації та генерації.
В процесі дослідження також були визначені ключові функції досліджуваної моделі на основі результатів аналізу потреб користувачів та конкурентних переваг, а також проведено ретельний аналіз вимог до функціоналу застосунку та здійснено перевірку на відповідність стандартам безпеки та якості.
На основі сценаріїв використання застосунку та ключових функцій ControlNet та Stable Diffusion запропоновано структуру застосунку із поділом на три основні модулі (модуль з моделями ШІ, модуль для налаштування гіперпараметрів генеративної нейромоделі та перегляду згенерованого зображення та модуль для зберігання налаштувань користувача та згенерованих зображень). Розроблено лаконічний дизайн користувацького інтерфейсу та потрібні елементи для взаємодії користувача з програмою, які включені в допоміжні модулі.
Результати роботи можуть бути поширені та використані спільнотою розробників та дослідників у галузі комп'ютерного зору та машинного навчання для подальшого дослідження використання генеративного ШІ на мобільних пристроях. Розробка мобільного застосунку з використанням генеративних нейромоделей для синтезу фотореалістичних зображень має значимість у галузі комп'ютерного зору. Вона допомагає розширити можливості синтезу зображень та прискорити процес оптимізації якості фотографії та відео. Розроблений мобільний застосунок має значний потенціал для користувачів у різних сферах, включаючи фотографію, рекламу, кіноіндустрію, відеоігри та соціальні медіа. Він дозволяє створювати нові та цікаві зображення з різними ефектами, що покращує якість та творчість медіа-продукції. Pезультати роботи були розміщені у відкритому доступі на веб-сервісі GitHub, що сприяє співпраці, обміну знаннями та використанню результатів роботи спільнотою розробників. Це сприяє прискоренню інновацій та розвитку галузі комп'ютерного зору.
Список літератури:
1. Brownlee J. A Gentle Introduction to Generative Adversarial Networks (GANs). URL: https://machinelearningmastery.com/what-are-generative-adversarial-networks-gans/ (дата звертання 03.05.2024).
2. Hu L. Generative AI and Future. URL: https://pub.towardsai.net/generative-ai-and-future-c3b1695876f2 (дата звертання 08.05.2024).
3. Goodfellow I., Jean P.-A., Mehdi M., Bing X., David W.-F., Sherjil O., Aaron ., Yoshua B. Generative Adversarial Networks // Advances in neural information processing systems, 2014. № 27. P. 67-84.
4. Moroney L. AI and Machine Learning for On-Device Development: A Programmer's Guide // O'Reilly Media, 2021. № 7. P. 1196-1199.
5. Prafulla D., Nichol A. Diffusion Models Beat GANs on Image Synthesis // Advances in neural information processing systems, 2021. № 34. P. 8780-8794.
6. Sohl-Dickstein J., Weiss E., Maheswaranathan N., Ganguli S. Deep Unsupervised Learning using Nonequilibrium Thermodynamics // International conference on machine learning, 2015. № 6. Р. 2256-2265.
______________________
Науковий керівник: Шкільняк Оксана Степанівна, кандидат фізико-математичних наук, доцент, Київський національний університет імені Тараса Шевченка
|