У багатьох реальних ситуаціях спеціалісти зустрічаються з проблемами, які є занадто складними для вирішення традиційними алгоритмами, створеними вручну. Крім того, такі проблеми можуть змінюватися з часом, що змушує ці алгоритми постійно адаптуватися. Тому алгоритми машинного навчання стають дедалі популярнішими в різних сферах. Одним із таких алгоритмів є глибоке навчання [1, 2], яке набуло значення завдяки своєму успіху в задачах розпізнавання образів і шаблонів. Методи глибокого навчання можна вважати продовженням класичних штучних нейронних мереж, що використовують сучасні недорогі обчислювальні ресурси та нові підходи до паралельних і розподілених обчислень.
Особливості глибоких нейронних мереж [3] роблять їх потужним інструментом для вирішення складних завдань різної природи. Вони особливо підходять для проблем, де зв’язок між вхідними й вихідними даними дуже складний і нелінійний. Хоча існують інші методи та алгоритми, призначені для вирішення задач з великою кількістю параметрів, не всі з них ефективні для задач, пов’язаних із розпізнаванням образів – типу завдань, які люди зазвичай виконують інтуїтивно [1].
Щоб досягти високої точності, яку пропонують глибокі нейронні мережі, слід розуміти, що вони є складними моделями навчання. Вони складаються з багатьох шарів і нейронів, які можуть мати різні типи та цілі. На архітектуру також впливають інші параметри, наприклад, функції активації чи оптимізатори. Розробники зазвичай налаштовують ці параметри вручну методом проб і помилок. Існують різні підходи для прискорення й поліпшення цього етапу навчання, зокрема методи еволюційних обчислень, які допомагають визначати оптимальні параметри. Однак нові вимоги й підвищена складність глибоких нейронних мереж потребують нових спеціалізованих методів.
У фінансовій сфері прогнозування показників ринку є однією з найбільш актуальних і складних задач, особливо у зв’язку з великою кількістю змінних, які впливають на динаміку цін, а також значною волатильністю ринку. Сучасні методи прогнозування, такі як лінійна регресія, ARIMA та традиційні методи статистичного аналізу, демонструють обмежену ефективність для обробки складних фінансових даних через їхню нездатність виявляти глибинні патерни в часових рядах і враховувати нелінійні зв’язки між даними. До того ж, ці методи часто не здатні забезпечити необхідну точність і надійність у прогнозуванні в умовах нестабільних ринків.
Останнім часом для вирішення задач прогнозування все частіше використовуються методи машинного навчання, зокрема нейронні мережі, які можуть адаптуватися до складних і нелінійних закономірностей. Однак, навіть серед цих підходів існують певні недоліки. Наприклад, рекурентні нейронні мережі (RNN) і моделі на основі LSTM хоча й добре працюють з послідовними даними, можуть бути складними в навчанні, потребують великих обчислювальних ресурсів, а також можуть мати обмежену ефективність на великих часових інтервалах. Крім того, ці моделі іноді схильні до перенавчання, особливо у випадках із високою волатильністю фінансових даних.
Згорткові нейронні мережі, хоча зазвичай використовуються для обробки зображень, показали хороші результати й у задачах прогнозування часових рядів, оскільки вони здатні виявляти локальні патерни в послідовностях даних. Враховуючи їхню здатність до автоматичного виділення ознак, CNN можуть бути ефективними у виділенні важливих закономірностей в фінансових даних, що дозволяє підвищити точність прогнозування.
У зв’язку з цим постає задача розробити ефективну модель для прогнозування фінансових показників на основі CNN, яка могла б враховувати коротко- та довгострокові залежності у часових рядах, мінімізувати ризик перенавчання та забезпечувати високу точність і надійність прогнозування.
Задача класифікації тексту є одним із найбільш важливих і складних завдань у галузі обробки природної мови. З розвитком цифрових технологій та інтернету обсяги текстових даних зростають експоненційно, що створює значні виклики для автоматизації їх обробки та аналізу. Основною метою текстової класифікації є автоматичне сортування текстів за визначеними категоріями, такими як настрої, тематика, рівень важливості тощо. Це завдання є критично важливим для багатьох прикладних задач, зокрема в аналізі соціальних мереж, пошуку схожих документів, інформаційному моніторингу, а також виявленні фейкових новин та спаму.
Успіх класифікації тексту великою мірою залежить від можливості моделі коректно розпізнавати семантичні зв’язки між словами та розуміти контекст тексту. Традиційні методи, такі як методи на основі ключових слів або статистичні підходи, мають обмежену здатність враховувати складну структуру природної мови. З іншого боку, глибоке навчання, а саме нейронні мережі [3], показали високі результати завдяки здатності до виявлення прихованих патернів у текстових даних. Однак розробка оптимальних архітектур нейронних мереж залишається складним завданням, оскільки ефективність цих моделей залежить від численних параметрів і архітектурних рішень, що потребують налаштування.
Щоб полегшити створення ефективних нейронних мереж для задач класифікації тексту, актуальним є дослідження методів автоматизації проєктування архітектур. Одним із таких методів є нейроеволюція, яка базується на еволюційних алгоритмах для автоматичного налаштування нейронних мереж.
Література
1. Goodfellow I., Bengio Y., Courville A. Deep Learning, MIT Press, 2016.
2. LeCun Y., Bengio Y., Hinton G. Deep learning, Nature, 2015. Vol. 521, No. 7553. Pp. 436–444.
3. Acharya U.R., Oh S.L., Hagiwara Y., et al. A deep convolutional neural network model to classify heartbeats. Computers in Biology and Medicine. 2017. Vol. 89. Pp. 389–396.
|