Аналіз часових рядів стає все більш надбано з в різних галузях, таких як економіка, наука про дані, машинне навчання, та інший [1]. Виявлення аномалій з'являється як ключовий компонент в цьому контексті, що допомагає ідентифікувати нестандартні та потенційно значимі відхилення [2].
Традиційні одновимірні моделі виявлення аномалій часових рядів включають алгоритми, які розглядають кожний параметр незалежно. Вони можуть бути корисними в ситуаціях, коли параметри не пов'язані між собою, але в багатьох випадках даними є взаємозалежні і мають слабо виражену структуру [3], тому багатовимірна модель виявлення аномалій стає більш вдатною. Модель розглядає весь набір параметрів разом, аналізуючи взаємозв'язки між ними для кращого виявлення аномалій. Оскільки модель вирішує багатовимірну проблематику, це допомагає усунути шум і виділити справжні відхилення [3].
Для виявлення аномалій в багатовимірних даних можна використати різні техніки. Серед них співвідношення вимірів, кластеризація і використання математичних моделей [4].
-Інструменти на основі співвідношення вимірів зосереджуються на пошуку неочікуваних відхилень між двома або більше вимірами.
-Кластерний аналіз робить сегменти даних і виділяє ті, що виходять за межі класичного визначення кластера, тим самим виявляючи аномалії.
-Математичні моделі можуть використовувати різні статистичні або машинні методи для створення прогнозовані моделі даних, де аномалії визначаються як значні відхилення від основної моделі.
Методи машинного навчання зазвичай розділяються на кілька категорій: кероване навчання, некероване навчання, навчання з підкріпленням тощо [4]. Вони розроблені таким чином, щоб врахувати різні сценарії виявлення аномалій. Метод головних компонент (PCA) - це техніка зменшення розмірності, яка використовується для виокремлення найбільш важливих характеристик (або "компонент") з набору даних.
-Кластерний аналіз використовується для виявлення аномалій, групуючи подібні об'єкти або точки даних разом.
-Авторегресійний інтегрований ковзний середній (ARIMA) - це прогнозний алгоритм, що використовується для моделювання і прогнозування часових рядів.
-Вивадкові ліси - це алгоритм машинного навчання, що використовується для класифікації або регресії.
Реалізація моделі - це процес складання, тренування, тестування та впровадження моделі машинного навчання. Оскільки вихідні дані можуть бути неповними або містити помилки, перший крок - це попередня обробка даних. Далі вибирається відповідний алгоритм на основі особливостей даних та завдань. Після створення моделі проводяться тести, щоб переконатися в її ефективності та точності.
Методи машинного навчання, включаючи PCA, кластерний аналіз, ARIMA, довільний ліс, та інші, використовуються для реалізації таких моделей, дозволяючи спростити і автоматизувати процес виявлення аномалій. Ці технології мають потенціал згорнути традиційні підходи до виявлення аномалій, що базуються на граничні значеннях і графічному аналізі, і можуть привести до значних поліпшень у точності прогнозування аномалій. Однак, важливо пам'ятати, що реалізація багатовимірної моделі виявлення аномалій вимагає належного розуміння даних та машинного навчання. Даний процес включає підготовку даних, вибір методу, навчання моделі та її перевірку. Регулярне оновлення та покращення моделі має велике значення для забезпечення точності виявлення аномалій
Список літератури:
1.Zhang, Y., Shang, P., Gao, B. (2018), "Time Series Analysis and Forecasting by Example", Wiley, ISBN: 978-0-470-76880-2.
2.Gupta, M., Gao, J., Aggarwal, C.C., Han, J. (2013), "Outlier Detection for Temporal Data: A Survey", IEEE Transactions on Knowledge and Data Engineering, Vol. 26, No. 9, рр. 2250-2267, DOI: 10.1109/TKDE.2012.195.
3.Hyndman, R. (2016), "Anomaly detection in R", Journal of Business & Economic Statistics, Vol. 33, No. 3, рр. 1-22, DOI: 10.1080/07350015.2015.1102730.Chandola, V., Banerjee, A., Kumar, V. (2009), "Anomaly detection: A survey", ACM computing surveys (CSUR), Vol. 41, No. 3, рр. 1-58, DOI: 10.1145/1541880.1541882.
4.Ilin, A., Raiko, T. (2010), "Practical Approaches to Principal Component Analysis in the Presence of Missing Values", Journal of Machine Learning Research, Vol. 11, рр. 1957-2000
___________________________________________________________________
Науковий керівник: Монастирський Любомир Степанович, доктор фізико-математичних наук, професор, Львівський національний університет імені Івана Франка
|