У сучасному цифровому світі великі дані стали основою для прийняття рішень у різних галузях, таких як медицина, фінанси, транспорт та промисловість. Проте значна частина даних часто є неповною, пошкодженою або має низьку якість через технічні збої, людські помилки або обмеження сенсорних пристроїв. Відсутність або низька якість даних може суттєво впливати на точність моделей аналізу і прогнозування, що ускладнює їх використання в критично важливих задачах.
Нейронні мережі та методи глибокого навчання відкривають нові можливості для автоматизованого відновлення даних, виявлення аномалій та оцінки якості великих даних. Вони дозволяють виявляти приховані закономірності, відновлювати втрачені значення та забезпечувати комплексну оцінку даних з високим рівнем адаптивності [1, 2].
Одна з поширених проблем у роботі з даними – це наявність пропущених значень, що може створити проблеми під час аналізу. Такі пропущені дані трапляються в різних сферах, таких як аналіз експресії генів, контроль дорожнього руху, промислові інформаційні системи, обробка зображень і розробка програмного забезпечення. Якщо цю проблему не врахувати під час аналізу, це може призвести до неправильних висновків і результатів. Тому важливо підвищити якість даних, обробляючи пропущені значення належним чином.
Існують два основні традиційні методи обробки пропущених даних. Перший метод полягає в тому, щоб просто видалити всі записи, де відсутні якісь дані. Другий метод полягає в тому, щоб замінити пропущені значення на якісь припустимі значення. Крім того, існують методи імпутації (заміщення) даних, які використовують машинне навчання. Наприклад, до таких методів належать метод найближчих сусідів (KNN), рекурентні нейронні мережі (RNN), і генеративні змагальні мережі для імпутації даних (GAIN) [3-5].
За останні кілька років глибоке навчання стало широко використовуватися для вирішення різних задач, включаючи заміщення пропущених даних. Використання великих обсягів навчальних даних дозволило значно покращити результати імпутації. Зокрема, генеративні змагальні мережі (GAN) показали великі успіхи у вирішенні цієї задачі. Наприклад, один із методів імпутації на основі GAN вимагав налаштування гіперпараметрів для регулювання функції втрат і швидкості роботи дискримінатора. В іншому підході GAN використовував генератор і дискримінатор окремо для навчання структури і розподілу пропущених даних. Хоча ці методи дають чудові результати, вони часто занадто складні для практичного використання через велику кількість налаштувань [1, 2].
Для отримання достовірних і якісних результатів при використанні інформаційних технологій важливе значення мають не лише методи, способи та засоби обробки даних, але й якість самих вихідних даних. Від таких характеристик, як повнота, точність і змістовність, безпосередньо залежить результативність застосованих технологій. Деякі з цих характеристик можуть мати більшу вагу в конкретному контексті, але разом вони формують основу для оцінки якості результатів, отриманих із цих даних.
Проте, у процесі використання інформаційних технологій часто виникають проблеми, пов’язані з наявністю неповних або надлишкових даних. Такі ситуації потребують оцінки якості початкових даних, оскільки вони безпосередньо впливають на кінцевий результат. Сучасні технології обробки даних зазвичай працюють із великими обсягами різнотипних даних, які, хоча й численні, можуть не відповідати вимогам якості.
Особливо це актуально для глибокого навчання, яке використовує штучні нейронні мережі. Ці моделі вимагають великих і якісних наборів даних для формування потужних абстракцій. Однак навіть у сценаріях із великими даними їх якість може бути недостатньою для ефективного навчання. Невеликі варіації, несподівані особливості чи неповнота початкових даних здатні суттєво порушити баланс у навчальних моделях нейронних мереж, що негативно впливає на їхню точність і стабільність.
Враховуючи ці виклики, необхідність початкової оцінки якості великих даних є критичною. Зокрема, це особливо важливо для інформаційних технологій, побудованих на сучасних методах, таких як інтелектуальні та еволюційні алгоритми. Оцінка якості даних дозволяє забезпечити їх відповідність вимогам і знизити ризик виникнення помилок у процесі аналізу та прогнозування.
Отже, методи відновлення та оцінки якості великих даних на основі нейронних мереж дозволять забезпечити високу точність і адаптивність у роботі з неповними та низькоякісними даними, що є критично важливим для сучасних інформаційних технологій. Використання глибокого навчання, зокрема автоенкодерів та генеративних змагальних мереж, дозволить ефективно заповнювати пропущені дані та оцінювати їх якість, мінімізуючи ризик помилок у моделюванні. Ці підходи відкривають нові можливості для підвищення надійності аналізу даних у різних галузях.
Література
1. Choudhury S.J., Pal N.R. Imputation of missing data with neural networks for classification. Knowledge-Based System. 2019. 182. 104838.
2. Lai, X., Wu, X., Zhang, L., Lu, W., Zhong, C. Imputations of missing values using a tracking-removed autoencoder trained with incomplete data. Neurocomputing. 2019. 366. 54–65.
3. Bertsimas, D., Pawlowski, C., Zhuo, Y.D. From predictive methods to missing data imputation: an optimization approach. J. Mach. Learn. Res. 2017. 18(1). 7133–7171.
4. Cheng, C.-H., Chan, C.-P., Sheu, Y.-J. A novel purity-based k nearest neighbors imputation method and its application in financial distress prediction. Eng. Appl. Artif. Intell. 2019. 81. 283–299.
5. Tang, F., Ishwaran, H. Random forest missing data algorithms. Statistical Analysis and Data Mining: The ASA Data Sci. J. 2017. 10(6). 363–377.
|