:: ECONOMY :: ДОСЛІДЖЕННЯ ОСОБЛИВОСТЕЙ ЗБОРУ ТА АГРЕГУВАННЯ ПОТОКОВИХ ДАНИХ НОВИН У СОЦІАЛЬНИХ МЕРЕЖАХ ПРИ ВИРІШЕННІ ЗАВДАНЬ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ

:: ECONOMY :: ДОСЛІДЖЕННЯ ОСОБЛИВОСТЕЙ ЗБОРУ ТА АГРЕГУВАННЯ ПОТОКОВИХ ДАНИХ НОВИН У СОЦІАЛЬНИХ МЕРЕЖАХ ПРИ ВИРІШЕННІ ЗАВДАНЬ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ

UA PL EN

Світ наукових досліджень. Випуск 47

Термін подання матеріалів

16 грудня 2025

До початку конференції залишилось днів 0

Нові вимоги до публікацій результатів кандидатських та докторських дисертацій

Редакційна колегія. ГО «Наукова спільнота»

Договір про співробітництво з Wyzsza Szkola Zarzadzania i Administracji w Opolu

Календар конференцій

Наукові конференції

Конференції 2025

Конференції 2024

Світ наукових досліджень. Випуск 26 (24-25.01.2024)

Світ наукових досліджень. Випуск 27 (22-23.02.2024)

Світ наукових досліджень. Випуск 28 (21-22.03.2024)

Світ наукових досліджень. Випуск 29 (23-24.04.2024)

1. Економічні науки;

2. Інформаційні системи і технології;

3. Педагогічні науки;

4. Психологічні науки;

5. Юридичні науки;

6. Історичні науки;

7. Філософські науки;

8. Культурологія;

9. Філологічні науки;

10. Мистецтвознавство;

11. Географічні науки;

12. Національна безпека;

13. Соціологічні науки;

14. Політичні науки;

15. Фізичне виховання та спорт;

16. Державне управління;

17. Соціальні комунікації;

18. Медичні науки;

19. Фармацевтичні науки;

20. Ветеринарні науки;

21. Сільськогосподарські науки;

22. Хімічні науки;

23. Біологічні науки;

24. Геологічні науки;

25. Фізико-математичні науки;

26. Технічні науки;

27. Архітектура;

28. Військова справа

Світ наукових досліджень. Випуск 30 (24-25.05.2024)

Світ наукових досліджень. Випуск 31 (20-21.06.2024)

Світ наукових досліджень. Випуск 32 (16-17.07.2024)

Світ наукових досліджень. Випуск 33 (19-20.09.2024)

Світ наукових досліджень. Випуск 34 (22-23.10.2024)

Світ наукових досліджень. Випуск 35 (20-21.11.2024)

Світ наукових досліджень. Випуск 36 (17-18.12.2024)

Конференції 2023

Конференції 2022

Конференції 2021

Конференції 2020

Конференції 2019

Конференції 2018

Конференції 2017

Конференції 2016

Конференції 2015

Конференції 2014

Конференції 2013

Конференції 2012

Конференції 2011

Конференції 2010

Наукові конференції

Наукова спільнота - інтернет конференції

Світ наукових досліджень www.economy-confer.com.ua

Голосування

Наша кнопка

Лічильники

ДОСЛІДЖЕННЯ ОСОБЛИВОСТЕЙ ЗБОРУ ТА АГРЕГУВАННЯ ПОТОКОВИХ ДАНИХ НОВИН У СОЦІАЛЬНИХ МЕРЕЖАХ ПРИ ВИРІШЕННІ ЗАВДАНЬ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ

22.04.2024 15:33

Автор: Блажкевич Віталій Юрійович, студент, ПЗВО “ІТ СТЕП Університет”; Кальченко Антоніна Сергіївна, викладачка, ПЗВО “ІТ СТЕП Університет”

[2. Інформаційні системи і технології;]

У сучасному світі користувачі стикаються з величезним потоком інформації різної якості та правдивості з великої кількості джерел, автори яких мають різні погляди, цілі та ступень упередженості. Такі особливості інформаційних повідомлень ускладнюють для споживача фільтрацію та критичну оцінку потоку новин [1, с. 443-444].

Одним з ключових чинників збільшення потоку інформації можна вважати перехід від традиційних медіа до інтернету та соціальних мереж, зокрема Телеграм-каналів. Така трансформація медійного поля, що розширила доступ до новин, може бути охарактеризована зниженням бар’єрів для створення контенту, збільшення потоку інформації, анонімністю частини джерел, що ускладнює оцінку правдивості інформації.

Охарактеризоване медійне поле стає ґрунтом для поширення дезінформації та маніпулювання суспільною думкою, загострюючи необхідність відсіювання правдивої та корисної інформації з величезних потоків даних. Війна росії проти України загострила потребу в аналізі та фільтрації інформації, що призвело до появи терміну «інформаційна гігієна» та стратегій роботи з інформацією на основі критичного мислення та аналітичних здібностей.

Для опрацювання великої кількості повідомлень з численних джерел використовуються системи моніторингу ЗМІ [2, с. 121-122], які автоматично відстежують та аналізують контент з різних джерел, включаючи газети, онлайн-видання, телебачення, радіо та соціальні мережі об’єднати ці дублікати. Цільовою аудиторією цих систем є бізнес-клієнти, а аналіз сфокусований на трендах, брендах та конкурентах. Щодо індивідуального споживача новин, в якості найбільш широковживаної автоматизації є розширення стрічки новин Google, що пропонує погляд з різних сторін, підшукуючи декілька джерел, що описують одну й ту саму подію. Для Телеграм-каналів, що для багатьох українців набули панівного місця як джерела новин, не існує жодного рішення, яке б дозволяло компонувати, фільтрувати та аналізувати інформаційні повідомлення.

В роботі запропоновані підходи до створення системи моніторингу Телеграм-каналів новин, яка б була доступна індивідуальному користувачеві та відповідала на сучасні виклики. Використовуючи інструменти обробки природної мови та великі мовні моделі, спроєктований та реалізований багатопотоковий застосунок дозволяє зменшити обсяги інформації шляхом скорочення повідомлень без втрати змісту [3, с. 40-46]; виявляти фейкові новини та новини, що створені за єдиним шаблоном; формувати добірки новин по заданих іменованих сутностях, включаючи особистості та географічні локації; визначати тональність групи повідомлень, що дозволяє оцінити їхнє емоційне забарвлення.

Великі обсяги збираної інформації створюють суворі вимоги до продуктивності застосунку, задовільнення яких досягається внаслідок детального опрацювання асинхронних алгоритмів, розподілом задача та балансування навантаження на окремі екземпляри процесів в додатку, використанням продуктивних рішень для роботи з інформацією. Для зберігання, первинної обробки та повнотекстового пошуку було обрано пошукову систему Elasticsearch [4, с. 3-6], завдяки її швидкодії, масштабованості та варіантам інтеграції.

Інструментом розв’язання поставлених в роботі задач аналізу текстів є великі мовні моделі (LLM), що мають суттєво більші можливості у порівнянні з іншими бібліотеками та моделями обробки природної мови. Першу з моделей, SlavicBERT [5, с. 1-3] (адаптація BERT для слов’янських мов), використано для розпізнавання іменованих сутностей та аналізу емоційного забарвлення, які виконуються з високою якістю завдяки двонапрямній структурі. Друга з моделей, адаптована для української мови GPT-3 [5, с. 1-3], використовується для генерації коротких резюме текстів з виділенням найголовнішого. Вибір пояснюється саме кращими генеративними можливостями моделі. Для виконання допоміжних задач в процесі аналізу використовується Stanford NLP [6, с. 1-4], яка первісно підтримує українську мову та суттєво перевершує перші дві моделі у швидкодії при виконанні простих задач аналізу тексту.

В результаті роботи розроблено концепцію, спроєктовано та створено інструмент, здатний в реальному часі збирати велику кількість новинних повідомлень з численних джерел та аналізувати їх, скорочуючи без втрати змісту; виявляючи фейкові та створені за єдиними шаблонами новини; формотворчі добірки за заданими іменованими сутностями, включаючи відомих персон та географічні локації, що своєю чергою дозволяє поглянути на подію з різних боків; визначаючи емоціональне забарвлення текстів новин; порівнюючи виявлені тренди. Створений інструмент дозволяє індивідуальному користувачеві автоматично консолідувати, фільтрувати маркувати інформацію, що полегшує її осмислення та критичну оцінку. Критичний аналіз, своєю чергою, робить користувача більш стійким до впливу маніпуляції та дезінформації, допомагає підтримувати «інформаційну» гігієну.

Сучасний інформаційний потік ускладнює для користувачів фільтрацію та критичну оцінку новин. Цифрова трансформація медіа збільшує доступність інформації та ускладнює її верифікацію. Війна в Україні загострила важливість критичного ставлення до інформації для відсіювання дезінформації та уникання маніпуляцій. Застосування передових технологій забезпечення продуктивності обробки інформації та аналізу природньої мови забезпечує високу продуктивність, точність аналізу, можливості масштабування застосунку. Запропоновані в роботі нові підходи у моніторингу Телеграм-каналів новин та аналізу отримуваної інформації допоможуть користувачам адаптуватись до сучасних викликів інформаційного простору.

Список літератури:

1. Fake news on social media: the impact on society / F. Olan et al. Information systems frontiers. 2022. URL: https://doi.org/10.1007/s10796-022-10242-z (date of access: 30.03.2024).

2. Information security and information hygiene on internet media / V. Varynskyi et al. Nexo revista científica. 2021. Vol. 34, no. 01. P. 120–128.

URL: https://doi.org/10.5377/nexo.v34i01.11291 (date of access: 29.03.2024).

3. Benchmarking large language models for news summarization / T. Zhang et al. Transactions of the association for computational linguistics. 2024. Vol. 12.

P. 39–57. URL: https://doi.org/10.1162/tacl_a_00632 (date of access: 29.02.2024).

4. Bhatnagar D., SubaLakshmi R. J., C V. Twitter sentiment analysis using elasticsearch, LOGSTASH and KIBANA. 2020 international conference on emerging trends in information technology and engineering (ic-etite), Vellore, India, 24–25 February 2020. 2020. URL: https://doi.org/10.1109/ic-etite47903.2020.351 (date of access: 15.03.2024).

5. A survey on large language models: applications, challenges, limitations, and practical usage / M. U. Hadi et al. Authorea.

URL: https://www.techrxiv.org/doi/full/10.36227/techrxiv.23589741.v1 (date of access: 23.03.2024).

6. Phand S. A., Phand J. A. Twitter sentiment classification using Stanford NLP. 2017 1st international conference on intelligent systems and information management (ICISIM), Aurangabad, 5–6 October 2017. 2017.

URL: https://doi.org/10.1109/icisim.2017.8122138 (date of access: 30.01.2024).

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License

Знайшли помилку? Виділіть помилковий текст мишкою і натисніть Ctrl + Enter

Інші наукові праці даної секції
	METHODS AND MEANS FOR DETECTION AND CLASSIFICATION OF CAMOUFLAGED OBJECTS BASED ON DEEP NEURAL NETWORKS 29.03.2024 23:27
	ІНФОРМАЦІЙНО-ТЕХНОЛОГІЧНІ ПРОЕКТИ «РОЗУМНИХ» СИСТЕМ ЦЕНТРАЛІЗОВАНОГО ТЕПЛОПОСТАЧАННЯ 24.04.2024 23:24
	ОБҐРУНТУВАННЯ ДОЦІЛЬНОСТІ ФОРМАЛІЗАЦІЇ АРТЕФАКТІВ ПРОЦЕСУ РОЗРОБЛЕННЯ ПРОГРАМНИХ СИСТЕМ 24.04.2024 22:11
	INVESTIGATING THE POSSIBILITY OF USING CONSECUTIVE WEBCAM FRAMES TO GENERATE RANDOM SEQUENCES 24.04.2024 14:00
	ДОСЛІДЖЕННЯ МІЖКАДРОВОЇ КОРЕЛЯЦІЇ ХАОСУ, ЩО ГЕНЕРУЄТЬСЯ ВЕБКАМЕРОЮ 24.04.2024 13:52
	.NET BASED WEB CAMERA RANDOM SEQUENCE GENERATOR IMPLEMENTATION 24.04.2024 13:26
	ENHANCING CRYPTOGRAPHIC SECURITY SYSTEMS THROUGH STOCHASTIC PROCESSES INDUCED BY WEB CAMERAS 24.04.2024 12:58
	ВИКОРИСТАННЯ ГЕНЕРАТИВНОГО ШТУЧНОГО ІНТЕЛЕКТУ У КІБЕРБЕЗПЕЦІ: НОВІ МОЖЛИВОСТІ ДЛЯ ЗАХИСТУ ТА НАПАДУ 23.04.2024 13:30
	ІНФОРМАЦІЙНІ РЕСУРСИ У ПРАВНИЧІЙ ДІЯЛЬНОСТІ 23.04.2024 12:22
	ОДИН ПІДХІД ДО РОЗВ’ЯЗАННЯ ЗАДАЧ ТЕОРІЇ РОЗКЛАДІВ З ЦИКЛІЧНИМ ПОРЯДКОМ ПОДІЙ 22.04.2024 16:46

© 2010-2025 Всі права застережені	При використанні матеріалів сайту посилання на www.economy-confer.com.ua обов’язкове!
Час: 0.221 сек. / Mysql: 1920 (0.185 сек.)