У сучасному світі користувачі стикаються з величезним потоком інформації різної якості та правдивості з великої кількості джерел, автори яких мають різні погляди, цілі та ступень упередженості. Такі особливості інформаційних повідомлень ускладнюють для споживача фільтрацію та критичну оцінку потоку новин [1, с. 443-444].
Одним з ключових чинників збільшення потоку інформації можна вважати перехід від традиційних медіа до інтернету та соціальних мереж, зокрема Телеграм-каналів. Така трансформація медійного поля, що розширила доступ до новин, може бути охарактеризована зниженням бар’єрів для створення контенту, збільшення потоку інформації, анонімністю частини джерел, що ускладнює оцінку правдивості інформації.
Охарактеризоване медійне поле стає ґрунтом для поширення дезінформації та маніпулювання суспільною думкою, загострюючи необхідність відсіювання правдивої та корисної інформації з величезних потоків даних. Війна росії проти України загострила потребу в аналізі та фільтрації інформації, що призвело до появи терміну «інформаційна гігієна» та стратегій роботи з інформацією на основі критичного мислення та аналітичних здібностей.
Для опрацювання великої кількості повідомлень з численних джерел використовуються системи моніторингу ЗМІ [2, с. 121-122], які автоматично відстежують та аналізують контент з різних джерел, включаючи газети, онлайн-видання, телебачення, радіо та соціальні мережі об’єднати ці дублікати. Цільовою аудиторією цих систем є бізнес-клієнти, а аналіз сфокусований на трендах, брендах та конкурентах. Щодо індивідуального споживача новин, в якості найбільш широковживаної автоматизації є розширення стрічки новин Google, що пропонує погляд з різних сторін, підшукуючи декілька джерел, що описують одну й ту саму подію. Для Телеграм-каналів, що для багатьох українців набули панівного місця як джерела новин, не існує жодного рішення, яке б дозволяло компонувати, фільтрувати та аналізувати інформаційні повідомлення.
В роботі запропоновані підходи до створення системи моніторингу Телеграм-каналів новин, яка б була доступна індивідуальному користувачеві та відповідала на сучасні виклики. Використовуючи інструменти обробки природної мови та великі мовні моделі, спроєктований та реалізований багатопотоковий застосунок дозволяє зменшити обсяги інформації шляхом скорочення повідомлень без втрати змісту [3, с. 40-46]; виявляти фейкові новини та новини, що створені за єдиним шаблоном; формувати добірки новин по заданих іменованих сутностях, включаючи особистості та географічні локації; визначати тональність групи повідомлень, що дозволяє оцінити їхнє емоційне забарвлення.
Великі обсяги збираної інформації створюють суворі вимоги до продуктивності застосунку, задовільнення яких досягається внаслідок детального опрацювання асинхронних алгоритмів, розподілом задача та балансування навантаження на окремі екземпляри процесів в додатку, використанням продуктивних рішень для роботи з інформацією. Для зберігання, первинної обробки та повнотекстового пошуку було обрано пошукову систему Elasticsearch [4, с. 3-6], завдяки її швидкодії, масштабованості та варіантам інтеграції.
Інструментом розв’язання поставлених в роботі задач аналізу текстів є великі мовні моделі (LLM), що мають суттєво більші можливості у порівнянні з іншими бібліотеками та моделями обробки природної мови. Першу з моделей, SlavicBERT [5, с. 1-3] (адаптація BERT для слов’янських мов), використано для розпізнавання іменованих сутностей та аналізу емоційного забарвлення, які виконуються з високою якістю завдяки двонапрямній структурі. Друга з моделей, адаптована для української мови GPT-3 [5, с. 1-3], використовується для генерації коротких резюме текстів з виділенням найголовнішого. Вибір пояснюється саме кращими генеративними можливостями моделі. Для виконання допоміжних задач в процесі аналізу використовується Stanford NLP [6, с. 1-4], яка первісно підтримує українську мову та суттєво перевершує перші дві моделі у швидкодії при виконанні простих задач аналізу тексту.
В результаті роботи розроблено концепцію, спроєктовано та створено інструмент, здатний в реальному часі збирати велику кількість новинних повідомлень з численних джерел та аналізувати їх, скорочуючи без втрати змісту; виявляючи фейкові та створені за єдиними шаблонами новини; формотворчі добірки за заданими іменованими сутностями, включаючи відомих персон та географічні локації, що своєю чергою дозволяє поглянути на подію з різних боків; визначаючи емоціональне забарвлення текстів новин; порівнюючи виявлені тренди. Створений інструмент дозволяє індивідуальному користувачеві автоматично консолідувати, фільтрувати маркувати інформацію, що полегшує її осмислення та критичну оцінку. Критичний аналіз, своєю чергою, робить користувача більш стійким до впливу маніпуляції та дезінформації, допомагає підтримувати «інформаційну» гігієну.
Сучасний інформаційний потік ускладнює для користувачів фільтрацію та критичну оцінку новин. Цифрова трансформація медіа збільшує доступність інформації та ускладнює її верифікацію. Війна в Україні загострила важливість критичного ставлення до інформації для відсіювання дезінформації та уникання маніпуляцій. Застосування передових технологій забезпечення продуктивності обробки інформації та аналізу природньої мови забезпечує високу продуктивність, точність аналізу, можливості масштабування застосунку. Запропоновані в роботі нові підходи у моніторингу Телеграм-каналів новин та аналізу отримуваної інформації допоможуть користувачам адаптуватись до сучасних викликів інформаційного простору.
Список літератури:
1. Fake news on social media: the impact on society / F. Olan et al. Information systems frontiers. 2022. URL: https://doi.org/10.1007/s10796-022-10242-z (date of access: 30.03.2024).
2. Information security and information hygiene on internet media / V. Varynskyi et al. Nexo revista científica. 2021. Vol. 34, no. 01. P. 120–128.
URL: https://doi.org/10.5377/nexo.v34i01.11291 (date of access: 29.03.2024).
3. Benchmarking large language models for news summarization / T. Zhang et al. Transactions of the association for computational linguistics. 2024. Vol. 12.
P. 39–57. URL: https://doi.org/10.1162/tacl_a_00632 (date of access: 29.02.2024).
4. Bhatnagar D., SubaLakshmi R. J., C V. Twitter sentiment analysis using elasticsearch, LOGSTASH and KIBANA. 2020 international conference on emerging trends in information technology and engineering (ic-etite), Vellore, India, 24–25 February 2020. 2020. URL: https://doi.org/10.1109/ic-etite47903.2020.351 (date of access: 15.03.2024).
5. A survey on large language models: applications, challenges, limitations, and practical usage / M. U. Hadi et al. Authorea.
URL: https://www.techrxiv.org/doi/full/10.36227/techrxiv.23589741.v1 (date of access: 23.03.2024).
6. Phand S. A., Phand J. A. Twitter sentiment classification using Stanford NLP. 2017 1st international conference on intelligent systems and information management (ICISIM), Aurangabad, 5–6 October 2017. 2017.
URL: https://doi.org/10.1109/icisim.2017.8122138 (date of access: 30.01.2024).
|