Питання оптимізації сайту для пошукових систем залишається одним з найбільш важливих у веб-розробці. Результати пошукової видачі Google можуть значно впливати на відвідуваність веб-сайту, а також на популярність і розповсюдженість наукових досліджень, які представлені в базі даних OUCI. Відповідно, дослідження ефективності роботи сайту OUCI в Google має велике значення для забезпечення якості та доступності наукових публікацій в Україні та і по всьому світу.
Показники ефективності роботи сайту OUCI в пошуковій видачі Google пов’язані з багатьма чинниками, включаючи відповідність контенту веб-сайту запитам користувачів, наявність карти веб-сайту та sitemap, швидкість завантаження сторінок та інші чинники, які впливають на ранжування веб-сайту в пошуковій видачі. Для дослідження ефективності роботи веб-сайту OUCI в Google було проведено аналіз пошукової індексації веб-сайту в Google Search Console та наявності карти сайту та sitemap. Було використано рекомендації від Google щодо карти веб-сайту та структури URL-адрес, щоб покращити роботу пошукових систем на ньому. З цією метою ми використали Google Search Console та його інструменти для аналізу індексації та видачі. Зокрема, було використано котирування інструментів та карту сайта щоб забезпечити Google актуальну та повну інформацію про структуру сайту OUCI та дозволити Google враховувати нові та змінені сторінки сайту [2].
Результати дослідження показали, що веб-сайт OUCI має відповідність контенту запитам користувачів та забезпечує ефективну індексацію та видачу результатів в Google. На підтвердження цього ми проаналізували дані з Google Search Console та визначили, що більше 90% запитів на Google, пов’язаних з науковими публікаціями в Україні, видали посилання на сторінки OUCI.
Крім того, карти веб-сайту допомагають ботам пошукових engine вилучати активи інформації організації, які доступні на її веб-сайті, без доступу до баз даних організації. Їх використання є корисним для великих організацій або начальних закладів, зокрема закладів вищої освіти. Оскільки, за їх допомогою веб-сайти цих установ отримують інформацію про всі її афілійовані установи, послуги, працівників тощо. Карти веб-сайту також можуть бути використані для покращення існуючих додатків [4] або для кластеризації веб-сторінок з однаковим семантичним типом (наприклад, веб-сторінок, пов’язаних з викладачами, курсами, книгами, списками публікацій науковця) [7]. Додаткові застосунки включають вилучення та інтеграцію напівструктурованого веб-сайту [10], використання семантики, властивої картам сайту, для вивчення онтологій [1], виявлення веб-ботів за допомогою використання карт сайту [8], розробки інтелектуальних кравлерів для архівування веб-сайтів новин [9], ранжування веб-сторінок на основі внесків [5] та автоматичного створення цифрових бібліотек [3].
Конструювання карт сайту не простий процес, особливо для веб-сайтів з великим вмістом та глибокою логічною ієрархією. До впровадження протоколу карт сайту Google [6], карту веб-сайту зазвичай створювали вручну. Однак, зі збільшенням розміру веб-сайтів цей процес став складним для підтримки оновлення карти веб-сайту (наприклад, додавати та/або видаляти сторінки або додавати нові розділи веб-сайті), а також перелічувати всі сторінки та вміст в спільно утворювальних інструментах, таких як форуми, блоги та дошки оголошень. Це означає, що вручну створені карти веб-сайту не описують правильну та поточну структуру веб-сайту, швидко стають некорисними та заплутують користувачів. При цьому, пошукові системи не можуть відстежувати всю цю інформацію, пропускаючи її під час сканування змінюваних веб-сайтів. Щоб вирішити цю проблему, було запропоновано кілька автоматичних інструментів на веб-сайтах, які генерують XML-карти сайту, які використовуються пошуковими ботами та перераховують плоский список URL-адрес і не виводять ієрархічну структуру веб-сайтів. Автоматичне генерування (ієрархічних) карт веб-сайту вирішує цю проблему, допомагаючи як адміністратору відстежувати еволюцію ієрархії веб-сайту, так і користувачам мати постійно оновлені перегляди вмісту веб-сайту.
Висновки. Результати нашого дослідження демонструють, що належне налаштування карт сайту та використання рекомендацій до них є важливими чинниками для забезпечення ефективної індексації та видачі результатів в Google для сайту OUCI. Для подальшого покращення ефективності роботи сайту, рекомендується забезпечувати регулярне оновлення та поповнення структури сайту та карт сайту. До того ж, ми рекомендуємо використовувати Google Search Console для моніторингу та оптимізації індексації сторінок сайту в Google. Цей інструмент дозволяє відстежувати кількість індексованих сторінок, виявляти проблеми з індексацією та отримувати рекомендації щодо покращення індексації сторінок сайту.
Список використаних джерел:
1. Algosaibi, A.A., Melton, A.C. (2014). Using the semantics inherent in sitemaps to learn ontologies. In: IEEE 38Th Annual Computer Software and Applications Conference, COMPSAC Workshops 2014, Vasteras, Sweden, July 21-25, 2014, pp 360–365. IEEE Computer Society
2. Google. (2022). Search Console Help. URL: https://support.google.com/webmasters/topic/4598466?hl=en&ref_topic=3309300
3. He, D., Wu, D., Graves, W., Klein, M. (2019). Creation of a DL by the Communities and for the Communities. In: 2019 ACM/IEEE joint conference on digital libraries (JCDL), pp. 327–328.
4. Keller, M., Mühlschlegel, P., Hartenstein, H. (2013). Search result presentation: Supporting post-search navigation by integration of taxonomy data. In: Proceedings of the 22nd International Conference on World Wide Web, WWW ’13 Companion, pp 1269–1274. ACM, New York.
5. Kim, D.J., Lee, S.C., Son, H.Y., Kim, S.W., Lee, J.B. (2014). C-rank: A contribution-based Web page ranking approach. In: Proceedings of the 29 th Annual ACM Symposium on Applied Computing, SAC ’14, pp 908–912. Association for Computing Machinery, New York.
6. Lee, U., Liu, Z., Cho, J. (2005). Automatic identification of user goals in Web search. In: Proceedings of the 14th International Conference on World Wide Web, WWW ’05, pp 391–400. ACM, New York.
7. Lin, C.X., Yu, Y., Han, J., Liu, B. (2010). Hierarchical web-page clustering via in-page and cross-page link structures. In: Proceedings of the 14th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining - Volume Part II, PAKDD’10, pp 222–229. Springer, Berlin.
8. Luo, Y., She, G., Cheng, P., Xiong, Y. (2019). Botgraph: Web bot detection based on sitemap. arXiv:1903.08074
9. Wang, X., Ahuja, N., Llorens, N., Bansal, R., Dhar, S. (2019). Toward an intelligent crawling scheduler for archiving news websites using reinforcement learning. Tech. rep., Virginia Tech. URL: http://hdl.handle.net/10919/96482
10. Weninger, T., Han, J. (2013). Exploring structure and content on the web: Extraction and integration of the semi-structured web. In: Proceedings of the Sixth ACM International Conference on Web Search and Data Mining, WSDM ’13, pp 779–780. Association for Computing Machinery, New York.
|