Web kazıma için mikroservis tabanlı bir sistem

Küçük Resim Yok

Tarih

2024

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Tekirdağ Namık Kemal Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

İnternetin hızla yaygınlaşması, Web verilerinin hem hacminde hem de çeşitliliğinde önemli bir artışa yol açmış ve Web sayfalarından değerli bilgilerin çıkarılması için etkili tekniklerin geliştirilmesini gerektirmiştir. Geleneksel monolitik mimariler Web kazıma için işlevsel olsa da özellikle büyük ölçekli veri çıkarma görevleri için genellikle ölçeklenebilirlik ve sürdürülebilirlik zorluklarıyla karşı karşıyadır. Bu tez, modülerlik, bağımsız ölçeklenebilirlik ve gelişmiş performans için mikro hizmetlerden yararlanarak bu doğal sınırlamaları ele alan Web kazıma için mikro hizmet tabanlı bir sistemin tasarımını ve uygulamasını araştırmaktadır. Önerilen sistem, her biri Web kazıma sürecindeki belirli görevlerden sorumlu olan tarayıcı, API katmanı, kuyruk yöneticisi ve veri depolama kapsayıcıları dahil olmak üzere birden fazla mikro hizmetten oluşmaktadır. Bu mimari, her bir bileşenin bağımsız olarak geliştirilmesini, test edilmesini ve ölçeklendirilmesini kolaylaştırarak genel sistem verimliliğini artırmaktadır. Performans değerlendirmeleri, mikro hizmet tabanlı sistemin yanıt süresi, verim ve kaynak kullanımı açısından geleneksel monolitik mimarilerden önemli ölçüde daha iyi performans gösterdiğini ortaya koymaktadır. Sonuçlar, mikro hizmet yaklaşımının toplam ve ortalama sayfa kazıma sürelerini azalttığını, işlem ve bellek verimliliğini artırdığını ve monolitik sistemlere göre avantajlarını doğruladığını göstermektedir. Bu tez çalışması, Web veri çıkarımının artan taleplerini gelişmiş performans ve kararlılıkla karşılayabilen ölçeklenebilir, sürdürülebilir ve verimli bir mikro hizmet tabanlı sistem sunarak Web veri çıkarımı alanına katkıda bulunmaktadır.
The rapid expansion of the Internet has led to a significant increase in both the volume and variety of Web data, necessitating the development of efficient techniques for extracting valuable information from Web pages. Traditional monolithic architectures for Web scraping, while functional, often face scalability and maintainability challenges, especially for large-scale data extraction tasks. This thesis explores the design and implementation of a microservice-based system for Web scraping that addresses these inherent limitations by leveraging microservices for modularity, independent scalability, and improved performance. The proposed system consists of multiple microservices, including the crawler, API layer, queue manager, and data storage containers, each responsible for specific tasks within the Web scraping process. This architecture facilitates independent development, testing, and scaling of each component, thereby improving overall system efficiency. Performance evaluations show that the microservice-based system significantly outperforms traditional monolithic architectures in terms of response time, throughput, and resource utilization. The results show that the microservice approach reduces total and average page scraping times and improves process and memory efficiency, confirming its advantages over monolithic systems. This research contributes to the field of Web data extraction by presenting a scalable, maintainable, and efficient microservice-based system capable of meeting the growing demands of Web data extraction with improved performance and stability.

Açıklama

Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye