Web Veri Çıkarımında Çıkarım Kurallarının İncelenmesi

Uzun, Erdinç; Yerlikaya, Tarık; Kırat, Oğuz

dc.contributor.author	Uzun, Erdinç
dc.contributor.author	Yerlikaya, Tarık
dc.contributor.author	Kırat, Oğuz
dc.date.accessioned	2019-02-28T10:25:44Z
dc.date.available	2019-02-28T10:25:44Z
dc.date.issued	2018
dc.identifier.uri	https://hdl.handle.net/20.500.11776/3089
dc.description.abstract	Gerekli veriyi web sayfasından çıkarmak veri madenciliği ve bilgi erişimi alanındaki uygulamalar için önemlidir. Web sayfasından veriyi çıkarmak için DOM tabanlı yöntemler veya düzenli ifadeler kullanılabilir. Bu çıkarım işlemi için hem DOM tabanlı yöntemler hem de düzenli ifadeler için birden fazla çıkarım kuralı hazırlanabilir. Bu çalışmada, çıkarım kuralları ile birden fazla veriyi elde etmenin çıkarım işlemi üzerindeki etkinliği incelenmiştir. Veri seti olarak haber, film ve alış/veriş alanlarında olmak üzere on beş web sitesi seçilmiştir. Bu web siteleri için farklı çıkarım teknikleri ile veri çıkarımı için çıkarım kural dosyaları oluşturulmuştur. Web sitelerinde özellikle yorum gibi tekrarlayan veriler üzerinde odaklanmıştır. Deneyler, oluşturulması daha zahmetli ve zaman alıcı düzenli ifadelerin DOM tabanlı yöntemlere göre çok daha iyi sonuçlar verdiğini göstermiştir. DOM tabanlı yöntemler arasında beklenildiği gibi lxml ayrıştırıcı kütüphanesi en iyi sonuçları vermiştir. Deneyler, bir geliştirici tarafından hazırlanan çıkarım kurallarının çıkarım süresini etkilediği göstermektedir. Sonuç olarak, iyi hazırlanmış çıkarım düzenli ifadeleri ile web sayfalarında çok daha hızlı bir şekilde istenilen veriye erişmek mümkündür.	en_US
dc.description.abstract	Extracting the desired data from a web page is an important issue for applications in the fields of data mining and information retrieval. DOM-based methods or regular expressions can be used to extract data from a web page. For this extraction process, multiple extraction rules can be prepared for both DOM-based methods and regular expressions. In this study, the effectiveness of obtaining repetitive data using extraction rules is investigated. As a data set, fifteen websites including in the fields of news, films, and shopping have been selected. Extraction rule files have been created for data extraction with different extraction techniques for these websites. Websites are mainly focused on repetitive data such as reviews. Experiments have shown that regular expressions, the creation process is more laborious and time-consuming, give better results than DOM-based methods. Among the DOM-based methods, the lxml parser library provided the best results as expected. Experiments indicate that the extraction rules prepared by a developer affect the extraction time. As a result, it is possible to extract the desired data much faster in web pages with the well-prepared regular expressions.	en_US
dc.language.iso	tur	en_US
dc.publisher	Namık Kemal Üniversitesi	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Çıkarım yöntemleri	en_US
dc.subject	Web veri çıkarımı	en_US
dc.subject	DOM	en_US
dc.subject	Düzenli ifadeler	en_US
dc.subject	Extraction methods	en_US
dc.subject	Web data extraction	en_US
dc.subject	Regular expressions	en_US
dc.title	Web Veri Çıkarımında Çıkarım Kurallarının İncelenmesi	en_US
dc.title.alternative	Examination of Extraction Rules in Web Data Extraction	en_US
dc.type	article	en_US
dc.relation.ispartof	European Journal of Engineering and Applied Sciences	en_US
dc.department	Fakülteler, Çorlu Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü	en_US
dc.authorid	110541	en_US
dc.authorid	112885	en_US
dc.identifier.volume	1	en_US
dc.identifier.issue	2	en_US
dc.identifier.startpage	23	en_US
dc.identifier.endpage	28	en_US
dc.relation.publicationcategory	Makale - Ulusal Hakemli Dergi - Kurum Öğretim Elemanı	en_US

Bu öğenin dosyaları:

Ad:: Web Veri Çıkarımında Çıkarım ...
Boyut:: 300.9Kb
Biçim:: PDF

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

European Journal of Engineering and Applied Sciences [14]

Basit öğe kaydını göster