#20220271 Doğal Dil İşleme ile Türkçe Web Sayfalarının Sınıflandırılması





PROJE KODU20220271
PROJE SAHİBİEnes Alper Balta
PROJE MALİYETİEnd to End proje haline gelmesi için hosting servis ücreti bulunmaktadır. 10$
PROJE ÜNİVERSİTESİEge Üniversitesi
PROJE KATEGORİSİAkademik ve Diğer Bilişim Uygulamaları 
PROJE DANIŞMANIAsst. Prof. EMİNE SEZER



İnternet üzerindeki verilere erişebilmek için İnternet sayfaları kullanılmaktadır. Bu sayfalara erişim ise İnternet sayfalarının sahip olduğu alan adları ile gerçekleşmektedir. Alan adları ile erişebileceğimiz içeriklerin sayısı her geçen gün üstel bir şekilde artış gösterdiği için faydalı içeriklere erişebilmek ve zararlı içeriklerden uzak durmak adına bu içeriklerin sınıflandırılması gerekmektedir. Günümüzde popülerliğiyle birlikte işlevselliğini de artmış olan Makine Öğrenmesi ve Derin Öğrenme yöntemleri ile bu sınıflandırma problemleri daha efektif bir şekilde çözülebilmektedir. Bu tez içerisinde de Derin Öğrenme modeli ve Doğal Dil İşleme yöntemleriyle alan adı verilen İnternet sayfasının sınıflandırılması amaçlanmıştır. Bu sınıflandırma işlemi için öncelikle alan adı verilen İnternet sayfasının içerisindeki metinlerin çıkartılır, daha sonrasında ise İnternet sayfasının ekran görüntüsü alınır. Elde edilen bu veriler Derin Öğrenme modeline verilir ve modelin tahminlemesiyle birlikte sınıflandırma işlemi gerçekleştirilmektedir.

Doğal Dil İşleme ile Web Sayfalarının Sınıflandırılması projesinde, günümüzde üstel bir şekilde artan web sayfalarının bir çok amacı bulunmaktadır. Sayfalarının amacına göre değişen içeriklerin manuel olarak sınıflandırılması günümüzde imkansız hale gelmiştir. Hem bu efor kaybından hem de güvenlik ve arama motorunun iyileştirilmesi gibi sebeplerle web sayfalarının gelişen yapay zeka modelleriyle sınıflandırılması ihtiyacı doğmuştur. Bu proje de farklı yaklaşımlar katılarak geliştirilmiştir.

Projede iki farklı Derin Öğrenme modeli kullanılmaktadır. Hem web sayfasının ekran görüntüsünden hem de metinsel içeriğinden yararlanarak ve bu alanlarda yapılan ek çalışmalarla başarının artması beklenmektedir.

Günümüzde projeye uygun bir veriseti bulunmamaktadır. Veriseti tarafımca oluşturulup günümüzde var olan yapay zeka kütüphaneleri kullanılmaktadir. Bu sebeple uygulanabilir bir projedir.

Küçük ve orta ölçekli firmaların kendi internet ağlarında istenmeyen sitelere girişleri engellemek amacıyla büyük güvenlik firmalarına yapacakları harmacaları azalmak için kullanılabilir bir alternatif projedir.