#20220302 Makine Öğrenmesi ile Galeri Fotoğraf Sınıflandırma
PROJE KODU | 20220302 |
PROJE SAHİBİ | Berkay Özbay |
PROJE MALİYETİ | |
PROJE ÜNİVERSİTESİ | Ege Üniversitesi |
PROJE KATEGORİSİ | Akademik ve Diğer Bilişim Uygulamaları |
PROJE DANIŞMANI | Rıza Cenk Erdur |
Bu projede, galerideki fotoğraf sayısının fazla olduğu durumlarda galerinin karmaşık bir durumda olması şeklinde ortaya çıkan problemin ilgili fotoğrafların optimum bir şekilde sınıflandırılması ile nasıl çözülebileceği incelenmiştir. Sınıflandırma problemi, galerideki karmaşıklığın önlenebilmesi amacını destekleyen; fotoğrafların hangi kriterler ile sınıflandırılacağı, hangi tür sınıflandırmalar içereceği, farklı tür sınıflandırma içeriklerinin belirlenmesi alt problemlerini içermektedir. En yüksek sınıflandırma başarısını sağlamak için ilk olarak görüntünün üzerinde bulunan gürültülerin arındırılması ve temiz bir görüntü elde edilebilmesi için görüntü işleme teknikleri kullanılarak işlenip, sonrasında işlenen görüntünün çok sayıda özellik içeren daha karmaşık görevleri çözmekte başarılı derin sinir ağları yöntemi yardımıyla sınıflandırılması amaçlanmaktadır. Elde edilecek olan sınıflandırma yönteminin mobil galeri sınıflandırmasına yardımcı olacak şekilde mobil uygulama olarak geliştirilmesi hedeflenmektedir.
Günümüzde artan teknolojinin etkisiyle fotoğraflar yaşamımızın vazgeçilmez bir parçası haline gelmiştir. Fotoğrafların sayısının artması ile birlikte fotoğrafların çeşitliliği de aynı oranda artmaktadır. Bu çeşitlilik, galeride karmaşıklığa yol açmakta ve düzensiz bir galeri ortaya çıkarmaktadır. Hayatımızın vazgeçilmez bir parçası olan fotoğraflara ulaşılması, karmaşıklıklar ile beraber zaman alıcı ve zahmetli bir eylem haline dönüşmüştür. Harcanılan zaman ve uğraşı en aza indirmek için fotoğrafların sınıflandırılması çok önemli bir faktördür. Bu problemin giderilmesi için fotoğrafları kategorilere ayıran bir galeri uygulaması geliştirilmiştir.
Çeşitli işletim sistemleri, hali hazırda bulunan galeri uygulamalarına belirli sınıflandırma kategorileri eklemiştir. Fakat bu sınıflandırmalar, galerinin karmaşıklığını çözebilmek için yeterli değildir. Aynı zamanda bu sınıflandırmalara herkesin erişimi de mümkün değildir. Projede geliştirilen uygulama ile birlikte, daha kapsamlı ve detaylı sınıflandırma teknikleri ile karmaşıklığın çözülmesi hedeflenmektedir. Bununla birlikte herkesin kolaylıkla erişebileceği bir galeri sınıflandırma uygulaması ürünü de ortaya çıkmış olacaktır.
Projenin gerçekleşebilmesi için gerekli yapay zeka modellerinin eğitilebileceği ortam bulunmaktadır. Aynı zamanda eğitilen modelin kullanılabilmesi için geliştirilecek olan mobil uygulama için de gerekli araçlar günümüzde bulunmaktadır. Proje kolaylıkla hayata geçirilebilir.
Galerilerdeki karmaşıklığın giderilmesi ve kullanıcıların daha düzenli bir galeri uygulamasına sahip olması hedeflenmektedir.
P. Viswanathan, T.Southey, J. J. Little ve A. Mackworth (2010) tarafından yapılan çalışma nesne tanıma kullanılarak otomatik ortam sınıflandırmasını hedef almaktadır.[2] Bir ortamdaki nesneler bulunarak renkli çizgilerle belirlenmesi gerçekleştirilmektedir. Daha sonrasında tespit edilen nesnelere göre nesne-yer ilişkisi kullanarak görüntülerin yer sınıflandırması gerçekleştirilmektedir. Tez içerisinde mekan sınıflandırmasında gerçekleştirilmesi hedeflenen odak ilgili görüntünün bulunduğu mekanı, mekanda bulunan nesnelerden bağımsız sadece çevresel koşullar ile sınıflandırılmasıdır.
[2] P. Viswanathan, T. Southey, J. J. Little and A. Mackworth, "Automated Place Classification Using Object Detection", 2010 Canadian Conference on Computer and Robot Vision, 2010.
[3] H.Hakan Çetinkaya, Muammer Akçay, “People Counting at Campuses”, 4th World Conference on Educational Technology Researches, 2014.
[4] Soo Beom Park, Jae Won Lee, Sang Kyoon Kim, “Content-based image classification using a neural network”, Pattern Recognition Letters, Volume 25, Issue 3, Pages 287-300, 2004.
[5] Çağrı Utku Akpak, “Derin Konvolüsyonel Sinir Ağlarıyla Sosyal Medya Resimleri Sınıflandırması”, Orta Doğu Teknik Üniversitesi, Eylül 2017.
[6] Dan Ciregan, Ueli Meier, and Jürgen Schmidhuber. “Multi-column deep neural networks for image classification”, In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 3642–3649. IEEE, 2012.
[7] M. M. Krishna, M. Neelima, M. Harshali, M. V. G. Rao, "Image classification using Deep learning", International Journal of Engineering and Technology, Mart 2018.
[8] Zhiqiang Zeng, Jian Zhang, Xiaodong Wang, Yuming Chen ve Chaoyang Zhu, "Place Recognition: An Overview of Vision Perspective", Kasım 2018.
[9] Woon-Ha Yeo, Young-Jin Heo, Young-Ju Choi ve Byung-Gyu Kim, "Place Classification Algorithm Based on Semantic Segmented Objects", Sookmyung Women's University, Aralık 2020.
[10] Aditya Vailaya, Anil Jain ve Hong Jiang Zhang, "On Image Classification: City Images vs. Landscapes", Pattern Recognition Journal, 1998.
[11] Alex Krizhevsky, Ilya Sutskever and Geoffrey E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks”, Mayıs 2015.
[12] Google, https://support.google.com/photos/answer/6128838 (Son Erişim: 24 Şubat 2022)
Çetinaya ve Akçay (2014) tarafından yapılan çalışma kampüslerdeki kişi sayıların bulunmasını hedef almaktadır.[3] Yüz tanıma tabanlı insan sayma sistemi kullanılarak iç mekanda ve dış mekanda bulunan insanların sayılarının belirlenmesi, belirlenen sayının reklam değerlendirmeleri ve dönüşüm oranının belirlenmesi gibi alanlarda kullanılması düşünülmektedir. Tez içerisinde gerçekleştirilecek tekil-çoğul kişi sınıflandırmasında görüntüde bulunan kişi sayısının hesaplanarak, hesaplanan sayıya göre resmin sınıflandırılmasının gerçekleştirilmesi hedeflenmektedir. Yapılan çalışma ile aynı doğrultuda yüz tanıma tabanlı bir sınıflandırma sistemi gerçekleştirilmesi beklenmektedir.
Park, Lee ve Kim (2004) tarafından yapılan çalışma sinir ağları kullanılarak içerik tabanlı resimlerin sınıflandırılmasını hedef almaktadır.[4] Ön ve arka planın ayrılabilmesi kolay olan resimlerde arka planı çeşitli görüntü işleme teknikleriyle ayırıp sonrasında önde kalan nesnenin sınıflandırılmasını gerçekleştirmektedir. Sinir ağı sınıflandırıcısı, geri yayılım öğrenme algoritmasını kullanan özellikler için gerçekleştirilmiştir. Tez içerisinde gerçekleştirilecek olan uygulama içerisindeki sınıflandırmalarda da benzer yöntemler nesnelerin belirlenmesini sağlamak ve onları sınıflandırmak için gerçekleştirilecektir.
Akpak (2017) tarafından yapılan çalışma derin sinir ağları kullanılarak sosyal medya resimlerinin sınıflandırılmasını hedef almaktadır.[5] Sosyal medyanın yaygınlaşmasıyla birlikte sınıflandırılmamış resimlerdeki artış göz önüne alınarak, bu resimlerin doğal ve yalın bir şekilde sınıflandırılması gerçekleştirilmiştir. Tez içerisindeki uygulamada gerçekleştirilecek sınıflandırmalar, sosyal medya içerisinde kullanılacak resimleri de içereceği için benzer sınıflandırma teknikleri ve sınıflandırma türleri görülmektedir.
Ciregan, Meier ve Schmidhuber (2012) tarafından yayınlanan makalede çok modelli evrişimli sinir ağları, MNIST ve trafik işaretlerinin tanınmasını hedef alan veri kümelerinde kullanılmıştır.[6] Yapılan bu çalışma içerisinde MNIST gibi veri setlerinde bulunan karakterlerin tanınması sinir ağları tarafından gerçekleştirildiği gibi tez içerisinde gerçekleştirilecek çalıışmada da sinir ağı modelleri farklı yapılar ile kullanılacaktır.
Krishna, Neelima, Harshali ve Rao (2018) tarafından yapılan çalışma derin öğrenme ile resim sınıflandırmasını hedef almaktadır.[7] AlexNet mimarisi kullanılarak bir sınıflandırma yapılması amaçlanmıştır. Çalışma içerisinde doğrudan nesneleri belirleyerek bir sınıflandırma gerçekleştirilmektedir. Tez içerisinde doğrudan nesne sınıflandırması gerçekleştirilmeyecek olsa da sınıflandırmaya yardımcı olması için görüntü içerisindeki nesnelerin belirlenmesi de gereklidir. Yapılan çalışma genel olarak tek bir nesne üzerine sınıflandırma hedefi içerirken, tez içerisindeki çalışma görüntünün sınıflandırılmasını gerçekleştirmek amacındadır.
Zeng, Zhang, Wang, Chen ve Zhu (2018) tarafından yapılan çalışma evrişimli sinir ağı modelleri kullanılarak yer tanıma yapılmasını hedef almaktadır.[8] Resmin bulunduğu mevsimin belirlenmesi, günün hangi dilimde bulunduğunun belirlenmesi gibi sınıflandırma türleri içermektedir. Tez içerisinde gerçekleştirilecek olan mekan tanıma içerisinde hangi mevsimde bulunduğu da sınıflandırılacağı için ilgili bir çalışmadır. Yer tanıma bilgisayarlı görü ve robotik kullanılan alanlarda bulunan en temel konulardan biridir.
Yeo, Heo, Choi ve Kim (2020) tarafından yapılan çalışma içerisinde semantik bölünmüş nesnelere dayalı yer sınıflandırma gerçekleştirilmesi hedef alınmaktadır.[9] Bu çalışma içerisinde görüntüde bulunan nesneler belirlenerek, belirlenen nesnelerin bulunacakları alanlara göre yer sınıflandırması gerçekleştirilmektedir. Görüntü içerisindeki nesneler tespit edilerek, bu nesnelere göre iç mekan, doğa ve şehir sınıflarından ilgili olan sınıflandırma belirlenmektedir. Tez içerisinde gerçekleştirilecek olan mekan sınıflandırma içerisinde de bu sınıflandırma tekniğine benzer sınıflandırma türleri kullanılacaktır.
Vailaya, Jain ve Zhang (1998) tarafından yapılan çalışmada görüntülerin şehir ve manzara görüntüleri olarak sınıflandırılması hedef alınmaktadır.[10] Düşük seviyeli görsel özellikler kullanılarak görüntüleri anlamsal olarak anlamlı kategoriler halinde gruplama problemi ele alınmıştır. Tez içerisinde kullanılacak olan mekan sınıflandırmasında daha kapsamlı bir halde sınıflandırma gerçekleştirilmesi beklenmektedir.
Krizhevsky, Sutskever ve Hinton (2015) tarafından yapılan çalışmada 1.2 milyon yüksek çözünürlüklü görüntüyü 1000 farklı sınıfa sınıflandırmak için derin bir evrişimli sinir ağı eğitilmiştir.[11] Performansı iyileştirmek için daha büyük veri kümeleri kullanılarak ve aynı zamanda ezberlemeyi önlemek içinde çeşitli metotlar kullanılarak gerçekleştirilmiştir. Tez içerisinde gerçekleştirilecek olan sınıflandırma da yüksek çözünürlüklü resimler üzerinde bir sınıflandırma gerçekleştireceği için bu bağlamda benzer teknikler içermektedir.
Araştırılan makale ve yayınların haricinde “Google Fotoğraflar”, “Windows Fotoğraflar”, “Iphone Galerisi” benzer sınıflandırma teknikleri ile kişilerin ve mekanların sınıflandırmasını gerçekleştirmektedir.[12] Yapılan çalışmalar haricinde tez içerisinde gerçekleştirilecek olan uygulamaya en benzer yapıda bulunan çalışmalar birçok Android ve IOS cihazda bulunan bu sistemlerdir.
Literatürde gerçekleştirilmiş olan çalışmalar genellikle sınıflandırmaları tek bir perspektiften sınıflandırılmasına yönelik gerçekleştirilmiştir. Tez içerisinde geliştirilecek olan uygulama birçok farklı sınıflandırma tekniğini bünyesinde barındıracağı için diğer çalışmalardan farklı bir niteliktedir. Mekan sınıflandırması, tekil-çoğul kişi sınıflandırması, nesne sınıflandırması gibi farklı tür sınıflandırmalar tek bir uygulama içerisinde gerçekleştirebileceği için anlaması ve erişimi daha kolay, aynı zamanda etkinliği yüksek bir sistem elde edilmiş olur. Gerçekleştirilecek olan çalışma ile literatürde doğrudan benzer veya aynı işlevi gören başka bir sisteme rastlanılmamıştır.