#20220076 Visual Question Answering
PROJE KODU | 20220076 |
PROJE SAHİBİ | Dora Esin Usta |
PROJE SAHİBİ LINKEDIN | https://www.linkedin.com/in/dora88357147/ |
PROJE MALİYETİ | Google Colab Pro: 10$/month (proje sürecinde aktif olarak kullanılmıştır.) |
PROJE ÜNİVERSİTESİ | Ankara Üniversitesi |
PROJE KATEGORİSİ | Savunma, Siber Güvenlik, Teknoloji ve Endüstri |
PROJE DANIŞMANI | Gazi Erkan Bostancı |
Proje kapsamında görüntü analizi için farklı derin öğrenme modelleri denenerek en başarılı sonuçları veren model kullanılmak üzere seçilecek. Ardından resimle alakalı sorulan soruyu analiz etmek için denemeler yapılacak ve en başarılı model seçilecek. Bu iki model, kombinlenip çalıştırılacak ve fotoğrafı analiz edip fotoğrafla alakalı sorulara cevap verebilen bir yapay zeka sistemi geliştirilecek. Bu sayede tek bir amaca yönelik yapay zeka kullanımı değil, daha gelişmiş ve complex yapılı bir yapay zeka sistemi kurmak amaçlanacak.
Deep neural network kullanarak kendisine sağlanan görüntüyü ve bu görüntüyle alakalı sorulan soruyu analiz edip soruya cevap veren bir yapay zeka sistemi. Görüntü analizinde farklı CNN mimarileri, soru analizinde LSTM ve diğer doğal dil işleme yöntemleri denenerek en başarılı olan model üzerinden uygulama geliştitmeyi amaçlar.
Yapay zeka uygulamaları genelde tek amaçlı olup tek bir konuda başarı gösterebilir. Çoklu becerileri olan yapay zekalar geliştirmek şu an için zorlu bir görev olarak görülmektedir. Bu projenin amacı birden fazla görevi yerine getirebilmektir. Bir fotoğrafı kategorize etmek, fotoğraf üzerindeki objeleri saptamak bir yapay zeka görevidir. Ancak bu fotoğraflar hakkında sorulan soruları da analiz edip contexte uygun cevaplar üretebilmek daha complex bir derin öğrenme uygulaması gerektirir. Projenin yenilikçi yönü birden fazla görevi gerçekleştirebilen tek bir yapay zeka projesi olmasıdır. [1]
Projenin gerçekleşmesi için teknolojik olarak gerekli donanımlar bulunmaktadır. Fakat training işlemlerinin uzun sürmesi ve daha iyi sonuç alabilmek için dataset boyutunun büyük tutulması sebebiyle implement edilen yapay zekanın verdiği cevaplar çok yüksek accuracyli olmayabilir.
Yok
Yok
Proje araştırma projesi kapsamında olduğu için toplumsal bir olaya doğrudan etki etmesi beklenmemektedir.
[1] Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision (pp. 2425-2433).
[2] Agrawal, A., Kembhavi, A., Batra, D., & Parikh, D. (2017). C-vqa: A
compositional split of the visual question answering (vqa) v1. 0 dataset. arXiv preprint arXiv:1704.08243.
[3] Agrawal, A., Batra, D., & Parikh, D. (2016). Analyzing the behavior of visual question answering models. arXiv preprint arXiv:1606.07356.
[4] Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., & Parikh, D. (2017). Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 6904-6913).
[5] Teney, D., Anderson, P., He, X., & Van Den Hengel, A. (2018). Tips and tricks for visual question answering: Learnings from the 2017 challenge. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4223-4232).
[6] Wu, Q., Shen, C., Wang, P., Dick, A., & Van Den Hengel, A. (2017). Image captioning and visual question answering based on attributes and external knowledge. IEEE transactions on pattern analysis and machine intelligence, 40(6), 1367-1381.
[7] Geman, D., Geman, S., Hallonquist, N., & Younes, L. (2015). Visual Turing test for computer vision systems. Proceedings of the National Academy of Sciences, 112(12), 3618-3623.