#20220080 WORDFLOW: A MOBILE WORD GAME BASED ON AI
PROJE KODU | 20220080 |
PROJE SAHİBİ | Gaye Süner |
PROJE MALİYETİ | 2000tl |
PROJE ÜNİVERSİTESİ | Dokuz Eylül Üniversitesi |
PROJE KATEGORİSİ | Akademik ve Diğer Bilişim Uygulamaları |
PROJE DANIŞMANI | DR.ÖĞR.ÜYESİ FERİŞTAH DALKILIÇ |
1- veriseti
Türkçedeki kelimelerin benzerliklerini word vector space oluşturarak bulmak amacıyla başlanılan proje için türkçe romanlardan, hikaye kitaplarından ve köşe yazılarından büyük bir veri seti toplandı.
2- önişleme
Aynı gövdeden türemiş kelimeleri, tek grupta toplamak için lemmatization önişlemi gerçekleştirildi. Proje sonunda ortaya çıkarılacak oyunda sadece isim türlü kelimeler çıkarılacağından, Pos tagging işlemi de gerçekleştirildi. Önişlem Java tabanlı zemberek kütüphanesi ile yapıldı.
3- Oyun : Wordflow
3.1 oyunun oynanışı
Oyunda ekrana 25 tane kelime gelir. Bu kelimeler sadece isim türlü olacaktır. Bunlar birbirine benzer kelimelerden oluşmaktadır. Oyun başlarken ekrandaki kelimeler, oyuncular için verilecek ipucu ve bağlantılı olan kelime sayısı, vekör uzayı yardımıyla oluşturulur. Oyunun hedefi tüm kelimeleri mümkün olan en az ipucu ile bulunmaktır. İngilizce ve Türkçe olmak üzere iki seçenek mevcuttur.
3.2 oyun yapısı
Wordflow oyununu mobil uygulamaya implemente edebilmek için flutter kullanıldı. Oyun için gerekli kelimeleri oluşturacak api, python'da flask frameworkü ile yazıldı. Deployment Heroku üzerine yapıldı.
Skip-Gram ve CBOW algoritmaları kullanılarak türkçe dilindeki kelimelerin benzerliklerini saptayacak bir kelime vektörü uzayı oluşturulması hedeflenmiştir. Bu oluşturulan kelime vektörü uzayını test etmek için de, kelime vektörü bir kelime oyunu projesine implemente edilmiştir. Skip-gram ve CBOW algoritmalarının dil bağımsız olduğunu ispatlamak ve türkçe dili üzerine yapılacak olan bilgisayar bilimleri çalışmalarının arttırılmasını teşvik etmek amacıyla proje gerçekleştirilmiştir.
Kelime vektör uzaylarını oluştururken verisetinden tasarruf etmek amacıyla girişilen, kelimeleri önişlemden geçirerek yapılan temizleme ve pos tagging işlemleri, kelime vektörü uzayının kalitesini arttırmıştır.
eğitim verisetinin arttırılması model doğruluğunu arttıracaktır. bunun dışında Algoritmayı çalıştırmak için yüksek ram ve CPU gücüne ihtiyaç vardır
Pennington, J., Socher, R., and Manning, C. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)
Řehůřek, Radim (2011). Scalability of Semantic Analysis in Natural Language Processing. my open-source gensim software package that accompanies this thesis
Schmitt, N., Cobb, T., Horst, M., & Schmitt, D. (2017). How much vocabulary is needed to use English? Replication of van Zeeland & Schmitt (2012), Nation (2006) and Cobb (2007). Language Teaching, 50(2), 212-226. doi:10.1017/S0261444815000075
Sen, M. U. and Erdogan, H. (2014). Learning word representations for Turkish. In 2014 22nd Signal Processing and Communications Applications Conference
T. Mikolov, W.T. Yih, G. Zweig (2013). Linguistic Regularities in Continuous Space Word Representations. NAACL HLT.
Pennington, J., Socher, R., and Manning, C. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)
Řehůřek, Radim (2011). Scalability of Semantic Analysis in Natural Language Processing. my open-source gensim software package that accompanies this thesis
Schmitt, N., Cobb, T., Horst, M., & Schmitt, D. (2017). How much vocabulary is needed to use English? Replication of van Zeeland & Schmitt (2012), Nation (2006) and Cobb (2007). Language Teaching, 50(2), 212-226. doi:10.1017/S0261444815000075
Sen, M. U. and Erdogan, H. (2014). Learning word representations for Turkish. In 2014 22nd Signal Processing and Communications Applications Conference
T. Mikolov, W.T. Yih, G. Zweig (2013). Linguistic Regularities in Continuous Space Word Representations. NAACL HLT.