#20220256 Tıp Alanında Doğal Dil İşleme Destekli Dijital İkiz Tasarımı
PROJE KODU | 20220256 |
PROJE SAHİBİ | Emel Kayacı |
PROJE MALİYETİ | |
PROJE ÜNİVERSİTESİ | Ege Üniversitesi |
PROJE KATEGORİSİ | Eğitim, Eğlence ve Oyun |
PROJE DANIŞMANI | Prof. Dr. Aybars Uğur |
Projemiz kapsamında, yapay zeka ve doğal dil işleme alanlarında yaşanan gelişmelerin meydana getirdiği teknolojilerden yaralanarak, toplum genelini ilgilendiren bir alan olan sağlık alanında, bir doktorun dijital ikiz tasarımını gerçekleştirdik. Çalışmamızın nihai hedefi, gerek yazışma anlamında, gerekse seslendirme ve görüntü anlamında tam otomatik ve gerçeklik hissiyatı artırılmış bir doktor profili oluşturmaktır. Bu hedef, günümüz yapay zeka teknolojileri arasında hem görüntü üretme, hem de akıllı kullanıcı etkileşimi teknolojileri sayesinde gerçekleştirilebilmektedir. Proje sonunda ortaya çıkacak ürünümüz, bir hastanın semptom belirterek rahatsızlığı öğrenmek, veya doktordan özel randevu almak gibi etkileşimleri, hem doğal dil bazlı cevaplar özelinde, hem de bu cevapları sesli ve görüntülü bir şekilde servis etmemiz özelinde, yapaylıktan uzaklaştırmaya yönelik olacaktır. Gerçekleştirim yöntemleri olarak, doğal dil işleme servisi için, RASA teknolojisi, doğal dilden ses elde edebilmek için Google Text2Speech API, yüz canladırma modülü olarak da image2image translation tabanlı çalışan ‘MakeItTalk’ teknolojisini sistemimize entegre ettik. Çalışmanın kullanıcıyla buluşacağı ortam web ortamıdır, Python dilinin Flask kütüphanesinden yararlanarak geliştirdiğimiz servisleri kullanıcıyla buluşturmuş oluyoruz. Sistemimizin bu servisleri sağlamasını olabildiğince gerçekçiliği artırma, işlemlerin bekleme süresini düşürme odaklı yürütmeye odaklamış bulunuyoruz. Projemizin sosyal açıdan değerlendirildiğinde, gerek birebir etkileşimli makine öğrenmesi teknolojilerinin insanlar üzerindeki yapay etkisinin azaltılması açısından, gerekse bir meslek erbabının kendi dijital ikizini üretebilip, bunu kendi amaçları doğrultusunda kullanabilmesini sağlamak açısından güçlü yanlara sahip olduğu görülebilecektir. Dijitalleşmenin insan üzerindeki etkisinin hat safada olduğu günümüz şartlarında, bu kazançların değerli olduğunu düşünüyoruz.
Teknolojinin ilerlemesiyle birlikte yapay zeka algoritmalarının gücü her geçen gün artmaktadır. Bu bağlamda, artık hiç varolmamış insan yüzleri üretme, görsel üzerine çeşitli yöntemlerle mimik ve konuşma taklidi yapma gibi uygulama alanları ortaya çıkmıştır. Ayrıca, artık cep telefonlarımızda, dijital bankacılık gibi sektörlerde de ‘dijital asistan’ adı altında doğal dil işleme desteği olan yapay zekalar işlerimizi kolaylaştırabilmektedir.
Yaşayan bir kimsenin mesleki bilgisi ile konuşma tarzı ve görüntüsünün bir arada verilmesi yönü ile yenilikçidir. Bu kapsamda yapay zeka alanında state of art yani son teknoloji olan görüntü alanında image2image translation ile doğal dil işleme alanında BERT ve DIET mimarileri kullanılmıştır.
Proje, uygun görsel ve metin verileri sağlanırsa sağlık alanı dışında turizm, eğitim, muhasebe ve finans gibi alanlarda da kullanılabilir. Ek bir maliyet gerektirmeden yalnızca istenilen kişiye ait tek bir görüntü ile farklı kişilerin yüzlerine uyarlanabilecek bir yapıdadır.
Özellikle eğitim alanında, öğrencileriyle/hastalarıyla ile birebir iletişime geçen doktorlar tarafından kullanılabileceği gibi, daha da ileri gidilerek örneğin birden fazla doktorun tecrübelerinin birleştirilmesi suretiyle çok farklı konularda ve bilgi birikimlerinde dijital kopyalar elde edilebilir, hatta bu kopyalar ve edinilen bilgiler daha sonra pekiştirmeli öğrenme teknikleri ile farklı meslektaşlar tarafından geliştirilebilir ve tutarlı bir referans noktasına dönüştürülebilir. Kullanıcılar için ise, bir bilgisayarla iletişim kuruyor olma hissinin azaltılıp gerçekçiliğin arttırılması, projenin tercih edilme olasılığını yükseltebilir.
Kaynakça
Rasa, https://rasa.com/docs/
Simple Medical Diagnosis Bot with Rasa çalışmasında semptom tahmini için izlenen yoldan esinlenilmiş olup Rasa için eğitim verisinin sağlanması hakkında bilgi edinilmiştir.
https://paulminogue.com/posts/6285da6b-5cdf-462d-9d8e-218c7450402b (26 Nisan 2020)
Disease Detection based on Symptoms çalışmasında semptomlara göre hastalık tahmini için kullanılacak veriler incelenmiş, izlenmesi gereken yol anlaşılmıştır. https://github.com/rahul15197/Disease-Detection-based-on-Symptoms (31 Ocak 2022)
MakeItTalk projenin yüz canladırma kısmında faydalanılan, adobe research takımının imzasını içeren bir çalışmadır. Sunulan çalışmaya entegre edilmiş, gerçek zamanlı kullanım için görüntü üretim süreleri bazında iyileştirmeler yapılmıştır. https://arxiv.org/abs/2004.12992v3,
“MakeItTalk: Speaker-Aware Talking-Head Animation”, Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, Dingzeyu Li, 27 Nisan 2020
Long Short-Term Memory, http://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jürgen Schmidhuber
Google Text2Speech API, Google Şirketinin sağlamış olduğu bu servisi kullanarak, Rasa’nın sağlamış olduğu metinden gerçekçi sesler üretilmiştir. https://cloud.google.com/text-to-speech
Flask Web Development, https://flask.palletsprojects.com/en/2.1.x/
Literatür Taraması
Neural Voice Puppetry: Audio-driven Facial Reenactment, https://arxiv.org/pdf/1912.05566.pdf
End-to-End Speech-Driven Facial Animation with Temporal GANs, https://arxiv.org/pdf/1805.09313.pdf