HANDE BERKTAN
Amazon, doğal konuşmaları anlayıp süratle yazıya dökebilen ve insan konuşmasına yüksek kalitede benzeri konuşma yetenekleri gösteren ve OpenAI’nin GPT 4.0 modelinden yaklaşık yüzde 80 daha ucuz olduğunu belirttiği yeni yapay zekâ ses modeli Nova Sonic’i tanıttı.
Teknoloji devi, Nova Sonic’in performansının sürat, konuşma tanıma ve konuşma kalitesini ölçen kıyaslamalarda OpenAI ve Google’ın öncü ses modelleriyle rekabet ettiğini belirtiyor. Nova Sonic, ortalama karşılık müddeti 1,09 saniye ile Amazon’un evvelki sesli yapay zekalarına nazaran çok daha süratli cevap verebiliyor.
Nova Sonic , farklı aksanlardaki konuşmaları tanıma ve kalabalık ortamlarda birden fazla konuşmacıyı ayırt etme testlerini muvaffakiyetle tamamladı. Şirket, bu modelin kullanıcı komutu olmadan internetten bilgi arayabildiğini, data tabanlarını tarayabildiğini ve gerekli durumlarda harici uygulamaları kendi başına açabildiğini tabir etti.
“Amazon’un yeni yapay zeka ses modeli, insan konuşmasına yüksek kalitede misal konuşma yetenekleri gösteriyor”
Amazon Yapay Genel Zeka Kıdemli Lider Yardımcısı Rohit Prasad, Amazon’un ses dayanaklı teknoloji aracılığıyla müşteri tecrübelerini güzelleştirme taahhüdünü vurguladı. Prasad “Nova Sonic, birden fazla fonksiyonu tek bir modelde birleştirerek, daha hakikat, doğal ve ilgi cazip müşteri etkileşimleri sağlıyor. Nova Sonic kapsamlı testlerden geçmiş ve yüksek kaliteli, beşere emsal konuşma yetenekleri göstermiştir. Doğal diyalog sürece ve konuşma tanıma doğruluğunda güçlü performans sergilemiştir.” açıklamasını yaptı.
Nova Sonic, öbür AI ses modellerine kıyasla konuşma tanıma yanılgılarına daha az eğilimli, bu da modelin, mırıldansalar, yanlış konuşsalar yahut gürültülü bir ortamda olsalar bile bir kullanıcının niyetini anlamada nispeten yeterli olduğu manasına gelir. Amazon, Multilingual LibriSpeech isimli lisanlar ve lehçeler ortasında konuşma tanımayı ölçen bir kıyaslamada Nova Sonic’in İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolcada ortalama alındığında sırf yüzde 4,2’lik bir söz kusur oranına (WER) ulaştığını söylüyor. Bu, modeldeki her 100 sözden yaklaşık dördünün bu lisanlardaki insan transkripsiyonundan farklı olduğu manasına geliyor.
Amazon, sesin ötesine geçerek imaj ve fizikî dünyadan alınan dataları işleyebilen daha gelişmiş yapay zeka modelleri üzerinde çalışmalar yürüttüğünü de açıkladı.