Türkiye Bilimsel ve Teknolojik Araştırma Kurumu /
Nisan 2012
Tahmin edileceği üzere, günlük tarzda konuşmaları içeren telefon konuşmalarını tanımak televizyon
konuşmalarına göre daha zorken, son zamanlarda çağrı merkezlerinde yapılan konuşmaların
yazılandırılması ve analiz edilmesi gittikçe popüler hale geliyor. TÜBİTAK BİLGEM bünyesinde telefon
konuşmalarını tanımak için geliştirilen sistem sayesinde telefon konuşmaları %60 başarımla
yazılandırılabiliyor. Bilgisayar teknolojileri hakkında bir çağrı merkezi üzerinden yapılan yapılan anket
sorularını içeren konuşmaları tanımaya yönelik bu KÂTİP uygulamasında, alana özgü akustik modeller
eğitilerek Türkçe için umut verici bir başarım elde edildi.
TÜBİTAK BİLGEM bünyesinde komşu ülke dilleri üzerine konuşma işleme çalışmaları da hız kazandı. Bu
kapsamda yapılan çalışmalarda Arapça haber bültenlerini yazılandırmak üzere bir sistem geliştirildi ve
sistem sayesinde çok az bir eğitim verisi kullanılmasına rağmen, Arapça televizyon haberleri %65
başarımla yazılandırılabiliyor. ABD’nin Ulusal Standartlar ve Teknolojiler Enstitüsü’nün (National Institute
of Standards and Technologies- NIST) dönem dönem yarışma amaçlı yayınladığı verilerde elde edilen
bu başarım, makine çevirisi uygulamaları ile birleştirilerek Arapça,
İngilizce ve Türkçe’yi içeren çokdilli bir uygulamanın da temellerini
oluşturmakta.
Mevcut Zorluklar
Her ne kadar pratik uygulamalarda kullanılmaya başlasalar da
konuşma tanıma teknolojisi henüz insanın konuşma tanıma
seviyesinden uzaktır. İnsanoğlu doğumundan başlayarak çevresi
tarafından yıllarca bu konuda eğitilerek, beyninin sol temporal lobunda
bulunan Wernicke ve Broca alanlarında bulunan özelleşmiş bölgeleri kullanarak kulakları tarafından çok
iyi ön işlenmiş sesleri/konuşmaları çeşitli zor koşullarda çok başarılı bir şekilde tanıyabiliyor.
Konuşma tanıma teknolojisinin ise pek çok kısıtı var. İçerikteki çeşitlilik, ortam gürültüsü, aksan, birden
fazla kişinin aynı anda konuşması ve kayıt kalitesi gibi etkenler konuşma tanıma başarımını olumsuz
biçimde etkileyebilir. Ayrıca, sistemin çok yüksek başarımla çalışmaması ve genel olarak makine ile
iletişim kurmanın alışılmadık bir davranış olması insanların bu teknolojiyi kullanma konusunda gönülsüz
davranmasına neden oluyor.
Önümüzdeki 5-10 yıl içinde konuşma tanıma teknolojisindeki gelişmeler ve dünyadaki yazılım devleri
arasındaki amansız rekabet, konuşma tanıma başarımının insan seviyesine yaklaşmasını tetikleyecek
gibi görünüyor. Paralel biçimde başarımın artması ve pratik uygulamaların yaygınlaşması ile insanların
bu konudaki çekingenliği de yavaş yavaş azalacaktır.
TÜBİTAK BİLGEM araştırmacıları Cemil Demir ile Ahmet Afşın Akın’a konuşma tanıma teknolojileri ve
TÜBİTAK BİLGEM bünyesinde geliştirilen KÂTİP yazılımını tanıtan yazıları için teşekkürler.
23
1...,15,16,17,18,19,20,21,22,23,24 26,27,28,29,30,31,32,33,34,35,...44