DERHAL YAYINLANACAKTIR No. 3112

Bu metin söz konusu basın bülteninin resmi İngilizce versiyonunun çevirisidir. Yalnızca referans olması ve kolaylık sağlaması amacıyla hazırlanmıştır. Ayrıntılar ve/veya özellikler için lütfen orijinal İngilizce metne başvurun. Herhangi bir tutarsızlık durumunda orijinal İngilizce versiyonun içeriği geçerlidir.

Mitsubishi Electric Tek Bir Mikrofonla Kaydedilen Birden Fazla Kimliği Bilinmeyen Konuşmacının Eşzamanlı Konuşmasını Ayırt Etmeyi Başardı

Konuşma ayırma teknolojisi özel "Derinlemesine Kümeleme" AI yöntemiyle geliştirildi

PDF Version (PDF:250.4KB)

TOKYO, 24 Mayıs 2017 - Mitsubishi Electric Corporation (TOKYO: 6503) bugün dünyada ilk kez gerçek zamanlı olarak tek bir mikrofonla kaydedilen ve kimliği bilinmeyen birden fazla konuşmacı tarafından yapılan eşzamanlı konuşmaları ayırt eden ve yüksek kaliteli olarak yeniden yapılandıran bir teknolojiyi geliştirdiğini açıkladı. Testlerde, iki ve üç kişilik grupların yaptığı eşzamanlı konuşmalar sırasıyla yüzde 90 ve 80 varan doğruluk oranıyla ayırt edilmiş olup, şirket bu bültenin tarihi itibariyle bu oranların dünyada birer ilk olduğunu belirlemiştir. Mitsubishi Electric'in yapay zekaya (AI) dayalı özel "Derinlemesine Kümeleme" yöntemiyle geliştirilen bu yeni teknolojinin daha anlaşılır sesli iletişimlerin ve daha doğru otomatik konuşma tanıma işlevlerinin gerçekleştirilmesine katkıda bulunması bekleniyor.

İki eşzamanlı konuşmacı kullanıldığında, yüzde 90'ın üzerinde bir doğruluk oranına ulaşılmış olup, konvansiyonel teknolojilerde sağlanan yüzde 51 doğruluk oranıyla kıyaslandığında, bu performans ticari uygulamalar için yeterli bulunmaktadır. Yeni teknoloji farklı diller ve cinsiyetlerle oluşturulan kombinasyonları ayırt edebilmektedir. Yukarıda belirtilen sonuçlar, düşük ortam gürültüsü ve konuşmacıların genel hatlarıyla benzer bir volümde konuşması gibi ideal kayıt koşullarının sağlanmasına bağlıdır.

Derin Kümeleme teknolojisi, birden çok kişinin orijinal konuşma verilerinin sinyal bileşenleri kodlamayı öğrenmek için Mitsubishi Electric'in özel derinlemesine öğrenme yöntemini kullanarak her bir konuşmacıya ait olan sinyal bileşenlerinin kodlamalara göre kolaylıkla ayırt edilebilmesini sağlar. Bunun için, kodlamalar optimize edilerek aynı konuşmacıya ait farklı sinyal bileşenlerine benzer kodlar, farklı konuşmacılara ait olanlara ise farklı kodlar verilir. Öğrenilen kodlama dönüşümü konuşmaya uygulanır ve her bir konuşmacının sinyal bileşenlerinin kodlamaları, benzerliklere dayalı olarak verileri gruplara ayırarak işleyen bir kümeleme algoritması yardımıyla belirlenir. Daha sonra her bir konuşmacının konuşması, ayrı konuşma bileşenlerinin sentezlenmesiyle yeniden yapılandırılır.

Birden Çok Konuşmacının Eşzamanlı Konuşmasının Ayırt Edilmesinde Sağlanan Doğruluk Oranı*

  İki konuşmacı (tek mikrofon) Üç konuşmacı (tek mikrofon)
Yeni teknoloji >90% (dünyada ilk) >80% (dünyada ilk)
Konvansiyonel teknoloji 51%

*İdeal kayıt koşullarında

Haber içerikleri, yayınlandıkları tarihten sonra güncel olmayan bilgiler içerebilir ve/veya bildirimde bulunmadan değiştirilebilir.