Konuşma İşleme
Konuşma İşleme

Konuşma İşleme

Konuşma İşleme
Konuşma İşleme

Belki de ileride çalışacağım alan üzerine bir şeyler yazmanın vakti geldi. Hem Konuşma İşleme(Speech Processing) ders notlarımızı burada tutarız, hem de öğrendiklerimizi ve yaptıklarımızı paylaşmış oluruz. Türkçe yazıp, İngilizce terimleri parantez içinde belirtmeyi uygun gördüm.

Konuşma İşlemenin kullanım alanları arasında yazılan metni okuma(text-to-speech, TTS), konuşma tanıma(voice recognition), güvenlik amaçlı konuşmacı doğrulama(voice verification), ses dönüştürme(voice conversion) gibi uygulamalar bulunuyor. Günümüzde hala çoğunluğu araştırma ve geliştirme sürecinde olsa da piyasada çok fazla ürün bulunmakta. Birçok uygulamaya yavaş yavaş ilave edilen bu alan, geleceğin teknolojilerinde de sıkça kullanılacak.

Mesela şu an, bilgisayarınızdan müzik dinlerken sesi yükseltmesini “rica edebiliyor”, Word’ü açıp İngilizce bir metin okuduğunuzda yazıya dökebiliyor ya da 2012 filminde gördüğümüz üzere Bentley otomobilinizi anahtarla değil “Engine Start!” komutuyla çalıştırabiliyorken, “akıllı ev”lerle yapmak istediğimiz her şeyi sesimizle kontrol edebiliyor olacağız.

Bunların işin magazinsel kısmı tabi. Bunların yanında konuşma işleme uygulamalarının ürünlerini konuşma bozukluklarını incelemede kullanan doktorlar da mevcut.

Konuşma işleme alanında yapılan çalışmaların çoğu Türkçe değil. Türkiye’de bu konuda gerçekten çalışma yapanların sayısı da iki elin parmaklarını geçmez sanırım ki o kişilerden biri, geçen dönemki tez danışmanım, bu dönem Konuşma İşleme dersini aldığım Barış Bozkurt‘tur. Kendisi olur da okursa ve yanlış bir şeyler bulursa ne yaparım bilmem 🙂

Ders notlarımızı ve öğrendiğimiz teknik bilgileri paylaşalım.

KONUŞMA İLETİŞİMİ (SPEECH COMMUNICATION)

Konuşma, TDK’deki temel anlamıyla bir dilin kelimeleriyle düşünceyi sözlü olarak anlatmak işi.

Speech Communication
Konuşma İletişimi

Konuşma iletişiminde ise hem konuşma hem de dinleme kısmı bulunuyor.Bu iş öncelikli olarak beyinde başlar. Beyninizde söylemek istediklerinize dair bir düşünce oluşturduktan sonra bu hareket sinir sistemi vasıtasıyla kas sistemine iletilir. Kas sistemi sayesinde de konuşmacı, havadaki moleküllerini sıkıştırıp rahat bırakarak ses dalgalarını oluşturur. Oluşturulan ses dalgaları dinleyicinin kulağına gittiğinde de önce kas sistemi ardından da sinir sistemi ile algılama gerçekleşir.

Duyma sistemi tek bir amaca yöneliktir. Ancak konuşmayı oluşturan organlar sadece konuşma sistemi için kullanılmazlar. Yemek yerken ağzımı, koku alırken burnumuzu ve nefes alırken her iki organımızı da kullanırız. O yüzden ek bilgiler mimikler ve jestlerle tamamlanır.

İnsan kulağı 16-20000 Hz arasına duyarlıdır. Konuşmada ise kullanılan organların sınırlarından dolayı genel bir konuşma iletişimi 7-8 kHz. bant genişliğine sahiptir.

VÜCUT YAPISI VE FİZYOLOJİ (ANATOMY and PHYSIOLOGY)

İnsan Anatomisi

İnsan anatomisinde, akciğerler(lungs), nefes borusu(trachea/windpipe), gırtlak(larynx), boğaz ( pharingeal/throat), ağız boşluğu(buccal cavity), burun boşluğu(nasal cavity) gibi elemanlar konuşmayı sağlar.

Sesler iki yol sayesinde oluşturulur:  Ses yolu (vocal tract) ve geniz yolu(nasal tract). Bu yollar bir nevi akustik bir tüp olarak kabul edilir.

Ses Yolu gırtlaktan dudaklara kadar olan yola denir.  Çoğu sesin çıkarken kullandığı bu yoldur. Ortalama olarak, yetişkin bir erkekte 17 cm, yetişkin bir kadında 14 cm ve bir çocukta 10 cm. olur. Buradan da tahmin edilebileceği gibi ağız yolunun uzunluğu sesin kalınlığını etkiler. Ağız yolunun kapladığı alan 0 ila 20 cm^2 aralığında, değişik seslerin oluşmasını sağlar.

Geniz Yolu yumuşak damak(velum)’tan burun deliği(nostrils of nose)’ne kadar olan yoldur. Nazal sesler(konuşurken burundan da nefes verilen) -m,n gibi- bu yoldan çıkar.

Ses oluşumunu sağlayan hareketli parçalara artikülatörler(articulators) denir. Çene(jaw) ve çene kemiği(mandible) de bunlara dahildir. Bu elemanlar uyarı sinyallerinin türlerini(excitation types) belirler. Temel olarak 2 tür olmasına karşın, 6 ayrı biçimde incelenir.
Temel türler:
1) Sesli (voiced)
2) Sessiz (unvoiced)
Diğer türler:
3) Karışık (mixed) : Sesli + Sessiz
4) Patlamalı Sesler (plosive)
5) Fısıltı (whisper)
6) Boşluk (silence)
SES OLUŞUMU (VOICE PRODUCTION)
Sesin oluşumu akciğerlerden gelen hava ile başlar. Nefes borusundan geçen hava, istenen uyarı sinyali duruma göre, gırtlakta ses tellerine çarparak ya da çarpmadan ses yoluna gelir ve ağızdan hava moleküllerini sıkıştırıp rahat bırakarak ses sinyallerinin oluşması sağlanır. Nazal seslerin durumuna göre yumuşak damağın karar vermesiyle burundan da sesler çıkabilir. Ses oluşumu genelde Kaynak-Süzgeç (Source Filter) modeliyle ifade edilir.
Başlangıcı yaptık. Yazılarımın devamı gelecek 🙂 Bundan sonra konu anlatımının yanında, Matlab uygulamalarını da anlatacağım.

Bir yorum

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir