Sabtu, 04 Desember 2010


Proses Pembentukan dan Karakteristik Sinyal Ucapan
Oleh : Arry Akhmad Arman
Dosen dan Peneliti di Departemen Teknik Elektro ITB
email : aa@lss.ee.itb.ac.id, aa_arman@rocketmail.com

2.5.1 Sistem Pembentukan Ucapan
Ucapan manusia dihasilkan oleh suatu sistem produksi ucapan yang dibentuk oleh alatalat
ucap manusia. Proses tersebut dimulai dengan formulasi pesan dalam otak
pembicara. Pesan tersebut akan diubah menjadi perintah-perintah yang diberikan kepada
alat-alat ucap manusia, sehingga akhirnya dihasilkan ucapan yang sesuai dengan pesan
yang ingin diucapkan.
Gambar 2.11. Foto Sinar X Penampang Alat-Alat Ucap Manusia [Rab93]
Gambar 2.11 memperlihatkan foto sinar X penampang alat-alat ucap manusia. Vocal
tract pada gambar tersebut ditandai oleh garis putus-putus, dimulai dari vocal cords atau
glottis, dan berakhir pada mulut. Vocal tract terdiri dari pharynx (koneksi antara
esophagus dengan mulut) dan mulut. Panjang vocal tract pria pada umumnya sekitar 17
cm. Daerah pertemuan vocal tract ditentukan oleh lidah, bibir, rahang, dan bagian
belakang langit-langit; luasnya berkisar antara 20 cm2 sampai dengan mendekati nol.
Nasal tract mulai dari bagian belakang langit-langit dan berakhir pada nostrils. Pada
keadaan tertentu, suara nasal akan dikeluarkan melalui rongga ini.
Gambar 2.12 memperlihatkan model sistem produksi ucapan manusia yang
disederhanakan. Pembentukan ucapan dimulai dengan adanya hembusan udara yang
dihasilkan oleh paru-paru. Cara kerjanya mirip seperti piston atau pompa yang ditekan
untuk menghasilkan tekanan udara. Pada saat vocal cord berada dalam keadaan tegang,
aliran udara akan menyebabkan terjadinya vibrasi pada vocal cord dan menghasilkan
bunyi ucapan yang disebut voiced speech sound. Pada saat vocal cord berada dalam
keadaan lemas, aliran udara akan melalui daerah yang sempit pada vocal tract dan
menyebabkan terjadinya turbulensi, sehingga menghasilkan suara yang dikenal sebagai unvoiced sound.

Gambar 2.12. Model Sistem Produksi Ucapan Manusia [Rab93]
Ucapan dihasilkan sebagai rangkaian atau urutan komponen-komponen bunyi-bunyi
pembentuknya. Setiap komponen bunyi yang berbeda dibentuk oleh perbedaan posisi,
bentuk, serta ukuran dari alat-alat ucap manusia yang berubah-ubah selamat terjadinya
proses produksi ucapan.
2.5.2 Representasi Sinyal Ucapan
Sinyal ucapan merupakan sinyal yang berubah terhadap waktu dengan kecepatan
perubahan yang relatif lambat. Jika diamati pada selang waktu yang pendek (antara 5
sampai dengan 100 mili detik), karakteristiknya praktis bersifat tetap; tetapi jika diamati
pada selang waktu yang lebih panjang karakteristiknya terlihat berubah-ubah sesuai
dengan kalimat yang sedang diucapkan. Gambar 2.13 memperlihatkan contoh sinyal
ucapan dari suatu kalimat bahasa Inggris “It’s time” yang diucapkan oleh seorang pria.
Setiap baris pada gambar tersebut memperlihatkan potongan sinyal selama 100 mili detik,
sehingga seluruh gambar tersebut memperlihatkan sinyal ucapan sepanjang 500 mili
detik.

Gambar 2.13. Contoh Sinyal Ucapan “It’s time” [Rab93]
Ada berbagai cara untuk mengklasifikasikan bagian-bagian atau komponen sinyal
ucapan. Salah satu cara yang sederhana adalah dengan cara mengklasifikasikannya
menjadi tiga keadaan yang berbeda, yaitu (1) silence (S), keadaan pada saat tidak ada
ucapan yang diucapkan; (2) unvoiced (U), keadaan pada saat vocal cord tidak melakukan
vibrasi, sehingga suara yang dihasilkan bersifat tidak periodic atau bersifat random; (3)
voiced (V), keadaan pada saat terjadinya vibrasi pada vocal cord, sehingga menghasilkan
suara yang bersifat kuasi periodik.
Pada gambar 2.13 di atas sudah tercantum label-label S, U dan V yang dapat
mempermudah untuk mengamati perbedaan keadaan-keadaan tersebut. Baris pertama
serta awal baris kedua ditandai dengan S, artinya bagian tersebut merepresentasikan
keadaan diam dimana pembicara belum mengucapkan apapun. Amplituda kecil yang
tampak pada perioda tersebut merupakan noise latar belakang yang ikut terekam.
Suatu perioda singkat unvoiced (U) tampak mendahului vocal pertama dalam kata “It”.
Selanjutnya diikuti oleh daerah voiced (V) yang cukup panjang, merepresentasikan vokal
“i”. Berikutnya diikuti oleh daerah unvoiced (U) yang merepresentasikan daerah
pelemahan pengucapan “i”. Setelah itu diikuti oleh silence (S) yang merupakan bagian
dari fonem “t”, dan seterusnya.
Dari contoh tersebut jelas bahwa segmentasi ucapan menjadi S, U dan V tidak bersifat
eksak, artinya ada daerah-daerah yang tidak dapat dikategorikan dengan tegas ke dalam
salah satu dari tiga kategori tersebut. Salah satu penyebabnya adalah perubahan dari
keadaan-keadaan alat ucap manusia yang tidak bersifat diskrit dari satu keadaan ke
keadaan lainnya, sehingga bunyi transisi dari satu segmen ke segmen lainnya
menghasilkan bentuk yang tidak mudah ditentukan. Selain itu, ada segmen-segmen
ucapan yang mirip atau bahkan mengandung silence didalamnya.
Representasi sinyal dalam diagram waktu terhadap amplituda seperti gambar sebelumnya
seringkali tidak cukup untuk mendapatkan besaran-besaran kuantitatif yang efektif untuk
melakukan analisis dari suatu ucapan. Untuk melakukan analisis sinyal ucapan, lebih
sering digunakan representasi spektral menggunakan spektogram seperti terlihat pada
Gambar 2.14. Dengan menggunakan spektogram, dapat diidentifikasikan komponenkomponen
frekuensi dari suatu segmen ucapan. Segmen ucapan yang bentuknya mirip
pada domain waktu lebih mudah dibedakan pada spektogram dengan cara melihat
perbedaan komponen frekuensinya.
 
Gambar 2.14. Spektogram Pita lebar, Spektogram Pita Sempit dan Amplituda
Ucapan dari kalimat “Every Salt Breeze Comes From Sea” [Rab93]
Spektogram dibedakan menjadi spektogram pita lebar (wideband spectogram) dan
spektogram pita sempit (narrowband spectogram). Spektogram pita lebar adalah analisis
spectral pada suatu interval sepanjang 15 mili detik menggunakan filter dengan lebar pita
125 Hz serta analisis detail yang dilakukan setiap 1 mili detik. Spektogram pita sempit
adalah analisis spectral pada suatu interval sepanjang 50 mili detik menggunakan filter
dengan lebar pita 40 Hz serta analisis detail yang dilakukan setiap 1 mili detik.
Spektogram pita lebar dapat digunakan untuk melihat komponen-komponen frekuensi
utama dari suatu ucapan dengan jelas, seperti terlihat pada gambar paling atas dari
gambar 2.14 tersebut. Sebagian komponen frekuensi yang tidak dominan menjadi tidak
terlihat pada spektogram pita lebar. Untuk melihat komponen-komponen frekuensi yang
lebih rinci dilakukan menggunakan spektogram pita sempit, seperti yang terlihat pada
gambar kedua dari atas pada Gambar 2.14
Dalam kegiatan penelitian dan pengembangan sistem TTS, analisis spektral diantaranya
digunakan untuk melakukan segmentasi komponen-komponen sinyal ucapan, indetifikasi
komponen frekuensi segmen ucapan, serta analisis frekuensi dasar yang diperlukan untuk
analisis intonasi ucapan.
2.5.3 Karakteristik Sinyal Ucapan
Unit bunyi terkecil yang dapat dibedakan oleh manusia disebut fonem. Suatu ucapan kata
atau kalimat pada prinsipnya dapat dilihat sebagai urutan fonem. Himpunan fonem yang
ada dalam suatu bahasa berbeda-beda. Setiap fonem disimbolkan dengan suatu simbol
yang unik.
Saat ini ada beberapa standar cara penamaan fonem yang berlaku [Rab93], diantaranya
adalah standar (1) IPA (International Phonetic Alphabet)1, (2) ARPABET, serta (3)
SAMPA. Tabel 2.1 memperlihatkan daftar fonem bahasa Inggris-Amerika serta
representasinya dalam simbol-simbol IPA serta ARPABET.

Fonem-fonem Bahasa Inggris-Amerika dalam standar IPA dan ARPABET [Rab93]
1 Sistem abjad yang disusun oleh l’Association Phonetique Internationale pada 1897 atas prakarsa Otto
Jespersen, dengan tujuan supaya orang dapat belajar dan merekam lafal perbagai bahasa secara cermat dan
menghindari ketikakonsistenan; didasarkan pada huruf Latin dengan berbagai tambahan [Yus98]
Setiap fonem memiliki ciri-ciri yang berbeda. Gambar 2.15 memperlihatkan daftar fonem
serta pengkalisifikasiannya untuk bahasa Inggris-Amerika.



Gambar 2.15. Daftar dan Klasifikasi Fonem Bahasa Inggris-Amerika [Rab93]
2.5.3.1 Vokal
Sinyal ucapan vokal memiliki bentuk kuasi periodik seperti terlihat pada Gambar 2.16.
Setiap vokal mempunyai komponen frekuensi tertentu yang membedakan karakter satu
fonem vokal dengan fonem vokal lainnya, seperti terlihat pada spektogram Gambar 2.17.
Fonem vokal Bahasa Inggris mencakup fonem-fonem /IY/, /IH/, /EH/, /AE/, /AA/, /ER/,
/AH/, /AX/, /AO/, /UW/, /UH/, dan /OW/. Penelitian untuk mengidentifikasikan
karakteristik fonem-fonem vokal Bahasa Indonesia pernah dilakukan dan dipublikasikan
oleh Arry Akhmad Arman pada tahun 1999 [Arm99]
 

2.5.3.2 Diftong
Diftong pada prinsipnya adalah dua fonem vokal yang berurutan dan diucapkan tanpa
jeda. Fonem diftong Bahasa Inggris mencakup /AY/, /OY/, /AW/, dan /EY/. Karakteristik
diftong mirip dengan karakteristik fonem-fonem vokal pembentuknya disertasi bentuk
transisinya.


Bahasa Inggris [Rab93]
2.5.3.3 Konsonan Nasal
Konsonan nasal dibangkitkan dengan eksitasi glotal dan vocal tract mengerut total pada
beberapa titik tertentu sepanjang lintasan pengucapan. Bagian belakang langit-langit
merendah, sehingga udara mengalir melalui nasal tract dengan suara yang dipancarkan
melalui lubang hidung. Konsonan nasal Bahasa Inggris adalah /M/, /N/, dan /NX/.
Contoh bentuk sinyal ucapan serta spektogramnya dapat dilihat pada Gambar 2.19.
2.5.3.4 Konsonan Frikatif
Konsonen frikatif pada prinsipnya dapat dibedakan menjadi frikatif unvoiced serta
voiced. Fonem Bahasa Inggris yang termasuk frikatif unvoiced adalah /F/, /TH/, /S/, dan
/SH/, sedangkan yang termasuk frikatif voiced adalah /V/, /Z/, dan /ZH/. Frikatif
unvoiced dibentuk dengan suatu eksitasi terhadap vocal tract dengan suatu aliran udara
yang tetap, sehingga menyebabkan turbulensi di daerah yang mengkerut dalam vocal
tract. Frikatif voiced agak berbeda dengan frikatif unvoiced. Pada frikatif voiced, suara
dihasilkan oleh dua sumber eksitasi. Sumber eksitasi lainnya adalah glotis.

Bahasa Inggris [Rab93]
2.5.3.5 Konsonan Stop
Seperti konsonan frikatif, konsonen stop dapat dibedakan menjadi konsonan stop
unvoiced serta voiced. Konsonan stop memiliki bentuk yang berbeda dengan konsonankonsonan
lainnya. Konsonan ini memperlihatkan pola transient dan tidak kontinyu.
Konsonan ini dibentuk dengan cara memberikan tekanan pada kondisi pengerutan total di
bagian rongga mulut tertentu, dan segera diikuti dengan pelemasan. Untuk fonem /B/
pengerutan terjadi di bibir, untuk fonem /D/ pengerutan terjadi di belakang gigi depan,
sedangkan untuk fonem /G/ pengerutan terjadi di sekitar bagian belakang langit-langit.
Selama perioda total pengerutan terjadi, tidak ada suara yang dikeluarkan dari mulut,
sehingga fonem ini selalu mengandung bagian yang menyerupai silence. Fonem Bahasa
Inggris yang termasuk konsonan stop unvoiced adalah /P/, /T/, dan /K/, sedangkan yang
termasuk konsonan stop voiced adalah /B/, /D/, dan /G/.




Tidak ada komentar:

Posting Komentar