Computational Auditory Scene Analysis – CASA

Setelah pada posting sebelumnya, saya bercerita tentang metode pemisahan sinyal suara dengan Blind Source Separation atau BSS kali ini saya akan mengulas sedikit tentang metode pemisahan sinyal suara lainnya, yang lebih dekat ke bagaimana sistem pendengaran manusia bekerja memisahkan sumber – sumber suara. Metode itu dinamakan Computational Auditory Analysis atau disingkat CASA yang merupakan representasi komputasional dari ASA (Auditory Scene Analysis).
Skema Arsitektur CASA
ASA diperkenalkan oleh Al Bregman (psikolog) untuk menjelaskan bagaimana sistem pendengaran manusia bekerja, khususnya dalam memisahkan dan mengidentifikasi lokasi sumber bunyi yang di dengar oleh telinga berdasarkan teori dan eksperimen psikologi terhadap sistem pendengaran manusia. Bregman berpendapat bahwa saat manusia mendengar suara pada dasarnya dia melakukan proses auditory scene analysis. Proses ASA tersebut dibagi menjadi dua tahap, yakni tahap segmentasi dimana terjadi pengelompokan elemen-elemen akustik berdasarkan time-frequency dan tahap kedua adalah pengelompokan elemen-elemen tersebut berdasarkan sumber-sumber suara yang sama. Skema arsitektur sistem CASA dapat digambarkan pada gambar diatas.

CASA yang mewakili implementasi komputasi dari ASA-nya Bregman secara garis besar terdiri dari dua tahap. Proses pertama, campuran suara akustik terbagi atas beberapa element. Sebuah elemen mungkin menjadi elemen atomic dari auditory scene yang menggambarkan kejadian secara akustik. Kemudian, elemen-elemen ini membentuk grup yang anggotanya berasal dari sumber suara yang sama. Grup tersebut menghasilkan struktur perseptual yang disebut stream. Sebagai contoh, ketika ada orang berbicara, maka vocal tract-nya merupakan sumber suara sedangkan representasi mental dari orang yang berbicara merupakan stream.
Tahapan – tahapan proses CASA
Proses pengelompokan elemen suara (grouping) bisa terbagi lagi menjadi dua, yakni data-driven (primitive) atau schema-driven (knowledge-based). Pada pengelompokan berdasarkan data-driven, pendengar mengeksploitasi secara heuristik elemen-elemen suara untuk membentuk objek yang koheren. Sedangkan pada schema-driven, pendengar menggunakan pengetahuan yang telah dipelajari untuk membedakan jenis-jenis suara, apakah itu musik, suara manusia dan lain-lain. Gambar diatas merupakan blok diagram implementasi ASA model data-driven dalam sistem komputasi.
That’s a little bit about CASA, nantikan persamaan matematik dan implementasinya dalam Matlab di posting selanjutnya.

Leave a Reply | Tinggalkan Komentar..

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s