Sebuah Catatan Kecil dalam berproses: Pengembangan Perangkat Lunak Pengenal Suara Obyek Berbasis Praproses WaveShrink dan Jaringan Syaraf Tiruan

Ketut Agustini[1]

Universitas Pendidikan Ganesha

Abstrak

Tujuan utama penelitian pada tahun pertama ini adalah mengembangkan perangkat lunak yang dapat digunakan untuk mengenali suatu obyek berdasarkan suara yang dikeluarkan/dihasilkan oleh obyek tersebut dengan menggunakan teknik praproses Waveshrink dan JST Multi Layer Perceptron sebagai suatu pengenal pola. Obyek yang digunakan adalah burung yang memiliki karakteristik suara unik. Hasil menunjukkan bahwa Waveshrink dapat digunakan dalam proses identifikasi pengenal obyek pada bagian pemrosesan awal (praproses) sinyal untuk mendapatkan informasi (ciri) sinyal tersebut sedangkan Jaringan Syaraf Tiruan Multi Layer Perceptron baik digunakan untuk pembentukan referensi obyek dan pencocokan pola serta Pengembangan perangkat lunak menggunakan graphical user interface (GUI) MATLAB sangat handal untuk pemrosesan sinyal dengan memanfaatkan wavelet toolbox, signal processing toolbox dan Neural network toolbox namun sangat sensitif terhadap perubahan. Selanjutnya pada tahun kedua akan dilakukan uji empiris secara terbatas di laboratorium dan uji empiris secara lebih luas di lapangan dengan menggunakan obyek-obyek yang ada di alam bebas untuk mengkaji tingkat akurasi dari perangkat lunak yang telah dikembangkan.

Kata-kata kunci : Perangkat Lunak, Waveshrink, Jaringan Syaraf Tiruan, Suara Burung.

Pendahuluan

Suara yang dikeluarkan suatu obyek misalnya suara burung, memiliki kualitas suara yang berbeda dan bersifat unik. Perkembangan teknologi memungkinkan dilakukannya proses suara menggunakan komputer, baik untuk analisis suara (speech analysis), maupun sintesis suara (speech syntesis). Untuk keperluan analisis, sinyal suara analog mula-mula diubah menjadi sinyal digital, sehingga dapat diproses menggunakan komputer. Pengubahan dilakukan dengan cara mencuplik (sampling) dan mengkuantisasi contoh (sampel) sinyal suara dengan panjang segmen tertentu menggunakan analog to digital conventer (ADC). Selanjutnya untuk sintesis, sinyal digital hasil pemrosesan diubah kembali menjadi sinyal analog menggunakan digital to analog converter (DAC).

Sinyal suara suatu obyek mempunyai tingkat variabilitas yang sangat tinggi. Suatu sinyal suara yang dikeluarkan oleh obyek yang berbeda-beda menghasilkan pola suara yang berbeda-beda pula. Salah satu cara yang paling handal dalam pengenalan pola adalah Jaringan Syaraf Tiruan (JST). JST mampu menyelesaikan persoalan rumit yang sulit atau bahkan tidak mungkin jika diselesaikan dengan menggunakan komputasi konvensional. Salah satu jenis JST yang mampu memberikan unjuk kerja yang bagus adalah JST dengan arsitektur Multi-Layer Perceptron (MLP) dan pembelajaran Backpropagation (Fu,1994)

Transformasi Wavelet merupakan sarana yang mulai populer untuk pemrosesan sinyal, seperti citra dan suara, dan transformasi ini belum banyak diaplikasikan untuk analisis suara, khususnya untuk identifikasi suara unik yang dikeluarkan suatu obyek. Dalam praktek, Transformasi Wavelet digunakan untuk ekstraksi ciri dalam sistem pengenalan suara karena mempunyai karakter khusus yang sesuai untuk analisis sinyal, termasuk sinyal suara. Transformasi wavelet sinyal suara menghasilkan resolusi waktu yang baik pada frekuensi tinggi dalam menentukan lokasi awal suara dan parameterisasi ciri suara durasi pendek serta mampu menganalisis sinyal diskontinu (non stationary) secara akurat (Krisnan,1994).

Salah satu hasil dalam teori wavelet yang banyak diaplikasikan pada model regresi nonparametrik adalah metode penyusutan wavelet –selanjutnya lebih dikenal dengan nama metode WaveShrink- yang dipelopori oleh Donoho dan Johnstone (1994,1995), Donoho et.al (1995). Menurut Donoho et.al (1995), keunggulan penggunaan WaveShrink dalam regresi nonparametrik adalah estimator fungsi yang diperoleh bebas dari karakter noise dan tetap mempertahankan ciri-ciri khas dari fungsi yang diestimasi. Sementara itu, pada metode lainnya, kedua hal tersebut sulit untuk dikombinasikan. Karakter inilah yang menjadikan metode WaveShrink belakangan ini mendapatkan perhatian yang lebih mendalam lagi.

Pengenalan suara merupakan bagian dari pengenalan pola (pattern recognition). Jika diberikan ciri yang menggambarkan sifat suatu obyek, sistem pengenalan pola dimaksudkan untuk mengenali obyek berdasarkan pada pengetahuan yang ada sebelumnya tentang obyek tersebut. Sistem pengenalan pola biasanya terdiri dari tiga tingkat, yaitu pelatihan, pengetesan, dan penerapan.(Agustini,2006)

Pada tahap pelatihan, sejumlah parameter model diperkirakan, sehingga model dapat belajar menghubungkan ciri dengan label obyek. Salah satu kriteria pelatihan adalah memperkecil seluruh perkiraan kesalahan. Pada tahap pengetesan, parameter model disetel menggunakan sejumlah data sah-silang (cross-validation) untuk memperoleh performansi sistem yang baik. Data sah-silang biasanya terdiri atas sejumlah ciri dan label yang berbeda dari data pelatihan. Pengenalan dilakukan dengan menjalankan tahap penerapan, dengan cara melewati ciri dengan label yang tidak diketahui ke dalam sistem, dan memberikan hasil label pada keluarannya. Sebagaimana sistem pengenalan pola pada umumnya, sistem pengenalan suara terdiri atas dua modul yang terpisah, yaitu pengolah ujung depan (front-end) atau pengekstraksi ciri (feature extractor) dan pengklasifikasi (classifier).

Pengolah ujung depan bertanggung jawab mengekstraksi ciri data digital suara yang dimasukkan. Bagian ini menghasilkan aliran vektor yang mewakili sifat spectral suara. Pengklasifikasi mengambil ciri yang telah diolah oleh peng-ekstraksi ciri. Ciri tersebut kemudian dicocokkan dengan modelnya atau dihitung kemungkinan statistiknya, tergantung pada algoritma yang dibuat. Sebelum digunakan, pengklasifikasi harus dilatih, sehingga dapat memetakan ciri suatu kelas tertentu ke labelnya.

Secara umum sistem Identifikasi suara pengenal obyek mempunyai tahapan sebagai berikut dengan diagram bloknya diilustrasikan pada Gambar 1 (Campbell,1997) :

a) Akuisisi data suara digital, yaitu proses untuk mengakuisisi suara obyek (dalam sinyal analog) dan mengubahnya menjadi sinyal digital. Sinyal digital yang terbentuk berupa suatu vektor yang merepresentasikan suara obyek.

b) Frame blocking dan windowing, yaitu frame blocking merupakan proses segmentasi sinyal suara digital yang telah diakuisisi ke dalam durasi tertentu, sedangkan frame windowing adalah proses yang bertujuan untuk meminimalkan diskontinuitas (non-stationary) sinyal pada bagian awal dan akhir sinyal suara.

c) Ekstraksi Ciri (Feature extraction), yaitu mengekstrak data hasil akuisisi sehingga dihasilkan data yang berdimensi lebih kecil tanpa merubah karakteristik sinyal suara.

d) Pembentukan model referensi, merupakan tahapan pembelajaran dan akan membentuk suatu model referensi agar sistem dapat mengenali suara obyek. Tahap ini memerlukan data berupa vektor-vektor ciri hasil dari ekstraksi ciri yang mencakup seluruh obyek. Model referensi yang terbentuk akan digunakan dalam pencocokan pola. Pembentukan model referensi suara obyek merupakan tahapan khusus yang dilakukan pada waktu awal sebelum sistem siap digunakan. Tahap ini hanya dilakukan sekali dan setelah dilakukan maka sistem siap untuk digunakan.

e) Pencocokan pola (pattern matching), yaitu proses pencocokan pola dengan menerima data yang telah diolah oleh ekstrasi ciri sebagai data input. Proses tersebut akan mencocokan pola data masukan (input) dengan model referensi dan akan memberikan hasil berupa besarnya skor kesesuaian data input dengan pola-pola referensi yang ada.

f) Pembuatan keputusan, Pembuatan keputusan akan menerima skor hasil pencocokan pola. Pada sistem identifikasi, pembuatan keputusan akan menentukan identitas obyek

Gambar 1 Tahapan Identifikasi suara pengenal obyek

Salah satu hasil dalam teori wavelet yang banyak diaplikasikan untuk mengestimasi fungsi f pada model regresi nonparametrik pada persamaan (1) di atas dalam upaya menemukan estimator yang memiliki tingkat akurasi tinggi adalah metode penyusutan wavelet – selanjutnya estimatornya dikenal dengan nama WaveShrink– yang dipelopori oleh Donoho and Johnstone (1994,1995), Donoho (1995), Donoho et.al (1995). Misalkan

w = (

, … ,

) ^T

menyatakan koefisien-koefisien wavelet empiris yang diperoleh melalui transformasi w = H y. Estimator WaveShrink diperoleh melalui langkah-langkah berikut.

(1) Menghitung transformasi wavelet w = H y melalui Transformasi Wavelet Diskrit (TWD),

(2) Gunakan fungsi penyusut

(

) terhadap koefisien-koefisien

untuk memperoleh

melalui

(3)

diperoleh dengan menginversikan

melalui TWD Invers

= H ^T

dengan

= (

, … ,

) ^T, Sony Sunaryo (2005).

Menurut Donoho et.al (1995), keunggulan penggunaan WaveShrink dalam regresi nonparametrik adalah estimator fungsi yang diperoleh bebas dari karakter noise dan tetap mempertahankan ciri-ciri khas dari fungsi yang diestimasi. Sementara itu, pada estimator lainnya, kedua hal tersebut sulit untuk dikombinasikan. Karakter inilah yang menjadikan metode WaveShrink belakangan ini mendapatkan perhatian yang lebih mendalam lagi. Melalui suatu simulasi, Donoho and Johnstone (1994,1995) telah dapat menunjukkan bahwa ciri khas fungsi yang tetap dapat dipertahankan oleh WaveShrink misalnya kekontinuan sepotong-sepotong, bentuk-bentuk yang tajam, maupun titik perubahan atau kediskontinuan fungsi.

Terkait dengan aspek pereduksian noise pada model regresi nonparametrik (1), pada Waveshrink perlu dipilih nilai ambang l yang akan digunakan pada suatu skema thresholding melalui fungsi penyusut

(

). Skema thresholding inilah yang nantinya dapat digunakan untuk mereduksi noise secara optimal sehingga estimator tersebut dapat memberikan tingkat akurasi yang memadai. Pemilihan skema thresholding beserta nilai ambangnya pada estimator Waveshrink menjadi aspek yang sangat penting karena menurut Fernández and Olmeda (2000), ternyata yang sangat mendominasi tingkat akurasi estimator Waveshrink dalam mengestimasi suatu fungsi regresi nonparametrik adalah bagaimana noise itu direduksi secara optimal melalui suatu skema thresholding yang digunakan serta nilai ambang yang dipilih.

Penelitian Pendahuluan yang Telah Dilakukan

Peneliti telah berhasil mengembangkan prototipe sistem pengenal suara yang khusus diaplikasikan pada beberapa orang yang harus mengucapkan kalimat tertentu. Prototipe tersebut telah dibuat dalam program antar muka yang dibangun menggunakan graphical user interface (GUI) MATLAB versi 7.0 dengan memanfaatkan wavelet toolbox, signal processing toolbox dan Neural network toolbox . Berdasarkan uji secara empiris diperoleh hasil bahwa tingkat akurasi dari perangkat yang dikembangkan memiliki tingkat akurasi sebesar 86% dengan menggunakan wavelet Daubechies sebagai basis waveletnya (Agustini, 2006).

Hasil penelitian yang terkait dengan pemanfaatan metode WaveShrink dalam analisis suara belum banyak bisa ditemukan. Walaupun demikian, beberapa hasil penelitian yang terkait dengan pemanfaatan Waveshrink dalam estimasi fungsi dapat digunakan sebagai suatu acuan teoritis karena pada prinsipnya pada analisis suara sebenarnya proses pengerjaannya melalui suatu analisis fungsi.

Aplikasi Waveshrink khususnya tentang penggunaan skema thresholding fungsi penyusut beserta nilai ambangnya telah banyak dilakukan dan dikembangkan. Misalnya, Donoho and Johnstone (1994,1995), Donoho (1995), Donoho et.al (1995). Nason (1995) telah mengembangkan metode WaveShrink dengan menggunakan Cross-validasi. Wang (1996), Johnstone and Silverman (1997) telah mengembangkan metode WaveShrink pada kasus

tak iid dan

punya suatu struktur korelasi tertentu. Wang (1997) menggunakan wavelet shrinkage untuk mengestimasi fungsi fraktal beserta dimensinya. Bruce and Gao (1996) menggunakan basis wavelet s8, fungsi penyusut lunak dan fungsi penyusut keras dengan menggunakan empat model fungsi (fungsi Doppler, Heavisine, Blocks dan Bumps) dalam mempelajari perilaku WaveShrink yang difokuskan pada variansi dan biasnya.

Wisna Ariawan dan Subanar (1999) menggunakan basis wavelet s8, empat model fungsi, fungsi penyusut keras dan lunak, nilai ambang universal dan minimax untuk mengetahui akurasi WaveShrink melalui simulasi. Hasil yang diperoleh dari penelitian tersebut adalah pada setiap ukuran sampel berhingga, nilai resiko WaveShrink yang menggunakan fungsi penyusut keras lebih kecil dibandingkan dengan nilai WaveShrink yang menggunakan fungsi penyusut lunak pada berbagai nilai ambang yang digunakan.

Wisna Ariawan, dkk. (2000) dalam mempelajari akurasi WaveShrink menggunakan enam model fungsi (fungsi Doppler, Heavisine, Blocks, Bumps, Cusp dan Jumps), tiga jenis basis wavelet (Haar, d4 dan s8) serta fungsi penyusut keras dan fungsi penyusut lunak. Dari hasil penelitiannya diperoleh bahwa pada berbagai kombinasi nilai ambang yang digunakan, basis Haar lebih cocok digunakan dalam mengestimasi fungsi-fungsi yang konstan sepotong-sepotong atau memiliki banyak titik kediskontinuan baik dengan menggunakan fungsi penyusut keras maupun fungsi penyusut lunak.

Wisna Ariawan, dkk. (2001) telah mencoba mengaplikasikan WaveShrink untuk mendeteksi adanya titik perubahan pada suatu kurva dan mengestimasi laju pertumbuhan populasi kera pada beberapa daerah tujuan wisata di Bali. Hasil kajiannya menunjukkan bahwa WaveShrink yang menggunakan fungsi penyusut keras dan fungsi penyusut lunak beserta nilai ambang minimax dan universal dapat digunakan untuk mendeteksi adanya titik perubahan pada suatu kurva. Wisna Ariawan, (2002) juga telah mencoba mengaplikasikan WaveShrink dengan menggunakan fungsi penyusut keras dan fungsi penyusut lunak untuk mengestimasi kurva pertumbuhan jalak putih Bali. Dari hasil penelitiannya diperoleh bahwa WaveShrink dengan menggunakan fungsi penyusut keras dan fungsi penyusut lunak baik menggunakan nilai ambang minimax maupun universal dapat digunakan untuk memodelkan kurva pertumbuhan jalak putih Bali.

Wisna Ariawan, (2005) telah mencoba menggunakan nilai ambang minimax dan universal pada skema thresholding baru dengan menyesuaikan skema thresholding fungsi penyusut lunak pada WaveShrink. Dari hasil penelitiannya diperoleh bahwa skema thresholding tersebut secara empiris dapat memberikan tingkat akurasi lebih baik dibandingkan dengan skema thresholding yang telah ada yakni fungsi penyusut keras dan fungsi penyusut lunak. Wisna Ariawan dan Sariyasa (2006) menjelaskan bahwa salah satu faktor yang mempengaruhi tingkat akurasi Waveshrink adalah nilai ambang/parameter yang digunakan. Penelitian ini belum mengkaji masalah pemilihan nilai parameter optimal yang dapat memberikan tingkat akurasi yang terbaik. Dari penelitian-penelitian di atas dapat dilihat bahwa tingkat akurasi Waveshrink dalam pengestimasian sangatlah bisa diandalkan.

Metode

Metode yang digunakan pada penelitian ini dapat dilihat pada gambar 2. Berdasarkan prototipe yang telah dikembangkan oleh tim peneliti sebelumnya, serta berdasarkan cara pengembangan pengestimasian fungsi/signal yang telah pula dilakukan tim peneliti nantinya prototipe yang ada akan dikembangkan sehingga tidak hanya bisa diaplikasikan pada suara manusia saja tetapi bisa diaplikasikan pada obyek tertentu yang memiliki suara unik.

Oleh karena itu, pada tahun pertama dilakukan kajian teoritis untuk mengkaji aspek-aspek teoritis perangkat lunak yang dikembangkan. Berdasarkan hasil kajian ini diformulasikan bentuk perangkat lunak awal yang dimaksud. Pada tahun kedua akan dilakukan uji empiris secara terbatas di laboratorium dan uji empiris secara lebih luas di lapangan dengan menggunakan obyek-obyek yang ada di alam bebas untuk mengkaji tingkat akurasi dari perangkat lunak yang telah dikembangkan. Melalui tahapan di atas diharapkan pada akhir tahun kedua dapat dihasilkan produk perangkat lunak pengenal obyek yang memiliki tingkat akurasi tinggi. Tingkat akurasi yang dimaksud adalah ketepatan perangkat lunak yang dikembangkan dalam mengidentifikasi suatu obyek dengan tepat hanya berdasarkan suara unik yang dikeluarkan oleh obyek tersebut. Tingkat akurasi minimal yang diharapkan adalah 90%.

Hasil

Aspek-aspek kajian teoritis perangkat lunak yang dikembangkan pada tahun pertama penelitian ini diawali dengan perancangan model sistem yang dibangun untuk memudahkan pengguna di dalam pengolahan data dan melihat hasil yang diperoleh (untuk tahun kedua penelitian) dari model sistem tersebut. Sistem yang akan dikembangkan disajikan pada Gambar 3. Sistem tersebut terbagi ke dalam dua modul yaitu modul perekaman dan modul Identifikasi yang terdiri dari training (pelatihan), testing (pengujian) suara obyek yang tersaji dalam satu interface. Pada modul perekaman didalamnya terdapat suatu tahapan praproses (preprocessing) dan data hasil perekaman yang dihasilkan seluruhnya adalah 60 data suara.

Gambar 3. Perancangan model Sistem.

Praproses tujuannya adalah untuk menghasilkan vektor-vektor ciri dengan memodifikasi sinyal hasil perekaman sehingga lebih memudahkan di dalam menganalisis ekstraksi ciri. Pada tahap ini, seperti pada Gambar 4 terbagi ke dalam empat subproses, yaitu

a) Perekaman suara dilakukan menggunakan mikrofon melalui modul perekaman yang telah dibuat sebelumnya.

Gambar 4. Bagan alir tahap praproses

Data audio yang diperoleh akan diubah menjadi bentuk digital (vektor) menggunakan proses sampling dengan perangkat lunak MATLAB 7.0.1. Perekaman dilakukan selama 3 detik (1 detik sama dengan 1000 ms) dengan frekuensi sampling 20kHz (dalam 1 detik diperoleh data sebanyak 22.050 data, lebih jelasnya dapat dilihat pada Tabel 1 Interval sample rate).

Tabel 1. Interval Sample rate

Dalam 1 detik	8000 s/d 8080 sampel rate =	8000 data
	8081 s/d 11135 sampel rate =	11025 data
	11136 s/d 22270 sampel rate =	22050 data
	22271 s/d 44100 sampel rate =	44100 data

b) Akuisisi data dilakukan pada beberapa tahap. Pada tahap pertama dilakukan akuisisi data untuk pembelajaran sistem. Pada tahap kedua akuisisi data dilakukan untuk menguji sistem identifikasi.

c) Perekaman suara mengambil 6 responden suara burung dengan merekam sebanyak sepuluh pengulangan sehingga menghasilkan 60 (enam puluh) data suara rekaman yang akan digunakan pada tahap pertama dan kedua.

d) Dalam penelitian ini menggunakan frame (n) dengan lebar waktu 30 ms dimana tiap frame menyimpan data sebanyak 661 (hasil pembulatan dari 661,5) sampel dengan overlap (m) 50%, sehingga diperoleh jumlah frame dengan waktu perekaman selama 1 detik sebesar 65 frame (dengan tiap frame mengandung data sebanyak 22050 data). Dengan diperolehnya dalam 1 detik 65 frame maka perekaman yang dilakukan selama 3 detik menghasilkan 195 frame.

e). Proses ektraksi ciri yang menjadi fokus pada penelitian ini, adalah data yang telah terbagi ke dalam frame-frame dan telah dikalikan dengan Hamming window. Ekstraksi ciri menggunakan waveshrink Symlet orde 8 (S₈) yang akan menghasilkan koefisien-koefisien (koefisien detail dan perkiraan) yang diperoleh dari hasil dekomposisi pada level 10 dan 15. Pada penelitian ini koefisien yang diambil sebagai masukan ke proses selanjutnya adalah koefisien yang dihasilkan dari frekuensi rendah yaitu koefisien perkiraan (approximation) karena bagian penting dari suatu sinyal terletak pada frekuensi tersebut, yang mampu memberikan identitas dari suatu sinyal.

Pembentukan model referensi suara obyek dan pencocokan pola dilakukan menggunakan JST Propagasi Balik. Arsitektur yang digunakan untuk JST Propagasi Balik adalah Multi Layer Perceptron, dengan satu lapisan tersembunyi, Jaringan Syaraf Tiruan terlebih dahulu dilatih untuk membentuk model referensi pembicara. Setelah tahap pembelajaran selesai dilakukan, JST dapat digunakan untuk melakukan pencocokan pola.

Jumlah neuron pada lapisan output sama dengan jumlah kelas yang akan diklasifikasi (banyak obyek), sedangkan jumlah neuron pada lapisan tersembunyi jumlahnya bervariasi.

Untuk inisialisasi bobot awal digunakan inisialisasi secara random dan fungsi aktivasi sigmoid biner. Penggunaan sigmoid biner sesuai untuk pengenalan dengan selang berada antara 0 dan 1. Dilihat secara matematis, sigmoid biner jauh lebih cepat dibandingkan dengan sigmoid bipolar karena operasi yang dilakukan jauh lebih sedikit. Target menggunakan nilai 1 pada neuron output untuk pembicara yang bersesuaian dan 0 untuk sebaliknya. Toleransi galat ditentukan pada 0.00001 dan laju pembelajaran yang digunakan adalah 0,01 dan 0,3. Dalam penelitian ini akan dilihat kombinasi toleransi galat dan laju pembelajaran yang optimal. Jumlah epoch maksimal yang ditetapkan adalah 5000. Hal ini diperlukan sebagai kriteria henti jaringan di samping toleransi galat untuk membatasi waktu yang disediakan bagi jaringan dalam melakukan pembelajaran.

Dalam menentukan jumlah neuron tersembunyi, dilakukan pada laju pembelajaran 0,01 dan 0,3 dan toleransi galat 0,00001. Jumlah awal neuron tersembunyi dibuat sama dengan 10. Toleransi galat yang cukup kecil diharapkan akan memberikan hasil yang cukup baik. Jika ternyata JST gagal mencapai kekonvergenan maka akan dilakukan penambahan jumlah neuron tersembunyi sampai kekonvergenan tercapai. Jika JST berhasil mencapai kekonvergenan maka akan dilihat generalisasinya (yaitu perbandingan pola yang dikenal dengan keseluruhan pola yang ada) dan dilakukan penambahan neuron. Jika ternyata generalisasi yang dihasilkan tidak jauh berbeda dengan generalisasi sebelumnya maka JST telah sampai pada batas optimal. Penambahan kembali neuron tersembunyi tidak akan menambah generalisasi dan hanya akan menambah cost untuk melakukan perhitungan.

Pada proses identifikasi, pembuatan keputusan dilakukan dengan metode nilai maksimum. Jika neuron output ke-n merupakan neuron dengan nilai maksimum maka data yang masuk dikenali sebagai obyek ke-n. Sebagai contoh jika neuron pertama pada lapisan output bernilai 1 dan yang lainnya 0 maka input diidentifikasi sebagai obyek pertama. Fungsi yang digunakan untuk metode nilai maksimum didalam syntax matlab adalah Competitive Transfer Function (COMPET). Syntax matlab dari penggunaan fungsi tersebut, dimana ytesting merupakan hasil simulasi dengan jaringan, numkenal_test adalah jumlah pola yang dikenal, dan jum_pola adalah jumlah pola keseluruhan, adalah sebagai berikut,

hasil_test=compet(ytesting);

numkenal_test=recognize(hasil_test);

generalisasi_test=numkenal_test/jum_pola*100

Data teknis secara ringkas pada penelitian ini disajikan pada Tabel 2 sampai dengan Tabel 4. Tabel 2 menunjukkan struktur sinyal dan ekstraksi ciri yang digunakan pada percobaan. Tabel 3 untuk struktur data JST yang digunakan pada percobaan dan Tabel 4 contoh definisi target untuk fungsi aktivasi sigmoid biner dengan enam obyek.

Tabel 2. Struktur sinyal dan ekstraksi ciri yang digunakan pada percobaan

Karakteristik	Spesifikasi
Sampling rate	20 KHz atau 22050 data
Durasi perekaman	3 detik
Panjang frame (n)	661 sampel
Overlap (m)	330 sampel (50%)
Frame Windowing	Hamming window
Ekstraksi ciri	Waveshrink S₈ (Symlet orde 8)
Level dekomposisi	10 dan 15

Level dekomposisi merupakan proses perulangan downsampling yang dilakukan pada tehnik analisis Multiresolusi untuk mendapatkan detail sinyal.

Tabel 3. Struktur JST yang digunakan pada percobaan

Karakteristik	Spesifikasi
Arsitektur	1 lapisan tersembunyi
Neuron input	Hasil ekstraksi ciri
Neuron tersembunyi	dimulai dari 10 s/d 100
Neuron output	Banyak obyek
Fungsi aktivasi	Sigmoid biner
Toleransi galat	0,00001
Laju pembelajaran	0,01 dan 0,3
Jumlah epoch	Maks 5000
Sampel pelatihan tiap obyek	5 sampel suara tiap obyek
Sampel pengujian tiap obyek	5 sampel suara tiap obyek

Sampel pelatihan dan pengujian dipilih berdasarkan index, bertujuan untuk mendapatkan hasil tingkat pengenalan yang lebih akurat.

Tabel 4. Definisi target untuk fungsi sigmoid biner pada 6 obyek

No	Target										Representasi suara
1	1	0	0	0	0	0	0	0	0	0	obyek ke-1
2	0	1	0	0	0	0	0	0	0	0	obyek ke-2
3	0	0	1	0	0	0	0	0	0	0	obyek ke-3
4	0	0	0	1	0	0	0	0	0	0	obyek ke-4
5	0	0	0	0	1	0	0	0	0	0	obyek ke-5
6	0	0	0	0	0	1	0	0	0	0	obyek ke-6

Pembahasan

Untuk memudahkan penggunaan aplikasi oleh pemakai maka dibuat program antar muka yang dibangun menggunakan graphical user interface (GUI) MATLAB, pada Gambar 5, dengan memanfaatkan wavelet toolbox, signal processing toolbox dan Neural network toolbox . Untuk menjalankan aplikasi ini harus tersedia program MATLAB versi 7.0.

Dalam menjalankan perangkat lunak ini, data hasil dari perekaman yang telah tersimpan di dalam database sistem akan dibangkitkan (loading) terlebih dahulu sebelum melakukan training (pelatihan). Pada saat selesai melakukan loading akan terlihat pesan pada kotak status ”loading selesai”. Selanjutnya kotak pada hidden neuron siap diisi dengan jumlah neuron dari 10 s/d 100 (sesuai dengan tabel 3) secara bergantian (metode trial and error) dan klik kotak dialog train. Proses akan berlangsung beberapa saat dan hasil akan ditunjukkan.

Gambar 5. User interface Perangkat Lunak Pengenal Obyek

Pada saat melakukan train, akan ditampilkan grafik kinerja terkait pelatihan yang berhasil dicapai berdasarkan jumlah epoch-nya seperti pada gambar 6.

Gambar 6. Grafik kinerja pelatihan yang berhasil dicapai

Langkah selanjutnya adalah melakukan pengujian (testing) dengan melakukan pencocokan pola (pattern matching) terhadap data yang telah melalui pelatihan dengan data yang telah disiapkan untuk pengujian. Sistem akan memberikan hasil seperti pada gambar 7. Generalisasi yang merupakan perbandingan pola yang dikenal dengan keseluruhan pola yang ada, akan menunjukkan tingkat akurasi yang dicapai.

Pada bagian Identifikasi, akan dilakukan verifikasi data dengan membuka data yang ada pada database (library) yang selanjutnya diidentifikasi berdasarkan hasil training dan testing yang telah dilakukan sebelumnya (gambar 7).

Gambar 7. Hasil training, testing dan verifikasi suara burung

Simpulan

Dari Pengembangan perangkat lunak pengenal obyek berbasis waveshrink dan Jaringan Syaraf Tiruan dapat disimpulkan bahwa Waveshrink dapat digunakan dalam proses identifikasi pengenal obyek pada bagian pemrosesan awal (praproses) sinyal untuk mendapatkan informasi (ciri) sinyal tersebut, sedangkan Jaringan Syaraf Tiruan propagasi balik baik digunakan untuk pembentukan referensi obyek dan pencocokan pola. Pada Pengembangan perangkat lunak menggunakan graphical user interface (GUI) MATLAB sangat handal untuk pemrosesan sinyal dengan memanfaatkan wavelet toolbox, signal processing toolbox dan Neural network toolbox namun kelemahannya adalah sangat sensitif terhadap perubahan yaitu pada handle control GUI-nya.

Penelitian ini masih dapat dikembangkan lebih jauh dan lebih dalam lagi yang nantinya diharapkan dapat terbentuk suatu sistem yang lebih baik. Saran-saran untuk penelitian lebih lanjut antara lain, bahwa perlu ada pengkajian lebih lanjut mengenai Waveshrink, untuk mendapatkan tingkat akurasi yang lebih tinggi, dan perlu penggunaan JST yang bersifat incremental learning, sehingga JST dapat mengenali pola baru dengan lebih baik.

DAFTAR PUSTAKA

Agustini, Ketut. 2006. Perbandingan Metode Transformasi Wavelet sebagai Praproses pada Sistem Identifikasi Pembicara. Tesis. Bogor : IPB.

Agustini, Ketut. 2006. Biometrik suara dengan jaringan syaraf tiruan dan transformasi wavelet diskret, Laporan Penelitian DIPA. Undiksha Singaraja

Bruce. A.G. and Gao. Hong-Ye. 1996. Understanding WaveShrink : Variance and Bias Estimation. Biometrika. vol. 83. no. 4. pp. 727-745.

Campbell, J.P., 1997. Speaker Recognition : A Tutorial. Proc. IEEE, Vol 85 No. 9. pp. 1437-1462.

Donoho. 1995. De-Noising by Soft-Thresholding. IEEE Trans. Inform. Theory. Vol. 41. No. 3. pp. 613- 627.

Donoho. Johnstone. Kerkyacharian and Picard. 1995. Wavelet Shrinkage : Asymtopia ?. J. R. Statist. Soc. B. vol. 57. no. 2. pp. 301-337.

Donoho and Johnstone. 1994. Ideal Spatial Adaptation via Wavelet Shrinkage. Biometrika. vol. 81. no. 3. pp. 425-455.

______ . 1995. Adapting to Unknown Smoothness via Wavelet Shrinkage. J. Am. Statist. Assoc.. vol. 90. no. 432. pp. 1200-1224.

Johnstone and Silverman. 1977. Wavelet Threshold Estimator for Data with Correlated Noise. J. R. Statist. Soc. B. vol. 59. no. 2. pp. 319-351.

Nason. G. P. 1996. Wavelet Shrinkage using Cross-Validation. J. R. Statist. Soc. B. vol. 58. no. 2. pp. 463-479.

Ogden. R.T. 1977. Essential Wavelets for Statistical Applications and Data Analysis. Boston : Birkhauser.

Proakis, J.G and Manolakis, D.G. 1997. Pemrosesan Sinyal Digital, Edisi Bahasa Indonesia Jilid I. Jakarta : Prenhallindo.

Sunaryo. Sony. 2005. Transformasi Wavelet Diskrit dalam Regresi Nonparametrik. Jurnal Statistika Inferensi. vol. 1. no. 1 Jaruari 2005. hlm. 24 -32.

Wang. Y. 1997. Function Estimation via Wavelet Shrinkage for Long-Memory Data. The Annals of Statistics. vol. 24. no. 2. pp. 466-484.

Wisna Ariawan. I Putu dan Subanar. 1999. WaveShrink dan Permasalahannya. Teknosains. Vol. 12. Nomor 2. Mei 1999. hlm. 179-190. Yogyakarta : PPS UGM.

Wisna Ariawan. I Putu. dkk. 2000. Akurasi WaveShrink dalam mengestimasi Fungsi Regresi (Suatu Kajian Berdasarkan Penggunaan Basis Haar. Basis d4. dan Model Fungsi dalam Simulasi Komputer). Laporan Penelitian. Singaraja : P.S.P. Matematika STKIP Singaraja.

_______ . 2001. WaveShrink : Akurasi dan Aplikasinya dalam Mengestimasi Laju Pertumbuhan Populasi Kera di Daerah Tujuan Wisata Bali. Laporan Penelitian Proyek URGE. Singaraja : P.S.P. Matematika STKIP Singaraja.

Wisna Ariawan. I Putu. 2001. Tingkat Akurasi WaveShrink dalam Mengestimasi Fungsi Tak Homogen. Laporan Penelitian. Singaraja : P.S.P. Matematika STKIP Singaraja.

_______ . 2001. Akurasi WaveShrink Berdasarkan Support Length Basis Wavelet yang Digunakan. Laporan Penelitian. Singaraja : P.S.P. Matematika STKIP Singaraja.

_______ . 2002. Kajian Teoritis WaveShrink dan Aplikasinya dalam Mengestimasi Kurva Pertumbuhan Populasi Jalak Putih Bali. Laporan Penelitian. Singaraja : P.S.P. Matematika STKIP Singaraja.

_______ . 2005. Efek Penggunaan Fungsi Penyusut Semisoft pada Estimator WaveShrink terhadap Tingkat Akurasinya. Laporan Penelitian (tidak diterbitkan). Singaraja : Jurusan Pendidikan Matematika IKIP Negeri Singaraja.

Wisna Ariawan dan Sariyasa. 2006. Kajian Tingkat Akurasi dari WaveShrink. Laporan Penelitian (tidak diterbitkan). Singaraja : Jurusan Pendidikan Matematika Universitas Pendidikan Ganesha.

Gambar 2. Rancangan Penelitian

[1] Jurusan Pendidikan Teknik Informatika,FTK

31 March 2015

Pengembangan Perangkat Lunak Pengenal Suara Obyek Berbasis Praproses WaveShrink dan Jaringan Syaraf Tiruan

No comments:

Post a Comment

About Me

Catatan kecilku