Pidato

Panduan Untuk Memahami Istilah Penting Tentang Speech AI

Panduan Untuk Memahami Istilah Penting Tentang Speech AI – Speech AI adalah teknologi yang memungkinkan Anda berinteraksi dengan sistem komputer menggunakan suara Anda. Apakah Anda memerintahkan asisten di mobil atau bekerja dengan perangkat pintar di rumah? Antarmuka suara dengan AI membantu Anda berinteraksi dengan perangkat tanpa harus mengetik atau menyentuh layar.

Panduan Untuk Memahami Istilah Penting Tentang Speech AI

speechresearch – Bidang ucapan AI relatif baru. Namun seiring berkembangnya komunikasi suara dan menyebar ke perangkat dan platform baru, penting bagi developer untuk mengikuti perkembangan terminologi.

Bagaimana hubungan sistem kecerdasan ucapan dengan AI, ML, dan DL?

AI Ucapan adalah penggunaan kecerdasan buatan dalam teknologi berbasis ucapan. Komponen utama sistem AI ucapan adalah:

Sistem Pengenalan Ucapan Otomatis (ASR), juga dikenal sebagai teks-ke-ucapan, ucapan-ke-ucapan, atau pengenalan ucapan. Ini mengubah suara ucapan menjadi teks.
Sistem Text to Speech (TTS), juga dikenal sebagai sintesis ucapan. Teknologi ini mengubah teks menjadi audio literal.
AI Ucapan adalah subbidang kecerdasan buatan percakapan, dengan teknologi yang sebagian besar berasal dari bidang DL dan ML.

 

Baca Juga : Potensi Kecerdasan Buatan Dalam Debat Dan Pidato Di Sekolah 

 

AI Percakapan

Kecerdasan Buatan Percakapan
Kecerdasan buatan percakapan adalah disiplin ilmu yang merancang sistem cerdas yang dapat berinteraksi dengan orang-orang menggunakan bahasa alami melalui percakapan. Contoh bisnisnya mencakup pembantu rumah tangga dan ruang obrolan (seperti chatbot yang mengiklankan asuransi atau agen perjalanan).

Ada banyak cara untuk melakukan percakapan, termasuk suara, teks, dan bahasa isyarat, namun jika masukan dan keluarannya adalah bahasa alami, maka hal tersebut akan dilakukan. harus memiliki sistem AI percakapan berbasis ucapan

Pengenalan ucapan otomatis
Pipa ASR berdasarkan pembelajaran mendalam berisi lima komponen utama (Gambar 3).

Diagram yang menunjukkan bagaimana masukan ucapan difilter pada berbagai tahap, seperti fitur ekstraksi. dan normalisasi teks terbalik untuk menghasilkan teks keluaran dalam ASR.
Gambar 3. Dalam pembelajaran mendalam berdasarkan ASR – Anatomi Alur
Pemisahan Fitur
Pemisahan Fitur mengelompokkan sinyal audio ke dalam blok dengan panjang tetap (yaitu langkah waktu) dan kemudian mengubah blok tersebut dari domain waktu ke domain frekuensi.

Model akustik
Model pembelajaran mesin ini (biasanya jaringan neural dalam multilapis) memprediksi probabilitas karakter pada setiap langkah waktu data audio.

 

Baca Juga : Aplikasi Otomotif Inovatif Di Era Digital

 

Dekoder dan model bahasa
Dekoder mengonversi matriks probabilitas yang diberikan oleh model akustik menjadi rangkaian karakter, yang kemudian membentuk kata dan kalimat.

Model bahasa (LM) dapat memberikan skor yang menunjukkan kemungkinan munculnya kalimat tersebut dalam korpus pembelajaran. Misalnya, LM yang dilatih korpus bahasa Inggris menilai “Kenali ucapan” lebih mungkin terjadi dibandingkan “Je suis un étudiant” sebagai sangat tidak mungkin (karena ini adalah kalimat bahasa Prancis).

Bersama. Dengan LM, decoder dapat mengoreksi “pendengaran” (“Saya makan daging sapi untuk makan siang”) lebih masuk akal (“Saya makan daging sapi panggang untuk makan siang”), misalnya LM memberikan skor yang lebih tinggi untuk kalimat terakhir dibandingkan dengan kalimat terakhir. satu kalimat sebelumnya model menambahkan tanda baca dan menggunakan huruf besar pada teks yang dihasilkan oleh decoder.

Model Normalisasi Teks Terbalik
Terakhir, aturan normalisasi teks terbalik (ITN) digunakan untuk mengubah teks literal menjadi bentuk tulisan yang diinginkan, seperti “jam 10″ menjadi ” 10.00″ atau “sepuluh dolar” menjadi “$10”.

Konsep ASR Lainnya
Tingkat Kesalahan Kata (WER) dan Tingkat Kesalahan Karakter (CER) adalah metrik kinerja yang umum untuk sistem ASR.
WER adalah jumlah kesalahan dibagi dengan jumlah kata yang diucapkan. Misalnya, jika ada lima kesalahan dalam total 50 kata yang diucapkan, WER-nya adalah 25%.

Memulai AI Speech
Speech AI telah menjadi hal yang lumrah dan menjadi bagian integral dalam kehidupan sehari-hari konsumen. Perusahaan mencari cara baru untuk menambah nilai pada produk mereka dengan memanfaatkan kemampuan kecerdasan ucapan.

Cara terbaik untuk mempelajari kecerdasan ucapan adalah dengan mengalaminya. Pelajari lebih lanjut cara membuat dan menerapkan pipeline AI ucapan real-time untuk aplikasi AI percakapan di eBuku Membuat Aplikasi AI Ucapan gratis (perlu registrasi).

 

Philip Powell

Recent Posts

Berikut 3 Pidato Yang Mengubah Dunia

Berikut 3 Pidato Yang Mengubah Dunia - Ini adalah tiga pidato yang mengubah dunia dengan cara…

3 days ago

11 Buku Terbaik Untuk Berbicara Di Depan Umum

11 Buku Terbaik Untuk Berbicara Di Depan Umum -  Pelajari tentang berbagai metode dan teknik…

6 days ago

Manfaat dan Pentingnya Public Speaking Bagi Karyawan

Manfaat dan Pentingnya Public Speaking Bagi Karyawan - Karyawan dengan kemampuan public speaking yang baik dapat…

1 week ago

Teknik Public Speaking Untuk Presentasi

Teknik Public Speaking Untuk Presentasi- Ketika berbicara di depan umum, Anda perlu memahami teknik yang akan…

2 weeks ago

Cara Meningkatkan Public Speaking

Cara Meningkatkan Public Speaking -  Public speaking selalu dibutuhkan di mana pun. Selama Anda bisa…

2 weeks ago

Cara Meningkatkan Keterampilan Berbicara Anda Menggunakan ChatGPT

Cara Meningkatkan Keterampilan Berbicara Anda Menggunakan ChatGPT - Berbicara di depan umum adalah keterampilan penting di…

2 weeks ago