Pidato

Panduan Untuk Memahami Istilah Penting Tentang Speech AI

Panduan Untuk Memahami Istilah Penting Tentang Speech AI – Speech AI adalah teknologi yang memungkinkan Anda berinteraksi dengan sistem komputer menggunakan suara Anda. Apakah Anda memerintahkan asisten di mobil atau bekerja dengan perangkat pintar di rumah? Antarmuka suara dengan AI membantu Anda berinteraksi dengan perangkat tanpa harus mengetik atau menyentuh layar.

Panduan Untuk Memahami Istilah Penting Tentang Speech AI

speechresearch – Bidang ucapan AI relatif baru. Namun seiring berkembangnya komunikasi suara dan menyebar ke perangkat dan platform baru, penting bagi developer untuk mengikuti perkembangan terminologi.

Bagaimana hubungan sistem kecerdasan ucapan dengan AI, ML, dan DL?

AI Ucapan adalah penggunaan kecerdasan buatan dalam teknologi berbasis ucapan. Komponen utama sistem AI ucapan adalah:

Sistem Pengenalan Ucapan Otomatis (ASR), juga dikenal sebagai teks-ke-ucapan, ucapan-ke-ucapan, atau pengenalan ucapan. Ini mengubah suara ucapan menjadi teks.
Sistem Text to Speech (TTS), juga dikenal sebagai sintesis ucapan. Teknologi ini mengubah teks menjadi audio literal.
AI Ucapan adalah subbidang kecerdasan buatan percakapan, dengan teknologi yang sebagian besar berasal dari bidang DL dan ML.

Baca Juga : Potensi Kecerdasan Buatan Dalam Debat Dan Pidato Di Sekolah

AI Percakapan

Kecerdasan Buatan Percakapan
Kecerdasan buatan percakapan adalah disiplin ilmu yang merancang sistem cerdas yang dapat berinteraksi dengan orang-orang menggunakan bahasa alami melalui percakapan. Contoh bisnisnya mencakup pembantu rumah tangga dan ruang obrolan (seperti chatbot yang mengiklankan asuransi atau agen perjalanan).

Ada banyak cara untuk melakukan percakapan, termasuk suara, teks, dan bahasa isyarat, namun jika masukan dan keluarannya adalah bahasa alami, maka hal tersebut akan dilakukan. harus memiliki sistem AI percakapan berbasis ucapan

Pengenalan ucapan otomatis
Pipa ASR berdasarkan pembelajaran mendalam berisi lima komponen utama (Gambar 3).

Diagram yang menunjukkan bagaimana masukan ucapan difilter pada berbagai tahap, seperti fitur ekstraksi. dan normalisasi teks terbalik untuk menghasilkan teks keluaran dalam ASR.
Gambar 3. Dalam pembelajaran mendalam berdasarkan ASR – Anatomi Alur
Pemisahan Fitur
Pemisahan Fitur mengelompokkan sinyal audio ke dalam blok dengan panjang tetap (yaitu langkah waktu) dan kemudian mengubah blok tersebut dari domain waktu ke domain frekuensi.

Model akustik
Model pembelajaran mesin ini (biasanya jaringan neural dalam multilapis) memprediksi probabilitas karakter pada setiap langkah waktu data audio.

Baca Juga : Aplikasi Otomotif Inovatif Di Era Digital

Dekoder dan model bahasa
Dekoder mengonversi matriks probabilitas yang diberikan oleh model akustik menjadi rangkaian karakter, yang kemudian membentuk kata dan kalimat.

Model bahasa (LM) dapat memberikan skor yang menunjukkan kemungkinan munculnya kalimat tersebut dalam korpus pembelajaran. Misalnya, LM yang dilatih korpus bahasa Inggris menilai “Kenali ucapan” lebih mungkin terjadi dibandingkan “Je suis un étudiant” sebagai sangat tidak mungkin (karena ini adalah kalimat bahasa Prancis).

Bersama. Dengan LM, decoder dapat mengoreksi “pendengaran” (“Saya makan daging sapi untuk makan siang”) lebih masuk akal (“Saya makan daging sapi panggang untuk makan siang”), misalnya LM memberikan skor yang lebih tinggi untuk kalimat terakhir dibandingkan dengan kalimat terakhir. satu kalimat sebelumnya model menambahkan tanda baca dan menggunakan huruf besar pada teks yang dihasilkan oleh decoder.

Model Normalisasi Teks Terbalik
Terakhir, aturan normalisasi teks terbalik (ITN) digunakan untuk mengubah teks literal menjadi bentuk tulisan yang diinginkan, seperti “jam 10″ menjadi ” 10.00″ atau “sepuluh dolar” menjadi “$10”.

Konsep ASR Lainnya
Tingkat Kesalahan Kata (WER) dan Tingkat Kesalahan Karakter (CER) adalah metrik kinerja yang umum untuk sistem ASR.
WER adalah jumlah kesalahan dibagi dengan jumlah kata yang diucapkan. Misalnya, jika ada lima kesalahan dalam total 50 kata yang diucapkan, WER-nya adalah 25%.

Memulai AI Speech
Speech AI telah menjadi hal yang lumrah dan menjadi bagian integral dalam kehidupan sehari-hari konsumen. Perusahaan mencari cara baru untuk menambah nilai pada produk mereka dengan memanfaatkan kemampuan kecerdasan ucapan.

Cara terbaik untuk mempelajari kecerdasan ucapan adalah dengan mengalaminya. Pelajari lebih lanjut cara membuat dan menerapkan pipeline AI ucapan real-time untuk aplikasi AI percakapan di eBuku Membuat Aplikasi AI Ucapan gratis (perlu registrasi).

Philip Powell