Panduan Untuk Memahami Terminologi Penting AI Suara

Panduan Untuk Memahami Terminologi Penting AI Suara – Voice AI adalah teknologi yang memungkinkan Anda berkomunikasi dengan sistem komputer menggunakan suara Anda. Apakah Anda ingin mengontrol asisten di mobil atau perangkat rumah pintar? Antarmuka suara bertenaga AI memungkinkan Anda mengontrol perangkat tanpa mengetik atau mengetuk layar.

Panduan Untuk Memahami Terminologi Penting AI Suara

Panduan Untuk Memahami Terminologi Penting AI Suara

speechresearch – Bidang AI suara relatif baru. Namun, seiring dengan semakin canggihnya interaksi suara dan meluas ke perangkat dan platform baru, penting bagi pengembang untuk selalu mengikuti perkembangan terminologi yang terus berkembang. Pengenalan ini memperkenalkan konsep-konsep utama dari dunia bahasa AI, menjelaskan tempatnya di dunia AI yang lebih luas, dan menjelaskan hubungannya dengan bidang sains dan teknologi lainnya.

cara berpikir dasar
Anda mungkin pernah mendengar atau mengenal teknologi ini, namun untuk lebih lengkapnya, berikut adalah dasar-dasarnya.

  • Kecerdasan buatan (AI) mengacu pada bidang luas dalam menciptakan mesin cerdas yang menyamai atau melampaui kemampuan kognitif manusia.
  • Pembelajaran mesin (ML) adalah cabang AI yang melibatkan pengembangan metode dan sistem yang mempelajari cara melakukan tugas tertentu berdasarkan data historis.
  • Pembelajaran mendalam (DL) adalah rangkaian teknik ML yang didasarkan pada jaringan saraf tiruan dengan banyak lapisan, biasanya dilatih pada data dalam jumlah besar.
  • Bagaimana hubungan sistem AI suara dengan AI, ML, dan DL? Voice AI adalah penggunaan AI untuk teknologi berbasis suara. Komponen inti dari sistem AI suara meliputi:
  • Sistem pengenalan suara otomatis (ASR). Juga dikenal sebagai ucapan-ke-teks, pengenalan ucapan, atau pengenalan ucapan. Mengubah sinyal audio ucapan menjadi teks.
  • Sistem teks-ke-ucapan (TTS). Disebut juga sintesis ucapan. Konversi teks ke format audio. Voice AI adalah subbidang AI percakapan, dan teknologinya terutama berasal dari bidang DL dan ML. Hubungan antara AI, ML, DL, dan voice AI dapat direpresentasikan dengan diagram Venn pada Gambar 1.
  • Diagram Venn menunjukkan hubungan antara AI, pembelajaran mesin, pembelajaran mendalam, AI percakapan, AI suara, dan NLP.

Baca Jugaa : Evolusi Tentang Berbicara di Depan Umum

Gambar 1. Hubungan antara AI, ML, DL, dan voice AI
Gambar 1 menunjukkan bahwa AI percakapan adalah aplikasi berbasis suara yang tersebar luas, tidak semuanya menyertakan komponen suara. Beginilah cara teknologi AI suara bekerja sama dengan alat dan teknik lain untuk membentuk sistem AI percakapan yang lengkap.

AI percakapan
AI Percakapan adalah bidang ilmiah yang melibatkan perancangan sistem cerdas yang dapat berinteraksi dengan pengguna manusia melalui percakapan menggunakan bahasa alami. Contoh komersial termasuk asisten rumah tangga dan chatbots (seperti chatbots klaim asuransi dan chatbots agen perjalanan).

Komponen sistem AI percakapan berbasis suara meliputi:

  • antarmuka suara
  • sistem dialog
  • mesin pemenuhan
  • antarmuka suara
  • Antarmuka suara yang diaktifkan oleh teknologi AI suara memungkinkan sistem berinteraksi dengan pengguna melalui bentuk bahasa alami suara.

sistem dialog
Sistem percakapan mengelola percakapan dengan pengguna dan berinteraksi dengan sistem pemenuhan eksternal untuk memenuhi kebutuhan pengguna. Ini terdiri dari dua komponen.

  • Modul NLU (Natural Language Understanding) menganalisis teks dan mengidentifikasi informasi yang relevan, seperti: B. Maksud pengguna dan semua parameter yang terkait dengan maksud tersebut. Misalnya, jika pengguna bertanya “Bagaimana cuaca besok pagi?”, “informasi cuaca” adalah tujuannya dan waktu adalah parameter relevan yang diambil dari kueri. H. Dalam hal ini, “besok pagi”.
  • NLU adalah subbidang pemrosesan bahasa alami (NLP), cabang linguistik dan kecerdasan buatan yang berhubungan dengan metode komputasi untuk memproses dan menganalisis data bahasa alami.
  • Manajer dialog memantau status percakapan dan memutuskan tindakan apa yang harus diambil selanjutnya.
  • Manajer dialog memperoleh informasi dari modul NLU, mengingat konteksnya, dan menjalankan permintaan pengguna. mesin pemenuhan
  • Mesin pemenuhan melakukan tugas yang menggunakan sistem AI percakapan, seperti mendapatkan informasi cuaca, membaca berita, memesan tiket, memberikan informasi inventaris, dan menjawab pertanyaan sepele.

Mereka umumnya tidak dianggap sebagai bagian dari sistem AI percakapan, namun bekerja sama secara erat untuk memenuhi kebutuhan pengguna.

Baca Jugaa : Memahami Teknologi Mobil Untuk Tahun 2024

Konsep AI suara
Di bagian ini, kita akan melihat konsep AI ucapan tertentu: pengenalan ucapan otomatis dan text-to-speech.

ekstraktor fitur
Ekstraktor fitur mengelompokkan sinyal audio ke dalam blok dengan panjang tetap (juga dikenal sebagai langkah waktu) dan mengubah blok dari domain waktu ke domain frekuensi.

model akustik
Model pembelajaran mesin ini, biasanya jaringan saraf dalam multilapis, memprediksi kemungkinan huruf pada setiap langkah waktu data audio. Decoder dan model bahasa
Dekoder mengubah matriks probabilitas yang diberikan oleh model akustik menjadi rangkaian karakter yang membentuk kata dan kalimat.

Model bahasa (LM) dapat memberikan nilai yang menunjukkan kemungkinan munculnya sebuah kalimat dalam korpus pelatihan. Misalnya, seorang LM yang dilatih korpus bahasa Inggris menilai “mengenali bahasa” lebih mungkin terjadi daripada “menghancurkan buah persik yang indah”, dan “Je suis un étudiant” (kalimat Perancis (karena ini) kita mungkin menilainya sebagai sangat tidak mungkin.

Dikombinasikan dengan LM, decoder dapat memodifikasi apa yang “didengarnya” (“Saya akan makan daging sapi untuk makan siang”) menjadi sesuatu yang lebih bermakna (“Saya akan makan daging sapi panggang untuk makan siang”). Misalnya, LM memberikan skor yang lebih tinggi pada kalimat terakhir dibandingkan kalimat sebelumnya.

Model tanda baca dan kapitalisasi
Model tanda baca dan kapitalisasi menambahkan tanda baca dan kapitalisasi pada teks yang dihasilkan oleh decoder. Model normalisasi teks terbalik
Terakhir, aturan normalisasi teks terbalik (ITN) diterapkan untuk mengubah teks lisan menjadi format tertulis yang diinginkan. Misalnya, “jam 10” menjadi “10:00” dan “10 dolar” menjadi “$10”.

Bagaimana memulai pidato AI
Voice AI kini menjadi arus utama dan menjadi bagian penting dalam kehidupan sehari-hari konsumen. Perusahaan menemukan cara baru untuk menambah nilai pada produk mereka dengan mengintegrasikan kemampuan AI suara.

Cara terbaik untuk mendapatkan keahlian dalam AI suara adalah dengan mengalaminya sendiri. Untuk mempelajari lebih lanjut tentang membangun dan menerapkan saluran AI ucapan real-time untuk aplikasi AI percakapan, unduh ebook gratis Membangun Aplikasi AI Ucapan (diperlukan registrasi).

You May Also Like