Meski Artificial Intelligence (AI) kian canggih, model bahasa masih sering kesulitan menangani konteks panjang dan informasi spesifik. Di sinilah Retrieval-Augmented Generation (RAG) dan strategi Chunking hadir sebagai ‘senjata rahasia’ yang membuat chatbot maupun sistem AI mampu memberi jawaban lebih relevan, akurat, dan sesuai kebutuhan.
Pada sesi AI Insight kali ini, kami mengundang Rahmad Afandi, Tech Lead at Product Features Qiscus, untuk membagikan wawasannya mengenai RAG & Chunking: The Secret Behind Smarter AI.
Untuk penjelasan lebih lengkap, tonton video di atas dan baca ulasan detailnya pada artikel berikut.
Apa Itu RAG (Retrieval-Augmented Generation)?
RAG adalah teknik AI yang menggabungkan dua komponen utama:
- Retrieval: pencarian informasi dari knowledge base, dokumen internal, API, atau vector database (Qdrant, Pinecone, Weaviate, FAISS).
- Generation: pemanfaatan informasi hasil retrieval sebagai grounding context oleh LLM untuk membentuk jawaban bahasa alami yang akurat.
Pendekatan ini mengurangi halusinasi LLM dan meningkatkan kepercayaan pengguna karena jawaban berbasis data nyata.
Bagaimana Retrieval-Augmented Generation (RAG) Bekerja?
Retrieval-Augmented Generation (RAG) memungkinkan AI memberikan jawaban yang akurat melalui proses dua tahap: pencarian informasi (retrieval) dan generasi jawaban (generation). Dengan alur ini, AI tidak hanya menghasilkan teks yang terdengar alami, tetapi juga memastikan jawaban yang diberikan berbasis data nyata dan terkini.
1. User Query
Proses dimulai ketika seorang pengguna mengajukan pertanyaan atau permintaan informasi kepada sistem AI. Pertanyaan ini bisa berupa apa saja, misalnya “Apa kebijakan refund terbaru perusahaan?” atau “Apa manfaat dari obat X dalam studi klinis terbaru?”.
2. Retrieval
Setelah menerima query, sistem RAG melakukan pencarian pada knowledge base yang tersedia. Knowledge base ini bisa berupa dokumen internal perusahaan, database publikasi ilmiah, regulasi, artikel medis, hingga database vektor seperti Qdrant, Pinecone, atau Weaviate. Pada tahap ini, sistem mengekstrak informasi paling relevan untuk menjawab pertanyaan.
3. Generation
Informasi yang telah diambil kemudian diproses oleh Large Language Model (LLM). LLM menyatukan data hasil retrieval dengan konteks pertanyaan pengguna, lalu menghasilkan jawaban dalam bentuk bahasa alami yang jelas, koheren, dan mudah dipahami.
Pendekatan hybrid RAG memastikan bahwa jawaban AI tidak hanya terstruktur dengan baik, tetapi juga berdasarkan fakta dan data terbaru. Artinya, RAG mampu menjembatani kekurangan LLM murni yang seringkali menghasilkan jawaban halusinatif atau tidak relevan.
Memahami Embeddings
Sebelum AI dapat “mengerti” atau melakukan pencarian berdasarkan teks, sistem perlu mengubah teks manusia ke dalam format yang bisa dipahami komputer. Format ini bukan berupa huruf atau kata, melainkan angka. Proses penting inilah yang disebut dengan Embeddings.
1. Human Text
Setiap interaksi manusia dengan AI dimulai dari teks biasa, entah itu pertanyaan, instruksi, atau pernyataan. Namun, teks dalam bentuk aslinya tidak bisa langsung dipahami oleh komputer karena sistem AI bekerja dengan angka, bukan huruf atau kata. Karena itu, langkah pertama adalah menangkap teks manusia dalam bentuk kalimat asli untuk kemudian diproses lebih lanjut.
2. Embedding Model
Di sinilah embedding model berperan. Model ini bertugas menerjemahkan teks manusia menjadi representasi numerik yang bisa dipahami komputer.
Proses ini bukan sekadar konversi kata-per-kata, melainkan menguraikan makna, hubungan semantik, dan konteks di balik teks. Hasilnya adalah angka-angka yang menggambarkan arti mendalam dari sebuah kalimat.
3. Numerical Vector
Setelah diproses, teks manusia diubah menjadi numerical vector atau vektor angka berdimensi tinggi. Vektor ini ibarat sidik jari unik yang mewakili makna teks. Dengan representasi ini, sistem dapat membandingkan kesamaan atau perbedaan antar-teks, bukan dari bentuk katanya, melainkan dari kedekatan maknanya.
Hasil dari embedding ini membuka pintu untuk berbagai aplikasi cerdas. Misalnya, semantic search memungkinkan pencarian berdasarkan arti, bukan hanya kata kunci. Rekomendasi bisa lebih personal karena memahami konteks pengguna.
Clustering mengelompokkan data serupa secara otomatis. Dan yang terpenting, embedding adalah fondasi utama bagi RAG, karena tanpa representasi numerik ini, AI tidak bisa mencari dan mengaitkan informasi relevan dari sumber eksternal.
Memahami Chunking dan Perannya
Chunking adalah proses membagi dokumen besar ke potongan kecil yang bermakna.
Dokumen panjang biasanya sulit ditangani secara utuh oleh model AI. Dengan chunking, teks dipecah menjadi unit-unit yang lebih kecil namun tetap menjaga konteks. Potongan ini ibarat paragraf atau blok informasi yang bisa diproses, disimpan, dan dicari ulang dengan lebih efisien.
1. Tanpa Chunking
Jika dokumen besar langsung diproses tanpa pemecahan, embedding yang dihasilkan menjadi “kabur” karena memuat terlalu banyak konteks sekaligus. Akibatnya, sistem kesulitan menemukan detail spesifik yang dibutuhkan, sehingga hasil pencarian bisa meleset atau tidak relevan.
2. Dengan Chunking
Sebaliknya, chunking memastikan setiap embedding hanya memuat informasi yang lebih terfokus. Hal ini membuat AI mampu menangkap nuansa yang relevan dan melakukan retrieval secara lebih presisi. Alhasil, jawaban yang dihasilkan pun lebih sesuai dengan kebutuhan pengguna.
Jenis Chunking | Cara Kerja | Kelebihan | Kekurangan | Cocok Untuk |
---|---|---|---|---|
Fixed-Size | Membagi teks berdasarkan jumlah kata/token tertentu | Sederhana, cepat, mudah diimplementasikan | Bisa memotong konteks di tengah kalimat | Data umum, prototipe, skala besar |
Structural | Mengikuti struktur dokumen (paragraf, heading, dsb) | Menjaga keteraturan dokumen, lebih alami | Kurang fleksibel jika struktur dokumen buruk | Artikel, laporan, dokumen formal |
Semantic | Memecah teks berdasarkan makna/semantik | Konsistensi konteks tinggi, hasil retrieval akurat | Lebih kompleks, butuh model tambahan | Knowledge base, FAQ, chatbot cerdas |
Chunk yang terlalu besar akan kembali kabur, sedangkan chunk yang terlalu kecil bisa membuat konteks terpecah-pecah. Oleh karena itu, keseimbangan ukuran chunk menjadi faktor krusial agar sistem RAG dapat bekerja optimal—cukup ringkas untuk fokus, namun tetap kaya konteks agar makna tidak hilang.
Cara Menemukan Ukuran Chunk yang Tepat
Menentukan ukuran chunk yang ideal adalah salah satu kunci performa RAG. Tidak ada aturan baku yang berlaku untuk semua kasus, sehingga pemilihan chunk size harus mempertimbangkan keseimbangan antara konteks, akurasi, dan efisiensi pemrosesan.
1. Panduan Umum & Faktor Penting
Ada beberapa aspek utama yang perlu dipertimbangkan sebelum menentukan ukuran chunk, mulai dari hasil riset terkini, tingkat kompleksitas pertanyaan, hingga keterbatasan model AI yang digunakan.
- Riset Terbaru: Beberapa penelitian merekomendasikan ukuran chunk sekitar 1024 token sebagai titik optimal, meskipun hasil terbaik tetap bergantung pada kebutuhan spesifik.
- Kompleksitas Pertanyaan: Pertanyaan sederhana berbasis fakta lebih cocok dengan chunk kecil untuk menjaga presisi. Sebaliknya, pertanyaan yang lebih kompleks sering memerlukan chunk lebih besar agar konteks tetap utuh.
- Kapasitas Model: Ukuran chunk harus disesuaikan dengan batas token embedding model dan context window LLM yang digunakan, agar informasi tidak terpotong atau berlebihan.
2. Trade-off dalam Menentukan Chunk Size
Setiap pilihan ukuran chunk memiliki konsekuensinya masing-masing—baik terlalu kecil maupun terlalu besar dapat memengaruhi kualitas hasil retrieval dan efisiensi sistem.
- Terlalu Kecil: Konteks mudah hilang, potongan menjadi terlalu banyak, dan biaya pemrosesan meningkat karena sistem harus mengelola lebih banyak data.
- Terlalu Besar: Informasi spesifik menjadi kabur, embedding kehilangan presisi, dan risiko memasukkan informasi tidak relevan ke dalam jawaban semakin tinggi.
Menentukan chunk size adalah soal menemukan sweet spot. Baik chunk terlalu kecil maupun terlalu besar dapat menurunkan kualitas retrieval. Oleh karena itu, pengujian dan evaluasi iteratif sangat penting agar RAG dapat memberikan hasil terbaik sesuai kebutuhan bisnis dan domain data.
Mengenal Vector Search dan Perannya dalam RAG
Vector search adalah inti dari RAG yang memungkinkan sistem menemukan potongan informasi paling relevan, bukan hanya berdasarkan kecocokan kata kunci, tetapi juga kedekatan makna secara semantik.
1. Query Embedding
Pertanyaan pengguna pertama-tama diubah menjadi embedding (representasi numerik). Misalnya, pertanyaan “Apa komposisi tanah Mars?” akan diterjemahkan ke dalam vektor angka yang bisa dipahami komputer.
2. Vector Database
Semua chunk yang sudah di-embedding disimpan dalam vector database khusus, seperti Qdrant, Pinecone, atau Weaviate. Database ini memungkinkan pencarian super cepat berdasarkan kedekatan numerik, bukan sekadar kata kunci.
3. Similarity Search
Sistem kemudian mencari chunk embeddings yang secara numerik paling dekat dengan query embedding. Semakin dekat jaraknya, semakin tinggi tingkat kesamaan makna. Dengan cara ini, AI tidak hanya mencari teks yang cocok secara kata, tetapi juga yang relevan secara semantik.
Keunggulan vector search adalah hasil pencarian menjadi lebih cepat, presisi, dan kontekstual, karena sistem memahami arti di balik teks, bukan sekadar cocok-cocokan kata. Inilah yang membuat vector search jadi tulang punggung retrieval dalam RAG.
Memaksimalkan RAG dan Chunking
Sinergi antara Retrieval-Augmented Generation (RAG) dan strategi chunking yang efektif memberikan lompatan besar dalam performa AI modern. Kombinasi ini membuat sistem tidak hanya lebih cepat, tapi juga lebih akurat, efisien, dan dapat dipercaya. Berikut manfaat detailnya:
- Pencarian Cepat: Chunk kecil dan fokus memudahkan pencarian di vector database, membuat respon AI jauh lebih cepat meski dokumen yang diproses sangat besar.
- Retrieval Relevan: Embeddings yang presisi menghasilkan retrieval yang sangat relevan, hampir menghilangkan risiko hallucination dan memastikan jawaban berbasis fakta.
- Mengurangi Biaya Operasional: Pemrosesan chunk kecil lebih hemat sumber daya komputasi, sehingga efisiensi meningkat dan biaya operasional lebih rendah.
- Selalu Diperbarui: Knowledge base bisa diperbarui secara berkelanjutan tanpa melatih ulang seluruh LLM, sehingga AI selalu memiliki informasi terbaru.
- Meningkatkan Kepercayaan: Jawaban dapat dirujuk langsung ke sumber aslinya, meningkatkan transparansi dan kepercayaan pengguna terhadap sistem AI.
Namun, untuk memaksimalkan semua manfaat tersebut, seni sesungguhnya ada pada bagaimana kita melakukan chunking. Terdapat tiga pendekatan umum yang bisa dipilih:
- Semantic Chunking: Membagi teks berdasarkan pergeseran makna atau topik. Metode paling canggih karena menjaga konsistensi konteks dan relevansi tinggi.
- Fixed-size chunking: Metode paling sederhana dengan memotong teks berdasarkan jumlah token tertentu, namun berisiko merusak konteks di tengah kalimat.
- Structural chunking: Pendekatan lebih alami karena mengikuti paragraf, heading, atau section, menjaga alur dokumen tetap utuh.
Pertanyaannya sekarang, bagaimana Anda bisa menemukan sweet spot dalam chunking? Berikut langkah-langkahnya:
- Terlalu kecil: Konteks hilang, sistem harus mengelola terlalu banyak potongan.
- Terlalu besar: Embedding jadi bising, informasi bercampur, akurasi menurun.
Solusi adalah temukan ukuran chunk yang seimbang, cukup kecil untuk efisiensi dan presisi, namun cukup besar untuk menjaga konteks tetap utuh.
Konsep RAG Lebih Lanjut
RAG adalah bidang yang terus berkembang pesat. Para peneliti dan praktisi AI terus menghadirkan teknik lanjutan untuk meningkatkan performa dan keandalan sistem. Beberapa di antaranya:
1. Refining Retrieval
- Re-ranking: Menyaring ulang hasil retrieval dengan model yang lebih presisi agar chunk paling relevan terpilih.
- Query Expansion: Menambahkan kata kunci terkait atau memformulasi ulang pertanyaan untuk memperkaya hasil pencarian.
- Multi-hop Retrieval: Memecah pertanyaan kompleks menjadi sub-pertanyaan, lalu menggabungkan hasil retrieval bertahap untuk jawaban yang lebih lengkap.
2. Flexible Knowledge Bases
- Vector Databases: Mengelola embedding dalam jumlah besar dengan pencarian super cepat berbasis kesamaan semantik.
- Knowledge Graphs: Menghubungkan fakta dalam jaringan terstruktur untuk penalaran yang lebih mendalam.
- Hybrid Retrieval: Mengombinasikan pencarian keyword tradisional dengan vector search untuk hasil yang lebih komprehensif.
3. Challenges and the Future of RAG
Meski potensinya besar, RAG masih menghadapi tantangan:
- Garbage In, Garbage Out: Kualitas output sangat bergantung pada kualitas data.
- Complex Queries: Pertanyaan rumit atau ambigu masih sulit dipecahkan.
- Latency: Proses retrieval real-time bisa memicu keterlambatan.
Ke depan, arah inovasi RAG akan bergerak menuju:
- Adaptive Chunking: AI menentukan chunk size secara dinamis sesuai konteks.
- Multi-modal RAG: Retrieval diperluas ke teks, gambar, video, dan audio.
- Self-Improving RAG: Sistem belajar dari interaksi pengguna untuk terus menyempurnakan retrieval dan jawaban.
Rahasia di Balik AI yang Relevan: RAG & Chunking
RAG dan chunking bukan sekadar fitur teknis, melainkan pilar utama yang membuat AI lebih relevan, akurat, dan dapat diandalkan. Dengan kombinasi keduanya, bisnis dapat membangun sistem berbasis LLM yang tidak hanya cepat merespons, tetapi juga menghadirkan jawaban yang berbasis fakta dan benar-benar bernilai bagi pengguna.
Siap membawa performa AI bisnis Anda ke level berikutnya dengan RAG & Chunking? Qiscus hadir untuk membantu Anda menemukan solusinya.