{"id":8763,"date":"2025-07-18T04:12:44","date_gmt":"2025-07-18T04:12:44","guid":{"rendered":"https:\/\/www.qiscus.com\/id\/?p=8763"},"modified":"2025-07-22T07:48:55","modified_gmt":"2025-07-22T07:48:55","slug":"dataset-ai","status":"publish","type":"post","link":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/","title":{"rendered":"Dataset: Bahan Bakar Kecerdasan AI"},"content":{"rendered":"\n<p>Selama ini, kita sering terpukau dengan hasil luar biasa dari kecerdasan buatan\u2014dari chatbot pintar hingga mobil otonom. Tapi jarang yang menyadari bahwa performa AI sangat bergantung pada satu hal mendasar: dataset. Seperti bahan bakar bagi kendaraan, dataset adalah sumber tenaga utama bagi AI. Tanpa data yang tepat, dan terkurasi dengan baik, algoritma secanggih apa pun tidak akan mampu bekerja optimal.\u00a0<\/p>\n\n\n\n<p>Artikel ini akan membahas bagaimana kualitas data, proses kurasi, dan perannya dalam pelatihan serta evaluasi model menjadi kunci dalam membangun kecerdasan buatan yang benar-benar cerdas.<\/p>\n\n\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Daftar Isi<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table of Content\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#Apa_Itu_Dataset\" >Apa Itu Dataset?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#Jenis-jenis_Dataset_dalam_Pengembangan_AI\" >Jenis-jenis Dataset dalam Pengembangan AI<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#1_Dataset_Terstruktur_Structured_Dataset\" >1. Dataset Terstruktur (Structured Dataset)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#2_Dataset_Tidak_Terstruktur_Unstructured_Dataset\" >2. Dataset Tidak Terstruktur (Unstructured Dataset)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#3_Dataset_Deret_Waktu_Time_Series_Dataset\" >3. Dataset Deret Waktu (Time Series Dataset)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#4_Dataset_Teks_Text_Dataset\" >4. Dataset Teks (Text Dataset)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#5_Dataset_Gambar_Image_Dataset\" >5. Dataset Gambar (Image Dataset)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#6_Dataset_Audio_Audio_Dataset\" >6. Dataset Audio (Audio Dataset)<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#Tantangan_dalam_Pembuatan_Dataset_untuk_AI\" >Tantangan dalam Pembuatan Dataset untuk AI<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#1_Volume_dan_Skala_Data\" >1. Volume dan Skala Data<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#2_Kualitas_dan_Kebersihan_Data\" >2. Kualitas dan Kebersihan Data<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-12\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#3_Privasi_dan_Kepatuhan_Regulasi\" >3. Privasi dan Kepatuhan Regulasi<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-13\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#4_Bias_dalam_Dataset\" >4. Bias dalam Dataset<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-14\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#5_Biaya_dan_Sumber_Daya\" >5. Biaya dan Sumber Daya<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-15\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#Data_Buruk_vs_Data_Baik\" >Data Buruk vs Data Baik<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-16\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#Bagaimana_Dataset_Dikumpulkan\" >Bagaimana Dataset Dikumpulkan?<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-17\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#1_Data_yang_Dihasilkan_oleh_Pengguna_User-Generated_Data\" >1. Data yang Dihasilkan oleh Pengguna (User-Generated Data)<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-18\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#2_Data_dari_Perangkat_IoT_dan_Sensor\" >2. Data dari Perangkat IoT dan Sensor<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-19\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#3_Web_Scraping_dan_Open_Data\" >3. Web Scraping dan Open Data<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-20\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#4_Log_Aktivitas_Aplikasi_dan_Perangkat_Lunak\" >4. Log Aktivitas Aplikasi dan Perangkat Lunak<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-21\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#5_Survei_dan_Labeling_Manual\" >5. Survei dan Labeling Manual<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-22\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#Peran_Manusia_dalam_Membuat_Dataset_AI\" >Peran Manusia dalam Membuat Dataset AI<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-23\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#1_Data_Collection_dan_Curation\" >1. Data Collection dan Curation<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-24\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#2_Data_Cleaning\" >2. Data Cleaning<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-25\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#3_Data_Labeling_dan_Annotation\" >3. Data Labeling dan Annotation<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-26\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#4_Quality_Assurance_dan_Validasi_Dataset\" >4. Quality Assurance dan Validasi Dataset<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-27\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#5_Penyempurnaan_Pelatihan_Bot_Berkelanjutan\" >5. Penyempurnaan & Pelatihan Bot Berkelanjutan<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-28\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#6_Pengelolaan_Otomatisasi_Respons_yang_Terkurasi\" >6. Pengelolaan Otomatisasi Respons yang Terkurasi<\/a><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-29\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#Bangun_AI_Lebih_Akurat_dan_Etis_Dimulai_dari_Dataset_yang_Tepat\" >Bangun AI Lebih Akurat dan Etis Dimulai dari Dataset yang Tepat<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Apa_Itu_Dataset\"><\/span>Apa Itu Dataset?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Secara teknis, dataset untuk AI dan Large Language Model (LLM) adalah kumpulan data yang digunakan untuk melatih model agar mampu memahami, memproses, dan menghasilkan bahasa secara alami. Dalam konteks LLM, dataset biasanya berupa korpus teks berskala besar yang mencakup berbagai domain, gaya bahasa, dan struktur kalimat. Dataset ini menjadi sumber utama bagi model untuk mempelajari pola linguistik, konteks, semantik, hingga penalaran.<\/p>\n\n\n\n<p>Sama seperti manusia yang belajar dari buku, percakapan, atau pengalaman hidup, LLM membutuhkan dataset berkualitas tinggi untuk membangun kapasitas pemahamannya. Tanpa data yang relevan, beragam, dan bebas bias, model cenderung memberikan hasil yang tidak akurat atau bahkan menyesatkan.\u00a0<\/p>\n\n\n\n<p>Oleh karena itu, kualitas, keragaman, dan kurasi dataset sangat menentukan sejauh mana LLM bisa menjadi alat bantu yang cerdas, bertanggung jawab, dan bermanfaat dalam berbagai skenario penggunaan.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Jenis-jenis_Dataset_dalam_Pengembangan_AI\"><\/span>Jenis-jenis Dataset dalam Pengembangan AI<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Dalam pengembangan sistem kecerdasan buatan\u2014terutama model bahasa besar (Large Language Models\/LLM)\u2014pemilihan jenis dataset yang tepat sangat krusial karena akan memengaruhi kemampuan model dalam memahami konteks, menjawab pertanyaan, dan menghasilkan teks yang relevan. Jenis dataset yang digunakan menentukan seberapa baik model dapat menangani berbagai tugas linguistik dan aplikatif. Berikut adalah beberapa kategori dataset yang umum digunakan:<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"1_Dataset_Terstruktur_Structured_Dataset\"><\/span>1. Dataset Terstruktur (Structured Dataset)<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Merupakan data yang tersusun dalam format tabular, dengan kolom dan baris yang jelas\u2014mirip seperti spreadsheet atau database relasional. Dataset ini mudah dianalisis secara statistik dan ideal untuk algoritma supervised learning. Contoh: Dataset harga properti dengan atribut seperti luas bangunan, jumlah kamar, dan lokasi.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"2_Dataset_Tidak_Terstruktur_Unstructured_Dataset\"><\/span>2. Dataset Tidak Terstruktur (Unstructured Dataset)<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Data jenis ini tidak memiliki format atau struktur tetap, sehingga lebih kompleks untuk dianalisis. Dibutuhkan teknik preprocessing khusus sebelum digunakan dalam pelatihan model. Contoh: Kumpulan gambar, video, dokumen teks bebas, atau postingan media sosial.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"3_Dataset_Deret_Waktu_Time_Series_Dataset\"><\/span>3. Dataset Deret Waktu (Time Series Dataset)<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Dataset yang merekam data berdasarkan urutan waktu. Umumnya digunakan dalam model prediktif dan analisis tren. Contoh: Data suhu harian, harga saham, atau log aktivitas pengguna dari waktu ke waktu.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"4_Dataset_Teks_Text_Dataset\"><\/span>4. Dataset Teks (Text Dataset)<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Dataset berbasis teks digunakan dalam bidang Natural Language Processing (NLP) untuk tugas seperti klasifikasi teks, analisis sentimen, dan ekstraksi entitas. Contoh: Kumpulan artikel berita, email, transkrip percakapan, atau tweet.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"5_Dataset_Gambar_Image_Dataset\"><\/span>5. Dataset Gambar (Image Dataset)<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Digunakan dalam proyek computer vision untuk mendeteksi objek, klasifikasi gambar, segmentasi, dan lain-lain. Contoh: ImageNet, COCO, atau CIFAR-10.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"6_Dataset_Audio_Audio_Dataset\"><\/span>6. Dataset Audio (Audio Dataset)<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Dataset ini berisi data suara dan digunakan untuk pelatihan model speech recognition, speaker identification, dan sound classification. Contoh: Google Speech Commands, LibriSpeech, atau UrbanSound8K.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Tantangan_dalam_Pembuatan_Dataset_untuk_AI\"><\/span>Tantangan dalam Pembuatan Dataset untuk AI<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Volume dan skala data adalah salah satu tantangan dalam pembuatan dataset untuk AI. Perlu Anda ketahui, pembuatan dataset berkualitas tinggi merupakan salah satu tahapan paling krusial\u2014namun juga paling menantang\u2014dalam pipeline pengembangan kecerdasan buatan. Berikut adalah sejumlah tantangan utama yang sering dihadapi.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"1_Volume_dan_Skala_Data\"><\/span>1. Volume dan Skala Data<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Model AI, khususnya deep learning, memerlukan volume data yang sangat besar untuk mencapai performa optimal. Mengumpulkan data dalam jumlah masif, terutama yang representatif dan relevan, membutuhkan infrastruktur, waktu, dan strategi kurasi yang matang.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"2_Kualitas_dan_Kebersihan_Data\"><\/span>2. Kualitas dan Kebersihan Data<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Prinsip \u201cGarbage in, garbage out\u201d berlaku mutlak di sini. Jika data mengandung <em>noise<\/em>, inkonsistensi, nilai kosong, atau informasi tidak relevan, model AI yang dilatih akan menghasilkan prediksi yang tidak akurat atau menyesatkan. Proses <em>data cleaning<\/em> dan validasi sangat penting untuk memastikan integritas data.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"3_Privasi_dan_Kepatuhan_Regulasi\"><\/span>3. Privasi dan Kepatuhan Regulasi<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>PPengumpulan data, terutama data pengguna yang sensitif, harus mematuhi regulasi ketat seperti GDPR atau UU PDP di Indonesia. Pelanggaran privasi data bisa berakibat hukum serius, denda masif, dan merusak reputasi perusahaan secara permanen. Kepatuhan adalah non-negosiabel.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"4_Bias_dalam_Dataset\"><\/span>4. Bias dalam Dataset<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Tanpa disadari, dataset bisa merepresentasikan bias sosial, gender, atau rasial dari data historis. Model yang dilatih dengan data seperti ini dapat mewarisi dan memperkuat bias tersebut, menghasilkan <em>output<\/em> yang tidak adil atau diskriminatif. Audit dataset dan <em>fairness-aware training<\/em> jadi langkah mitigasi risiko penting.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"5_Biaya_dan_Sumber_Daya\"><\/span>5. Biaya dan Sumber Daya<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Membuat dataset akurat dan siap produksi butuh investasi besar. Ini mencakup biaya finansial untuk alat dan penyimpanan <em>cloud<\/em>, serta sumber daya manusia untuk <em>data annotator<\/em>, <em>data scientist<\/em>, dan validasi manual. Pengelolaan <em>pipeline<\/em> data secara berkelanjutan juga memerlukan alokasi sumber daya yang tidak sedikit.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Data_Buruk_vs_Data_Baik\"><\/span>Data Buruk vs Data Baik<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Kualitas dataset memainkan peran fundamental dalam menentukan keberhasilan model AI. Sama seperti belajar dari sumber yang salah akan menghasilkan pemahaman yang keliru, model AI yang dilatih dengan data buruk akan menghasilkan <em>output<\/em> yang tidak akurat, bias, atau bahkan berbahaya. Mengenali dan menghindari data buruk adalah langkah krusial.<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td><strong>Aspek<\/strong><\/td><td><strong>Data Buruk<\/strong><\/td><td><strong>Data Baik<\/strong><\/td><\/tr><tr><td>Kelengkapan<\/td><td>Banyak nilai kosong, atribut penting hilang.<\/td><td>Lengkap, tidak ada nilai yang hilang.<\/td><\/tr><tr><td>Akurasi Label<\/td><td>Kesalahan pelabelan (mislabeling) terjadi.<\/td><td>Label akurat dan benar.<\/td><\/tr><tr><td>Relevansi<\/td><td>Tidak sesuai dengan konteks masalah AI.<\/td><td>Sesuai dan relevan dengan tujuan AI.<\/td><\/tr><tr><td>Representativitas<\/td><td>Hanya mencerminkan sebagian kecil populasi\/skenario.<\/td><td>Mewakili populasi atau skenario yang beragam.<\/td><\/tr><tr><td>Kebersihan Data<\/td><td>Redundant (duplikasi), noisy, tidak konsisten.<\/td><td>Bersih, konsisten, bebas duplikasi.<\/td><\/tr><tr><td>Dampak pada Performa AI<\/td><td>Output tidak akurat, bias, menyesatkan, berbahaya.<\/td><td>Output akurat, relevan, dapat diandalkan, adil.<\/td><\/tr><tr><td>Risiko Etis & Bisnis<\/td><td>Diskriminasi, keputusan salah, reputasi buruk.<\/td><td>Meningkatkan kepercayaan, keputusan tepat, citra positif.<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p>Dampak dari data buruk bisa sangat serius. Contoh paling mencolok terjadi pada sistem <em>facial recognition<\/em>. Beberapa studi menunjukkan bahwa model yang dilatih dengan dataset yang didominasi oleh satu etnis (misalnya hanya kulit terang) memiliki akurasi jauh lebih rendah saat mengenali wajah dari kelompok etnis lain.<\/p>\n\n\n\n<p>Hal ini bukan hanya masalah teknis, tetapi juga etis, karena dapat menyebabkan diskriminasi dalam aplikasi nyata seperti <em>surveillance<\/em>, pemeriksaan identitas otomatis, hingga sistem penegakan hukum. Maka, dataset yang baik sangat penting untuk AI yang akurat, adil, dan bertanggung jawab.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Bagaimana_Dataset_Dikumpulkan\"><\/span>Bagaimana Dataset Dikumpulkan?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Proses pengumpulan data untuk AI melibatkan berbagai metode, baik yang eksplisit melalui input pengguna, maupun yang otomatis melalui sistem sensor atau pelacakan aktivitas digital.\u00a0<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"1_Data_yang_Dihasilkan_oleh_Pengguna_User-Generated_Data\"><\/span>1. Data yang Dihasilkan oleh Pengguna (User-Generated Data)<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Setiap interaksi digital\u2014seperti mengisi formulir profil, mengunggah foto, memberikan komentar, atau menyukai konten di media sosial\u2014menghasilkan data yang dapat dikumpulkan dan dianalisis. Data ini sering dimanfaatkan untuk melatih model AI dalam memahami perilaku pengguna, preferensi, hingga segmentasi audiens.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"2_Data_dari_Perangkat_IoT_dan_Sensor\"><\/span>2. Data dari Perangkat IoT dan Sensor<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Wearable devices seperti Fitbit, Apple Watch, atau perangkat kesehatan lainnya secara otomatis mengumpulkan data biometrik seperti detak jantung, jumlah langkah, tingkat stres, dan kualitas tidur. Dataset ini sangat bernilai dalam aplikasi personalized healthcare, predictive analytics, hingga penelitian medis berbasis AI.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"3_Web_Scraping_dan_Open_Data\"><\/span>3. Web Scraping dan Open Data<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Data juga dapat dikumpulkan melalui teknik web scraping dari situs publik, atau melalui pemanfaatan dataset terbuka dari lembaga pemerintah, organisasi internasional, maupun komunitas riset. Contoh: Common Crawl, Kaggle Datasets, atau Google Dataset Search.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"4_Log_Aktivitas_Aplikasi_dan_Perangkat_Lunak\"><\/span>4. Log Aktivitas Aplikasi dan Perangkat Lunak<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Platform digital secara rutin mencatat event log atau usage data yang bisa mencerminkan pola perilaku pengguna. Data ini digunakan dalam pengembangan fitur berbasis machine learning, seperti sistem rekomendasi dan deteksi anomali.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"5_Survei_dan_Labeling_Manual\"><\/span>5. Survei dan Labeling Manual<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Dalam beberapa kasus, data dikumpulkan secara terstruktur melalui survei atau anotasi manual\u2014misalnya labeling citra medis oleh dokter, atau teks oleh annotator profesional untuk NLP. Sumber data ini sangat menentukan konteks dan kualitas dari dataset yang dihasilkan.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Peran_Manusia_dalam_Membuat_Dataset_AI\"><\/span>Peran Manusia dalam Membuat Dataset AI<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Di balik model AI yang presisi dan adaptif, terdapat peran manusia yang krusial dalam tahap awal\u2014yaitu penyusunan dan kurasi dataset. Meskipun sistem AI mampu belajar secara otomatis, proses tersebut tetap bergantung pada data preparation yang sebagian besar masih membutuhkan intervensi manusia.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"1_Data_Collection_dan_Curation\"><\/span>1. Data Collection dan Curation<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Manusia bertanggung jawab penuh dalam menentukan sumber data yang relevan, memastikan data tersebut sesuai dengan domain masalah yang ingin dipecahkan AI, serta memastikan data tidak melanggar privasi atau mengandung bias sistemik. Ini adalah fase di mana keputusan etis dan strategis dibuat, membentuk fondasi dasar untuk AI yang adil dan akurat. Tim Anda akan memilih riwayat percakapan, dokumen internal, atau FAQ yang akan menjadi rujukan utama bagi AI.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"2_Data_Cleaning\"><\/span>2. Data Cleaning<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Prinsip \u201cGarbage in, garbage out\u201d sangat berlaku di sini. Proses <em>data cleaning<\/em>\u2014seperti menghapus duplikasi, menangani nilai kosong (<em>missing values<\/em>), dan standarisasi format data\u2014masih sangat bergantung pada pemahaman konteks manusia. Kesalahan dalam tahap ini dapat secara serius mengganggu proses pelatihan model dan menurunkan akurasi AI secara drastis. Manusia memastikan AI tidak belajar dari informasi yang tidak akurat.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"3_Data_Labeling_dan_Annotation\"><\/span>3. Data Labeling dan Annotation<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Pelabelan data, terutama untuk jenis pembelajaran <em>supervised learning<\/em>, seringkali memerlukan penilaian manusia secara manual. Ini bisa dilakukan melalui <em>crowdsourcing<\/em> atau dengan tim <em>annotator<\/em> profesional. Proses ini sangat penting dalam bidang seperti <em>Natural Language Processing<\/em> (NLP) dan <em>computer vision<\/em>, di mana konteks dan akurasi label menentukan kualitas akhir model AI. Manusia memberi \u201cnama\u201d dan \u201cmakna\u201d pada setiap potongan data.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"4_Quality_Assurance_dan_Validasi_Dataset\"><\/span>4. Quality Assurance dan Validasi Dataset<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>TTim <em>Quality Assurance<\/em> (QA) sangat penting dalam audit dataset. Mereka terlibat dalam memeriksa ulang dataset untuk memastikan bahwa data yang digunakan sudah konsisten, tidak bias, dan bebas dari <em>error<\/em>. Validasi manual terhadap sampel dataset juga membantu dalam menjaga akurasi sebelum digunakan dalam pelatihan skala besar, memastikan AI menerima data yang berkualitas tinggi dan tidak cacat.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">5. Penyempurnaan & Pelatihan Bot Berkelanjutan<\/h3>\n\n\n\n<p><a href=\"https:\/\/www.qiscus.com\/id\/qiscus-ai\">Qiscus AI Agent Labs<\/a> menyediakan platform yang memungkinkan intervensi ini. Manusia dapat secara langsung \u201cmelatih bot\u201d atau AI Assistant jika ada kesalahan dalam responsnya. Ketika AI memberikan jawaban yang kurang tepat, tim Anda dapat mengoreksi output tersebut secara real-time dan memberikan contoh respons yang benar.<\/p>\n\n\n\n<p>Koreksi ini secara langsung diserap oleh AI untuk pembelajaran berkelanjutan, membangun AI yang semakin cerdas dan relevan dengan kebutuhan spesifik bisnis Anda.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"6_Pengelolaan_Otomatisasi_Respons_yang_Terkurasi\"><\/span>6. Pengelolaan Otomatisasi Respons yang Terkurasi<span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Qiscus AI Agent Labs juga membantu manajer untuk mengotomatisasi respons pada pertanyaan umum menggunakan AI Agent. Meskipun otomatis, manajer atau data curator dapat meninjau dan memvalidasi respons tersebut sebelum atau sesudah implementasi. Proses ini memastikan bahwa otomatisasi tetap sesuai dengan standar kualitas dan brand voice perusahaan, menjaga keseimbangan antara efisiensi AI dan kualitas yang dikurasi manusia.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"ez-toc-section\" id=\"Bangun_AI_Lebih_Akurat_dan_Etis_Dimulai_dari_Dataset_yang_Tepat\"><\/span>Bangun AI Lebih Akurat dan Etis Dimulai dari Dataset yang Tepat<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<p>Artikel ini telah mengupas tuntas mengapa dataset adalah \u201cbahan bakar\u201d utama AI, menyoroti beragam jenisnya, tantangan dalam pembuatannya, serta peran krusial manusia dalam setiap tahap. Dataset yang baik tidak hanya meningkatkan performa model, tetapi juga menjadi penentu utama terbentuknya AI yang lebih akurat, adil, dan bertanggung jawab dalam penerapannya.<\/p>\n\n\n\n<p>Siap membangun fondasi AI yang kokoh dengan dataset yang akurat dan terkurasi? <a href=\"https:\/\/www.qiscus.com\/id\/contact\">Hubungi Qiscus sekarang<\/a> dan temukan bagaimana Qiscus AI Agent Labs dapat memberdayakan tim Anda dalam mengelola, melatih, dan menyempurnakan dataset untuk AI yang lebih cerdas dan bertanggung jawab!<\/p>\n","protected":false},"excerpt":{"rendered":"Selama ini, kita sering terpukau dengan hasil luar biasa dari kecerdasan buatan\u2014dari chatbot pintar hingga mobil otonom. Tapi&hellip;\n","protected":false},"author":28,"featured_media":8895,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[3],"tags":[68,2167,2168,2170,2169],"class_list":{"0":"post-8763","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-insight","8":"tag-artificial-intelligence","9":"tag-data-set-ai","10":"tag-data-training-model","11":"tag-pelatihan-ai","12":"tag-preprocessing-data"},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.5 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Dataset: Bahan Bakar Kecerdasan AI<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/\" \/>\n<meta property=\"og:locale\" content=\"en_US\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Dataset: Bahan Bakar Kecerdasan AI\" \/>\n<meta property=\"og:description\" content=\"Selama ini, kita sering terpukau dengan hasil luar biasa dari kecerdasan buatan\u2014dari chatbot pintar hingga mobil otonom. Tapi&hellip;\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/\" \/>\n<meta property=\"og:site_name\" content=\"Omnichannel Conversational Platform\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/Qiscus\" \/>\n<meta property=\"article:published_time\" content=\"2025-07-18T04:12:44+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2025-07-22T07:48:55+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.qiscus.com\/id\/wp-content\/uploads\/sites\/2\/2025\/07\/Dataset-AI-1.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"981\" \/>\n\t<meta property=\"og:image:height\" content=\"613\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"author\" content=\"Anggun Puspa Mahareja\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@qiscus_io\" \/>\n<meta name=\"twitter:site\" content=\"@qiscus_io\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Anggun Puspa Mahareja\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"9 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/\"},\"author\":{\"name\":\"Anggun Puspa Mahareja\",\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/#\\\/schema\\\/person\\\/da1967bc7f6d27333952a470c7d345e8\"},\"headline\":\"Dataset: Bahan Bakar Kecerdasan AI\",\"datePublished\":\"2025-07-18T04:12:44+00:00\",\"dateModified\":\"2025-07-22T07:48:55+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/\"},\"wordCount\":1760,\"commentCount\":0,\"image\":{\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/wp-content\\\/uploads\\\/sites\\\/2\\\/2025\\\/07\\\/Dataset-AI-1.webp\",\"keywords\":[\"Artificial Intelligence\",\"data set AI\",\"data training model\",\"pelatihan AI\",\"preprocessing data\"],\"articleSection\":[\"Insight\"],\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/\",\"url\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/\",\"name\":\"Dataset: Bahan Bakar Kecerdasan AI\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/wp-content\\\/uploads\\\/sites\\\/2\\\/2025\\\/07\\\/Dataset-AI-1.webp\",\"datePublished\":\"2025-07-18T04:12:44+00:00\",\"dateModified\":\"2025-07-22T07:48:55+00:00\",\"author\":{\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/#\\\/schema\\\/person\\\/da1967bc7f6d27333952a470c7d345e8\"},\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/#breadcrumb\"},\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/#primaryimage\",\"url\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/wp-content\\\/uploads\\\/sites\\\/2\\\/2025\\\/07\\\/Dataset-AI-1.webp\",\"contentUrl\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/wp-content\\\/uploads\\\/sites\\\/2\\\/2025\\\/07\\\/Dataset-AI-1.webp\",\"width\":981,\"height\":613,\"caption\":\"Dataset AI\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/dataset-ai\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Insight\",\"item\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/category\\\/insight\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Dataset: Bahan Bakar Kecerdasan AI\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/#website\",\"url\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/\",\"name\":\"Omnichannel Conversational Platform\",\"description\":\"Artikel bagi Perusahaan untuk memajukan Customer Experience\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"en-US\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/#\\\/schema\\\/person\\\/da1967bc7f6d27333952a470c7d345e8\",\"name\":\"Anggun Puspa Mahareja\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/73b6e8217c8ec77a0d610f32024635b07e973655b7722f6e1a0b4be145830cf6?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/73b6e8217c8ec77a0d610f32024635b07e973655b7722f6e1a0b4be145830cf6?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/73b6e8217c8ec77a0d610f32024635b07e973655b7722f6e1a0b4be145830cf6?s=96&d=mm&r=g\",\"caption\":\"Anggun Puspa Mahareja\"},\"url\":\"https:\\\/\\\/www.qiscus.com\\\/id\\\/blog\\\/author\\\/anggun\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Dataset: Bahan Bakar Kecerdasan AI","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/","og_locale":"en_US","og_type":"article","og_title":"Dataset: Bahan Bakar Kecerdasan AI","og_description":"Selama ini, kita sering terpukau dengan hasil luar biasa dari kecerdasan buatan\u2014dari chatbot pintar hingga mobil otonom. Tapi&hellip;","og_url":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/","og_site_name":"Omnichannel Conversational Platform","article_publisher":"https:\/\/www.facebook.com\/Qiscus","article_published_time":"2025-07-18T04:12:44+00:00","article_modified_time":"2025-07-22T07:48:55+00:00","og_image":[{"width":981,"height":613,"url":"https:\/\/www.qiscus.com\/id\/wp-content\/uploads\/sites\/2\/2025\/07\/Dataset-AI-1.webp","type":"image\/webp"}],"author":"Anggun Puspa Mahareja","twitter_card":"summary_large_image","twitter_creator":"@qiscus_io","twitter_site":"@qiscus_io","twitter_misc":{"Written by":"Anggun Puspa Mahareja","Est. reading time":"9 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#article","isPartOf":{"@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/"},"author":{"name":"Anggun Puspa Mahareja","@id":"https:\/\/www.qiscus.com\/id\/#\/schema\/person\/da1967bc7f6d27333952a470c7d345e8"},"headline":"Dataset: Bahan Bakar Kecerdasan AI","datePublished":"2025-07-18T04:12:44+00:00","dateModified":"2025-07-22T07:48:55+00:00","mainEntityOfPage":{"@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/"},"wordCount":1760,"commentCount":0,"image":{"@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#primaryimage"},"thumbnailUrl":"https:\/\/www.qiscus.com\/id\/wp-content\/uploads\/sites\/2\/2025\/07\/Dataset-AI-1.webp","keywords":["Artificial Intelligence","data set AI","data training model","pelatihan AI","preprocessing data"],"articleSection":["Insight"],"inLanguage":"en-US","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/","url":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/","name":"Dataset: Bahan Bakar Kecerdasan AI","isPartOf":{"@id":"https:\/\/www.qiscus.com\/id\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#primaryimage"},"image":{"@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#primaryimage"},"thumbnailUrl":"https:\/\/www.qiscus.com\/id\/wp-content\/uploads\/sites\/2\/2025\/07\/Dataset-AI-1.webp","datePublished":"2025-07-18T04:12:44+00:00","dateModified":"2025-07-22T07:48:55+00:00","author":{"@id":"https:\/\/www.qiscus.com\/id\/#\/schema\/person\/da1967bc7f6d27333952a470c7d345e8"},"breadcrumb":{"@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#breadcrumb"},"inLanguage":"en-US","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/"]}]},{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#primaryimage","url":"https:\/\/www.qiscus.com\/id\/wp-content\/uploads\/sites\/2\/2025\/07\/Dataset-AI-1.webp","contentUrl":"https:\/\/www.qiscus.com\/id\/wp-content\/uploads\/sites\/2\/2025\/07\/Dataset-AI-1.webp","width":981,"height":613,"caption":"Dataset AI"},{"@type":"BreadcrumbList","@id":"https:\/\/www.qiscus.com\/id\/blog\/dataset-ai\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Insight","item":"https:\/\/www.qiscus.com\/id\/blog\/category\/insight\/"},{"@type":"ListItem","position":2,"name":"Dataset: Bahan Bakar Kecerdasan AI"}]},{"@type":"WebSite","@id":"https:\/\/www.qiscus.com\/id\/#website","url":"https:\/\/www.qiscus.com\/id\/","name":"Omnichannel Conversational Platform","description":"Artikel bagi Perusahaan untuk memajukan Customer Experience","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.qiscus.com\/id\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"en-US"},{"@type":"Person","@id":"https:\/\/www.qiscus.com\/id\/#\/schema\/person\/da1967bc7f6d27333952a470c7d345e8","name":"Anggun Puspa Mahareja","image":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/secure.gravatar.com\/avatar\/73b6e8217c8ec77a0d610f32024635b07e973655b7722f6e1a0b4be145830cf6?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/73b6e8217c8ec77a0d610f32024635b07e973655b7722f6e1a0b4be145830cf6?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/73b6e8217c8ec77a0d610f32024635b07e973655b7722f6e1a0b4be145830cf6?s=96&d=mm&r=g","caption":"Anggun Puspa Mahareja"},"url":"https:\/\/www.qiscus.com\/id\/blog\/author\/anggun\/"}]}},"_links":{"self":[{"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/posts\/8763","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/users\/28"}],"replies":[{"embeddable":true,"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/comments?post=8763"}],"version-history":[{"count":2,"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/posts\/8763\/revisions"}],"predecessor-version":[{"id":8879,"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/posts\/8763\/revisions\/8879"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/media\/8895"}],"wp:attachment":[{"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/media?parent=8763"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/categories?post=8763"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.qiscus.com\/id\/wp-json\/wp\/v2\/tags?post=8763"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}