Qwen adalah sebuah model AI yang dibuat oleh perusahaan Alibaba. Dari gambar diatas perusahaan unsloth.ai telah mengkompress model ini sehingga bisa dijalankan di komputer local dengan spek komputer minimum Ram 22 GB. Link penjelasan detilnya ada di https://unsloth.ai/docs/models/qwen3.6
Pada kesempatan ini saya ingin menjelaskan istilah-istilah yang tampil pada gambar poster dibawah ini sehingga pembaca bisa lebih memahami tentang sebuah model AI

35B-A3B
- Artinya model ini memiliki parameter 35 Billion tapi yang aktif 3 billion (A3B)
Analoginya:
- Bayangkan dalam rumah sakit terdapat 35 dokter spesialis
- Saat dalam memecahkan masalah hanya 3 dokter spesialis yang aktif
- Sehingga jelas hal ini lebih efisien dalam segala hal
MoE
- Singkatan dari Mixture of Expert
- Kemampuan model dalam memanggil spesialis yang mana yang akan dipanggil
- Dalam memecahkan sebuah masalah
Run Model Locally
- Artinya bila anda memiliki komputer dengan prosesor dan memori yang memadai
- Misalnya RAM komputer anda 128 GB maka anda bisa menjalakan model
- Ini dari komputer lokal ini tanpa anda harus membayar biaya berlangganan
- Pada chatgpt / gemini
Multimodal
- Multimodal artinya model AI ini bisa memahami lebih dari satu jenis data
- Artinya bisa digunakan untuk Chat / dokumen pdf
- Gambar (picture)
- Audio
- Video
- Jadi intinya bukan hanya teks saja tapi diberi pertanyaan berupa gambar
Hybrid-thinking
Context support 256K
- Dalam satu diskusi bisa mengingat 256 K token
- K adalah kilo jadi 256 K = 256 * 1024 = 262.144 token
- Apabila 1 kata dalam bahasa inggris butuh 1.3 token
- Maka 262.144 / 1.3 = 201 ribu kta
- Jadi model ini bisa mengingat sekitar 200 ribu kata
- Untuk gambaran mudanya novel Harry potter 1 buku tebal sekitar 77 ribu kata
- Jadi sekitar 2-3 novel
- Kesimpulannya sangat besar memorinya
- Bisa mengigat setiap kalimat di 2 novel tebal
Across 201 languages
- Bisa mengenali pertanyaaan bahasa indonesia, inggris, jepang dll.
GGUF
- Format file LLM yang menyimpan model AI (terutama LLM) yang dioptimalkan supaya ringan, cepat, dan mudah dijalankan secara lokal.
- Jadi sebelumnya file model asli sangat besar puluhan giga
- Tapi karena di kompresi dengan teknik Quantization menjadi lebih kecil
- Analogi sederhana bila foto format RAW ukurannya akan sangat besar
- Tapi bila disimpan menjadi jpg, dikompress tapi tetap masih relatif bagus
NEW: developer Role Support for opencode and codex
- Pada program opencode atau codex apabila model AI tidak diberitahu dulu
- Rolenya maka dia akan berpikir bebas untuk mencapai tujuan yang diinginkan
- Tapi bila diberikan 1 file batasan (AGENTS.md)
- Misalnya Role sebagai Developer Ruby on Rails
- Maka model AI akan memikirkan solusi berdasarkan framework Ruby on Rails
- Tidak memikirkan logic secara bebas atau general.
- Tool calling ini digunakan bila model AI fungsinya digabung
- Dengan program aplikasi, misalnya di usahaku.com aplikasi penjualan dan acccounting
- Model AI bisa diberitahu bila user menanyakan tentang omzet baju panggil fungsi A
- Bila user menanyakan tentang baju terlaris di tahun 2025 panggil fungsi B dan beri input 2025
- Model bisa menterjemahkan sendiri tahun 2025 sebagai data inputan untuk fungsi B
Pengertian Unified Memory
- Setahu penulis, ini hanya ada di peralatan yang dibuat apple (Macmini, Macbook pro / air)
- Karena memory RAM dan VRAM dijadikan satu di apple
- Artinya bila anda memiliki macbook air 16 GB apple bisa
- Alokasi misalnya 10 GB untuk RAM dan 6 GB untuk video RAM
- Bila anda menjalan game maka alokasinya beda lagi RAM 5 GB dan 11 GB untuk VRAM
- Jadi 1 memory digunakan secara bersama-sama disesuaikan dengan kebutuhan
Pandungan menggunakan kompresi / Quantization (3-bit, 4-bit, dst)
Tabel:
| Bit |
RAM |
Kualitas |
| 3-bit |
17 GB |
agak turun |
| 4-bit |
23 GB |
seimbang 👍 |
| 6-bit |
30 GB |
bagus |
| 8-bit |
38 GB |
hampir penuh |
| BF16 |
70 GB |
kualitas penuh |
Top-P = 0.95 (95%)
- Misalnya ada kalimat "saya mau makan ..."
- Model akan memiliki kandidat kata
- Nasi (40%), mie (25%), ayam (15%), pizza (10%), es krim (5%), permen karet (2%), batu (0.1%)
- Bila diisi 95% maka pilihan mulai nasi sampai es krim akan menjadi kandidat kata bisa dipilih
- (40 + 25 + 15 + 10 + 5 = 95)
Temperature
- Nilainya antara 0.1 - 1.0
- Dari pilihan kata yang sudah difilter oleh Top-P diatas
- Bila kita memilih temperature 1.0 maka pilihan dari nasi sampai es krim bisa tampil
- Tapi bila kita memilih 0.7 maka pilihan nasi dan mie bisa tampil
- Bila diisi dengan 1.0 , model akan sangat kreatif tergantung juga top-p
- Karena itu untuk diskusi topik bebas (general task) temperature = 1.0 (sangat kreatif)
- Tapi untuk pemprograman dia juga harus memperhatikan batasan-batasan yang diberikan
- Karena itu nilai temperature = 0.6
Top-K
- Dari contoh ini
- Nasi (1), mie (2), ayam (3), pizza (4), es krim (5), permen karet (6), batu (7)
- Bila Top-K diisi = 5 maka ambil 5 kata teratas (nasi - es krim)
- Bila Top-K diisi = 10 maka semua kata akan diambil termasuk batu
- Nanti tergantung temperature bila disi 1.0 maka sangat kreatif jadi kemungkinan
- Kata batu kemungkinan akan ditampilkan
Min-P
- Nasi (40%), mie (25%), ayam (15%), pizza (10%), es krim (5%), permen karet (2%), batu (0.1%)
- Dari contoh diatas kalau Min-P = 0.1 (10%)
- Nilai tertinggi = nasi (40%)
- Nilai tertinggi * Min-P = 40% * 0.1 = 4%
- Jadi Hilangkan kata-kata yang nilainya 4% kebawah
- Jadi permen karet (2%) dan batu(0.1%) akan dihilangkan dari pilihan
Benchmark
- Membandingkan kemampuan dengan model yang lain
- SWE-bench Verified = kumpulan soal coding nyata dari GitHub yang sudah diverifikasi manusia untuk menguji kemampuan AI sebagai software engineer
- SWE-bench pro = menyelesaikan masalah pemprogram yang lebih kompleks dan mendekati kerja harian dari real programmer.