Decoding

Model menghasilkan skor untuk banyak kandidat token berikutnya
Decoding = proses memilih token dari kandidat tersebut
Temperature — mengatur tingkat variasi
Top-p — membatasi pilihan pada kandidat dengan probabilitas paling masuk akal
Output bisa berbeda karena proses pemilihan token tidak selalu deterministik

Contoh kandidat token berikutnya

"adalah"      42%
"merupakan"   30%
"bisa"        10%
"terjadi"      5%
...

Tip

Untuk tugas faktual atau coding → temperature rendah lebih aman. Untuk brainstorming → temperature tinggi kadang berguna. Di banyak chatbot, pengaturan ini disembunyikan dari pengguna.