Tokenisasi

  • Model tidak membaca teks sebagai huruf atau kata utuh
  • Teks dipecah menjadi token
  • Token bisa berupa kata, bagian kata, tanda baca, spasi, atau simbol
  • Bahasa berbeda bisa punya jumlah token berbeda untuk kalimat yang panjangnya terlihat sama
Input: "aku belajar AI"
akubelajarAI3 token
Input: "internationalization"
internationalization2 token
Info

Contoh di atas bukan tokenisasi yang persis sama di semua model. Setiap model punya tokenizer berbeda. Intinya: model memproses potongan teks, bukan makna manusia secara langsung.

11 / 52