Tokenisasi

Model tidak membaca teks sebagai huruf atau kata utuh
Teks dipecah menjadi token
Token bisa berupa kata, bagian kata, tanda baca, spasi, atau simbol
Bahasa berbeda bisa punya jumlah token berbeda untuk kalimat yang panjangnya terlihat sama

Input: "aku belajar AI"

akubelajarAI→ 3 token

Input: "internationalization"

internationalization→ 2 token

Info

Contoh di atas bukan tokenisasi yang persis sama di semua model. Setiap model punya tokenizer berbeda. Intinya: model memproses potongan teks, bukan makna manusia secara langsung.