Tokenisasi
- Model tidak membaca teks sebagai huruf atau kata utuh
- Teks dipecah menjadi token
- Token bisa berupa kata, bagian kata, tanda baca, spasi, atau simbol
- Bahasa berbeda bisa punya jumlah token berbeda untuk kalimat yang panjangnya terlihat sama
Input: "aku belajar AI"
akubelajarAI→ 3 token
Input: "internationalization"
internationalization→ 2 token
Info
Contoh di atas bukan tokenisasi yang persis sama di semua model. Setiap model punya tokenizer berbeda. Intinya: model memproses potongan teks, bukan makna manusia secara langsung.