UTF-8 to najbardziej popularny system kodowania Unicode (ogólnoświatowy, komputerowy system kodowania znaków). Długość znaku w UTF-8 nie zawsze jest taka sama, wynosi od 1 do 4 bajtów (1 bajt to 8 bitów). Mechanizm ten służy do domyślnego kodowania dokumentów w formacie XML i jego pochodnych (XSL, CML, HXTML). Jest w pełni kompatybilny z ASCII (siedmiobitowy system kodowania używany współcześnie w komputerach), więc dokumenty zapisane znakami z ASCII są identyczne jak UTF-8. O ile języki europejskie nie stanowią problemu dla kodowania w systemie UTF-8, to komplikacje pojawiają się w przypadku alfabetu arabskiego i cyrylicy – tutaj każdy znak się rozrasta, a to automatycznie powoduje, że cały dokument staje się dwa razy większy.