UTF-8
UTF-8(Unicode Transformation Format 8ビット)
Web上で最も普及している文字エンコードで、1文字あたり1〜4バイトを使用してUnicode標準のすべての文字を表現でき、ASCIIとの後方互換性を維持しています。
技術的詳細
UTF-8は可変長エンコードです:ASCII文字(U+0000〜U+007F)はASCIIの値と同一の1バイトを使用するため、すべてのASCIIテキストは有効なUTF-8です。2バイトでラテン文字、ギリシャ文字、キリル文字、アラビア文字(U+0080〜U+07FF)を、3バイトでほとんどのCJK文字(U+0800〜U+FFFF)を、4バイトで絵文字や希少な文字体系(U+10000〜U+10FFFF)を表現します。Webページの98%以上がUTF-8を使用しています。BOM(バイトオーダーマーク、EF BB BF)はオプションで、Windowsコンテキスト以外では一般的に推奨されません。
例
```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
const data = e.target.result;
console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```