INDEX
UNICODE
UTF-8の範囲
| UNICODE(16進数) | UTF-8 オクテット列(2進数) |
|---|---|
| 0000 0000 - 0000 007F | 0xxxxxxx |
| 0000 0080 - 0000 07FF | 110yyyyx 10xxxxxx |
| 0000 0800 - 0000 FFFF | 1110yyyy 10yxxxxx 10xxxxxx |
| 0001 0000 - 001F FFFF | 11110yyy 10yyxxxx 10xxxxxx 10xxxxxx |
| 0020 0000 - 03FF FFFF | 111110yy 10yyyxxx 10xxxxxx 10xxxxxx 10xxxxxx |
| 0400 0000 - 7FFF FFFF | 1111110y 10yyyyxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
UTF-8で4バイトになる文字
JIS X 0213の第3・4水準漢字の一部。
該当漢字を書こうと思ったけど、このFSWikiはECU-JPでそのままじゃダメだった orz
サロゲートペア
Unicode に入れたい文字が増え2バイト(65536文字)に収まらなくなったため、基本の「1文字=2バイト」を維持しつつ一部については「1文字=4バイト」にするサロゲートペア(代用対)と言う方法がとられる。
UTF-16の未使用領域 0xD800〜0xDBFF を「上位サロゲート」、0xDC00〜0xDFFF を「下位サロゲート」をペアにして1文字を表す方法で 1024 × 1024 = 1,048,576文字分の領域が用意される。
最終更新時間:2012年12月30日 20時32分56秒 指摘や意見などあればSandBoxのBBSへ。