トップ 履歴 一覧 カテゴリ ソース 検索 ヘルプ RSS ログイン

Data/Unicode

INDEX

UNICODE

UTF-8の範囲

UNICODE(16進数) UTF-8 オクテット列(2進数)
0000 0000 - 0000 007F 0xxxxxxx
0000 0080 - 0000 07FF 110yyyyx 10xxxxxx
0000 0800 - 0000 FFFF 1110yyyy 10yxxxxx 10xxxxxx
0001 0000 - 001F FFFF 11110yyy 10yyxxxx 10xxxxxx 10xxxxxx
0020 0000 - 03FF FFFF 111110yy 10yyyxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000 - 7FFF FFFF 1111110y 10yyyyxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8で4バイトになる文字

JIS X 0213の第3・4水準漢字の一部。

該当漢字を書こうと思ったけど、このFSWikiはECU-JPでそのままじゃダメだった orz

サロゲートペア

Unicode に入れたい文字が増え2バイト(65536文字)に収まらなくなったため、基本の「1文字=2バイト」を維持しつつ一部については「1文字=4バイト」にするサロゲートペア(代用対)と言う方法がとられる。

UTF-16の未使用領域 0xD800〜0xDBFF を「上位サロゲート」、0xDC00〜0xDFFF を「下位サロゲート」をペアにして1文字を表す方法で 1024 × 1024 = 1,048,576文字分の領域が用意される。

最終更新時間:2012年12月30日 20時32分56秒 指摘や意見などあればSandBoxのBBSへ。