Data/Unicode

UNICODE

UTF-8の範囲

UNICODE(16進数)	UTF-8 オクテット列(2進数)
0000 0000 - 0000 007F	0xxxxxxx
0000 0080 - 0000 07FF	110yyyyx 10xxxxxx
0000 0800 - 0000 FFFF	1110yyyy 10yxxxxx 10xxxxxx
0001 0000 - 001F FFFF	11110yyy 10yyxxxx 10xxxxxx 10xxxxxx
0020 0000 - 03FF FFFF	111110yy 10yyyxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000 - 7FFF FFFF	1111110y 10yyyyxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

JIS X 0213の第3・4水準漢字の一部。

該当漢字を書こうと思ったけど、このFSWikiはECU-JPでそのままじゃダメだった orz

Unicode に入れたい文字が増え2バイト（65536文字）に収まらなくなったため、基本の「1文字＝2バイト」を維持しつつ一部については「1文字＝4バイト」にするサロゲートペア（代用対）と言う方法がとられる。

UTF-16の未使用領域 0xD800～0xDBFF を「上位サロゲート」、0xDC00～0xDFFF を「下位サロゲート」をペアにして1文字を表す方法で 1024 × 1024 = 1,048,576文字分の領域が用意される。

最終更新時間：2012年12月30日 20時32分56秒　指摘や意見などあればSandBoxのBBSへ。