文字コード
セット
|
エンコーディング |
主に使われている用途 環境 特徴 |
| unicode |
UTF8 |
8ビット単位の可変長コード(1?4バイト)にエンコードする方式。ASCIIに対して上位互換となっており、文字の境界が明確である、エンコード・デコードに際して乗除算などの負荷の高い処理が必要ないなどの特長を持ち、インターネットではもっとも一般的に利用されている。 |
| unicode |
UTF-16 |
BMP (基本多言語面) を16bit、その他をサロゲートペア(Surrogate Pair)という仕組みを使い32bitで表す。Windows
XPなど近年のOSの内部では、この形式が使われている。 |
| Shift-JIS |
Shift_JIS-2004 |
MS-DOSの時代から広く使われている文字コード。漢字文字コードとして、「JISコード」を変形させたもの(シフトしたもの)を利用して、ANSI文字と共存させているのでこう呼ばれる。
Shift_JISでは、「噂」など一部の字の2バイト目に、0x5C(日本語環境では¥記号、英語環境ではバックスラッシュ)を使用している。この0x5Cを多くのプログラミング言語においてエスケープシーケンスとして認識し、初期のMS-DOSやJavaScript、CGI処理などで様々な問題が起こる。
|
| EUC-JP |
ASCII +
JIS X 0208 |
日本語EUC (EUC-JP) はUNIX上で日本語の文字を扱う場合にもっとも多く利用されている文字コード(符号化方式)のひとつ。
|
ISO-2022-JP
(JIS) |
ISO-2022-JP |
ISO-2022-JPは、インターネット上(特に電子メール)などで使われる日本の文字用の文字符号化方式。ISO/IEC 2022のエスケープシーケンスを利用して文字集合を切り替える7ビットのコードである。 |