class Encoding

[edit]

要約

文字エンコーディング(文字符号化方式)のクラスです。Rubyの多言語対応(M17N)機能において利用されます。

例えば文字列オブジェクトは、文字列のバイト表現の他にそのバイト表現がどのエンコーディングによるものであるかも併せて保持しています。この情報は String#encoding により取得できます。 Encoding オブジェクトを返すメソッドにはこの他に IO#internal_encoding, IO#external_encoding などがあります。

@see 多言語化

目次

特異メソッド
インスタンスメソッド
定数

特異メソッド

aliases -> Hash[permalink][rdoc][edit]

エンコーディングの別名に対して元の名前を対応づけるハッシュを返します。



p Encoding.aliases
#=> {"BINARY"=>"ASCII-8BIT", "ASCII"=>"US-ASCII", "ANSI_X3.4-1968"=>"US-ASCII",
#   "SJIS"=>"Windows-31J", "eucJP"=>"EUC-JP", "CP932"=>"Windows-31J"}
compatible?(obj1, obj2) -> Encoding | nil[permalink][rdoc][edit]

2つのオブジェクトのエンコーディングに関する互換性をチェックします。互換性がある場合はそのエンコーディングを、ない場合は nil を返します。

引数が両方とも文字列である場合、互換性があるならばその文字列を結合できます。この場合返り値のエンコーディングは結合した文字列が取るであろう Encoding オブジェクトを返します。



Encoding.compatible?("\xa1".force_encoding("iso-8859-1"), "b")
#=> #<Encoding:ISO-8859-1>

Encoding.compatible?(
  "\xa1".force_encoding("iso-8859-1"),
  "\xa1\xa1".force_encoding("euc-jp"))
#=> nil

引数が文字列でない場合でも、両方のオブジェクトが encoding を持つ場合には互換性を判定することができます。



Encoding.compatible?(Encoding::UTF_8, Encoding::CP932)
# => nil
Encoding.compatible?(Encoding::UTF_8, Encoding::US_ASCII)
# => #<Encoding:UTF-8>
[PARAM] obj1:
チェック対象のオブジェクト
[PARAM] obj2:
チェック対象のオブジェクト
default_external -> Encoding[permalink][rdoc][edit]

既定の外部エンコーディングを返します。

標準入出力、コマンドライン引数、open で開くファイルなどで、外部エンコーディングが指定されていない場合の既定値として利用されます。

Rubyはロケールまたは -E オプションに従って default_external を決定します。ロケールの確認・設定方法については各システムのマニュアルを参照してください。

default_external は必ず設定されます。Encoding.locale_charmap が nil を返す場合には US-ASCII が、ロケールにRubyが扱えないエンコーディングが指定されている場合には ASCII-8BIT が、default_external に設定されます。

[SEE_ALSO] Rubyの起動 locale(1), Encoding.locale_charmap Encoding.default_internal

default_external=(encoding)[permalink][rdoc][edit]

既定の外部エンコーディングを設定します。

default_external を変更する前に作成した文字列と、default_external を変更した後に作成した文字列とではエンコーディングが異なる可能性があるため、Ruby スクリプト内で Encoding.default_external を設定してはいけません。代わりに、ruby -E を使用して、正しい default_external で Ruby を起動してください。

デフォルトの外部エンコーディングがどのように使われるかについては Encoding.default_external を参照してください。

[SEE_ALSO] Rubyの起動 Encoding.default_external

default_internal -> Encoding | nil[permalink][rdoc][edit]

既定の内部エンコーディングを返します。デフォルトでは nil です。

標準入出力、コマンドライン引数、open で開くファイルなどで、内部エンコーディングが指定されていない場合の既定値として利用されます。

String#encodeString#encode! は、引数に Encoding が与えられていない場合、 default_internal を使用します。

文字列リテラルを作成した場合、エンコーディングには default_internal ではなく __ENCODING__ 特殊変数で参照できるスクリプトエンコーディングが使用されます。

default_internal は、ソースファイルの IO.internal_encoding または -E オプションで初期化されます。

[SEE_ALSO] Rubyの起動 Encoding.default_external

default_internal=(encoding)[permalink][rdoc][edit]

既定の内部エンコーディングを設定します。

default_internal を変更する前に作成した文字列と、default_internal を変更した後に作成した文字列とではエンコーディングが異なる可能性があるため、Ruby スクリプト内で Encoding.default_internal を設定してはいけません。代わりに、ruby -E を使用して、正しい default_internal で Ruby を起動してください。

デフォルトの内部エンコーディングがどのように使われるかについては Encoding.default_internal を参照してください。

[SEE_ALSO] Rubyの起動 Encoding.default_internal

find(name) -> Encoding[permalink][rdoc][edit]

指定された name という名前を持つ Encoding オブジェクトを返します。

[PARAM] name:
エンコーディング名を表す String を指定します。
[RETURN]
発見された Encoding オブジェクトを返します。
[EXCEPTION] ArgumentError:
指定した名前のエンコーディングが発見できないと発生します。

特殊なエンコーディング名として、ロケールエンコーディングを表す locale、default_external を表す external、default_internal を表す internal、ファイルシステムエンコーディングを表す filesystem があります。



p Encoding.find("utf-8")       #=> #<Encoding:UTF-8>
list -> [Encoding][permalink][rdoc][edit]

現在ロードされているエンコーディングのリストを返します。



Encoding.list
# => [#<Encoding:ASCII-8BIT>, #<Encoding:EUC-JP>,
#     #<Encoding:Shift_JIS>, #<Encoding:UTF-8>,
#     #<Encoding:ISO-2022-JP (dummy)>]

Encoding.find("US-ASCII")
# => #<Encoding:US-ASCII>

Encoding.list
# => [#<Encoding:ASCII-8BIT>, #<Encoding:EUC-JP>,
#     #<Encoding:Shift_JIS>, #<Encoding:UTF-8>,
#     #<Encoding:US-ASCII>, #<Encoding:ISO-2022-JP (dummy)>]
locale_charmap -> String | nil[permalink][rdoc][edit]

ロケールエンコーディングを決定するために用いる、locale charmap 名を返します。nl_langinfo 等がない環境では nil を、miniruby では ASCII_8BIT を返します。

Debian GNU/Linux + LANG=C

Encoding.locale_charmap #=> "ANSI_X3.4-1968"
LANG=ja_JP.EUC-JP

Encoding.locale_charmap #=> "EUC-JP"
SunOS 5 + LANG=C

Encoding.locale_charmap #=> "646"
SunOS 5 + LANG=ja

Encoding.locale_charmap #=> "eucJP"

[SEE_ALSO] charmap(5)

name_list -> [String][permalink][rdoc][edit]

利用可能なエンコーディングの名前を文字列の配列で返します。



p Encoding.name_list
#=> ["US-ASCII", "ASCII-8BIT", "UTF-8",
#    "ISO-8859-1", "Shift_JIS", "EUC-JP",
#    "Windows-31J",
#    "BINARY", "CP932", "eucJP", ...]

インスタンスメソッド

ascii_compatible? -> bool[permalink][rdoc][edit]

自身が ASCII 互換のエンコーディングである場合真返します。そうでない場合は偽を返します。



Encoding::UTF_8.ascii_compatible?     #=> true
Encoding::UTF_16BE.ascii_compatible?  #=> false
dummy? -> bool[permalink][rdoc][edit]

自身がダミーエンコーディングである場合に true を返します。そうでない場合に false を返します。

ダミーエンコーディングとは Ruby が名前を知っているものの実質的には対応していないエンコーディングのことです。例えば、ダミーエンコーディングで符号化された文字列の場合、 String#length はマルチバイト文字を考慮せずにバイト列の長さを返します。

ダミーエンコーディングも IO の外部エンコーディングに指定できます。また Ruby はサポートしていないが拡張ライブラリがサポートしているエンコーディングを扱う場合にも用います。



Encoding::ISO_2022_JP.dummy?       #=> true
Encoding::UTF_8.dummy?             #=> false
inspect -> String[permalink][rdoc][edit]

プログラマにわかりやすい表現の文字列を返します。



Encoding::UTF_8.inspect       #=> "#<Encoding:UTF-8>"
Encoding::ISO_2022_JP.inspect #=> "#<Encoding:ISO-2022-JP (dummy)>"
name -> String[permalink][rdoc][edit]
to_s -> String

エンコーディングの名前を返します。



Encoding::UTF_8.name       #=> "UTF-8"
names -> String[permalink][rdoc][edit]

エンコーディングの名前とエイリアス名の配列を返します。



Encoding::UTF_8.names      #=> ["UTF-8", "CP65001"]
replicate(name) -> Encoding[permalink][rdoc][edit]

レシーバのエンコーディングを複製(replicate)します。複製されたエンコーディングは元のエンコーディングと同じバイト構造を持たなければなりません。 name という名前のエンコーディングが既に存在する場合は ArgumentError を発生します。

Ruby 3.2 から非推奨となり、Ruby 3.3 で削除予定です。


encoding = Encoding::UTF_8.replicate("REPLICATED_UTF-8")     #=> #<Encoding:REPLICATED_UTF-8>
encoding.name                                                #=> "REPLICATED_UTF-8"
"\u3042".force_encoding(Encoding::UTF_8).valid_encoding?     #=> true
"\u3042".force_encoding(encoding).valid_encoding?            #=> true
"\u3042".force_encoding(Encoding::SHIFT_JIS).valid_encoding? #=> false

定数

US_ASCII -> Encoding[permalink][rdoc][edit]
ASCII -> Encoding
ANSI_X3_4_1968 -> Encoding

US-ASCII、いわゆる ASCII のことで、ISO 646 IRV と一致します。

7bit の範囲のみを含み、8bit 目の立っている文字 (たとえば \x80 など) が含まれる場合は正しいエンコーディングであるとみなしません。

ASCII_8BIT -> Encoding[permalink][rdoc][edit]
BINARY -> Encoding

ASCII-8BIT、ASCII互換オクテット列用のエンコーディングです。

もっぱら文字エンコーディングを持たないデータ、文字を符号化したのではない単なるバイトの列を表現するために用いますが、このエンコーディングは ASCII 互換であることがポイントです。

Big5 -> Encoding[permalink][rdoc][edit]
BIG5 -> Encoding

Big5 エンコーディングです。

台湾で使われている繁体字中国語のエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Big5

Big5_HKSCS -> Encoding[permalink][rdoc][edit]
BIG5_HKSCS -> Encoding
BIG5_HKSCS_2008 -> Encoding
Big5_HKSCS_2008 -> Encoding

Big5-HKSCS エンコーディングです。

香港で使われている Big5 の亜種です。

[SEE_ALSO] http://www.iana.org/assignments/charset-reg/Big5-HKSCS, http://www.ogcio.gov.hk/en/business/tech_promotion/ccli/hkscs/

BIG5_UAO -> Encoding[permalink][rdoc][edit]
Big5_UAO -> Encoding

Big5_UAO エンコーディングです。

Big5 の亜種(非公式的拡張)です。

Unicodeとの対応表が http://moztw.org/docs/big5/table/big5_2003-b2u.txt にあります。

CESU_8 -> Encoding[permalink][rdoc][edit]

CESU-8 エンコーディングです。

UTF-8 の亜種です。Unicode コンソーシアムは使用を推奨していません。

[SEE_ALSO] https://bugs.ruby-lang.org/issues/15931, https://www.unicode.org/reports/tr26/tr26-4.html

Windows_1250 -> Encoding[permalink][rdoc][edit]
CP1250 -> Encoding
WINDOWS_1250 -> Encoding

Windows-1250 エンコーディング。

ISO8859-2 の亜種です。

[SEE_ALSO] http://www.microsoft.com/globaldev/reference/sbcs/1250.mspx, https://en.wikipedia.org/wiki/Windows-1250

Windows_1251 -> Encoding[permalink][rdoc][edit]
CP1251 -> Encoding
WINDOWS_1251 -> Encoding

Windows-1251 エンコーディング。

キリル文字を用いる言語を取り扱う8bit single-byteエンコーディングです。

[SEE_ALSO] http://www.iana.org/assignments/character-sets, http://www.microsoft.com/globaldev/reference/sbcs/1251.mspx, https://en.wikipedia.org/wiki/Windows-1251

Windows_1252 -> Encoding[permalink][rdoc][edit]
CP1252 -> Encoding
WINDOWS_1252 -> Encoding

Windows-1252 エンコーディングです。

ISO8859-1 の亜種です。

[SEE_ALSO] Encoding::ISO_8859_1 http://www.iana.org/assignments/character-sets, http://www.microsoft.com/globaldev/reference/sbcs/1252.mspx, https://en.wikipedia.org/wiki/Windows-1252

Windows_1253 -> Encoding[permalink][rdoc][edit]
CP1253 -> Encoding
WINDOWS_1253 -> Encoding

Windows-1253 エンコーディング。

ISO8859-7 の亜種です。

[SEE_ALSO] Encoding::ISO_8859_7, http://www.iana.org/assignments/character-sets, http://www.microsoft.com/globaldev/reference/sbcs/1253.mspx, https://en.wikipedia.org/wiki/Windows-1253

Windows_1254 -> Encoding[permalink][rdoc][edit]
CP1254 -> Encoding
WINDOWS_1254 -> Encoding

Windows-1254 エンコーディング。

ISO8859-9 の亜種です。

[SEE_ALSO] Encoding::ISO_8859_9, http://www.iana.org/assignments/character-sets, http://www.microsoft.com/globaldev/reference/sbcs/1254.mspx, https://en.wikipedia.org/wiki/Windows-1254

Windows_1255 -> Encoding[permalink][rdoc][edit]
CP1255 -> Encoding
WINDOWS_1255 -> Encoding

Windows-1255 エンコーディング。

ISO8859-8 の亜種です。

[SEE_ALSO] Encoding::ISO_8859_8, http://www.iana.org/assignments/character-sets, http://www.microsoft.com/globaldev/reference/sbcs/1255.mspx, https://en.wikipedia.org/wiki/Windows-1255

Windows_1256 -> Encoding[permalink][rdoc][edit]
CP1256 -> Encoding
WINDOWS_1256 -> Encoding

Windows-1256 エンコーディング。

Windowsで用いられる、アラビア文字を扱う 8bit single-byte エンコーディングです。

[SEE_ALSO] Encoding::ISO_8859_6, http://www.iana.org/assignments/character-sets, http://www.microsoft.com/globaldev/reference/sbcs/1256.mspx, https://en.wikipedia.org/wiki/Windows-1256

Windows_1257 -> Encoding[permalink][rdoc][edit]
CP1257 -> Encoding
WINDOWS_1257 -> Encoding

Windows-1257 エンコーディング。

ISO8859-13 の亜種です。

[SEE_ALSO] Encoding::ISO8859_13, http://www.iana.org/assignments/character-sets, http://www.microsoft.com/globaldev/reference/sbcs/1257.mspx, https://en.wikipedia.org/wiki/Windows-1257

Windows_1258 -> Encoding[permalink][rdoc][edit]
CP1258 -> Encoding
WINDOWS_1258 -> Encoding

WINDOWS-1258 エンコーディング。

ベトナム語を扱う 8bit single-byteエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Windows-1258

IBM437 -> Encoding[permalink][rdoc][edit]
CP437 -> Encoding

CP437 エンコーディング。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_437, Encoding::CP869

CP50220 -> Encoding[permalink][rdoc][edit]

CP50220 エンコーディング、 Windows で用いられる ISO-2022-JP 亜種です。

CP50221 とほぼ同様のエンコーディングですが、他のエンコーディングへの変換テーブルが少し異なります。

[SEE_ALSO] http://legacy-encoding.osdn.jp/wiki/index.php?cp50220

CP50221 -> Encoding[permalink][rdoc][edit]

Windows で用いられる、ISO-2022-JP 亜種です。

ISO-2022-JP に加え、ESC ( I でいわゆる半角カナを許し、Windows の機種依存文字を扱うことができます。

[SEE_ALSO] http://legacy-encoding.osdn.jp/wiki/index.php?cp50221

CP51932 -> Encoding[permalink][rdoc][edit]

Windows で用いられる、日本語 EUC 亜種です。

G0 が US-ASCII、G1 が JIS X 0201 片仮名図形文字集合、G2 が JIS X 0208 + Windows の機種依存文字となっており、G3 は未割り当てになっています。

[SEE_ALSO] http://legacy-encoding.osdn.jp/wiki/index.php?cp51932

UTF_7 -> Encoding[permalink][rdoc][edit]
CP65000 -> Encoding

UTF-7 です。

7ビットの範囲内で表現される、Unicode のエンコーディングの一種です。ダミーエンコーディングです。

UTF_8 -> Encoding[permalink][rdoc][edit]
CP65001 -> Encoding

UTF-8。Unicode や ISO 10646 を ASCII 互換な形で符号化するための方式です。

BOM を含みません。

[SEE_ALSO] https://tools.ietf.org/html/rfc3629

IBM737 -> Encoding[permalink][rdoc][edit]
CP737 -> Encoding

CP437 エンコーディング。

ギリシャ語を取り扱う 8bit single-byteエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_737

IBM775 -> Encoding[permalink][rdoc][edit]
CP775 -> Encoding

CP775 エンコーディング。

バルト語派の言語を扱うための 8bit single-byteエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_775

CP850 -> Encoding[permalink][rdoc][edit]
IBM850 -> Encoding

CP850 エンコーディング。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_850

IBM852 -> Encoding[permalink][rdoc][edit]
CP852 -> Encoding

CP852 エンコーディング。

ラテンアルファベットを用いる中欧の言語のための 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_852

IBM855 -> Encoding[permalink][rdoc][edit]
CP855 -> Encoding

CP855 エンコーディング。

キリル文字を用いる言語のための 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_855

IBM857 -> Encoding[permalink][rdoc][edit]
CP857 -> Encoding

CP857 エンコーディング。

トルコ語に用いられる、 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_857

IBM860 -> Encoding[permalink][rdoc][edit]
CP860 -> Encoding

CP860 エンコーディング。

ポルトガル語に用いられる、 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_860

IBM861 -> Encoding[permalink][rdoc][edit]
CP861 -> Encoding

CP861 エンコーディング。

アイスランド語に用いられる、 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_861

IBM862 -> Encoding[permalink][rdoc][edit]
CP862 -> Encoding

CP862 エンコーディング。

ヘブライ語に用いられる、 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_862

IBM863 -> Encoding[permalink][rdoc][edit]
CP863 -> Encoding

CP863 エンコーディング。

フランス語に用いられる、 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_863

IBM864 -> Encoding[permalink][rdoc][edit]
CP864 -> Encoding

CP864 エンコーディング。

アラビア語に用いられる、 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_864

IBM865 -> Encoding[permalink][rdoc][edit]
CP865 -> Encoding

CP865 エンコーディング。

北欧の諸言語に用いられる、 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_865

IBM866 -> Encoding[permalink][rdoc][edit]
CP866 -> Encoding

CP866 エンコーディング。

キリル文字を使う諸言語に用いられる、 8bit single-byte エンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_866

IBM869 -> Encoding[permalink][rdoc][edit]
CP869 -> Encoding

CP869 エンコーディング。

ギリシャ語を取り扱う 8bit single-byteエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Code_page_869, Encoding::CP737

Windows_874 -> Encoding[permalink][rdoc][edit]
CP874 -> Encoding
WINDOWS_874 -> Encoding

Windows-874 エンコーディング。

タイ語を扱うエンコーディングで、ISO8859-11の亜種です。

[SEE_ALSO] Encoding::TIS_620, Encoding::ISO_8859_11, http://www.microsoft.com/globaldev/reference/sbcs/874.mspx

KOI8_R -> Encoding[permalink][rdoc][edit]
CP878 -> Encoding

KOI8-R エンコーディング。

ロシア語のキリル文字で使われる8bit single-byteエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/KOI8-R

Windows_31J -> Encoding[permalink][rdoc][edit]
CP932 -> Encoding
CSWINDOWS31J -> Encoding
CsWindows31J -> Encoding
WINDOWS_31J -> Encoding
PCK -> Encoding
SJIS -> Encoding

Windows-31J、Windows で用いられる、シフトJIS亜種で、CP932とも言います。

7bit 部分が論理的には US-ASCIIであり、また Windows の機種依存文字を扱うことができます。

[SEE_ALSO] http://www2d.biglobe.ne.jp/~msyk/charcode/cp932/index.html, http://legacy-encoding.osdn.jp/wiki/index.php?cp932

GBK -> Encoding[permalink][rdoc][edit]
CP936 -> Encoding

GBK エンコーディング

中国で用いられる簡体字中国語のエンコーディングです。

[SEE_ALSO] http://www.iana.org/assignments/character-sets, http://www.iana.org/assignments/charset-reg/GBK, http://www.microsoft.com/globaldev/reference/dbcs/936.mspx

CP949 -> Encoding[permalink][rdoc][edit]

CP949 エンコーディング。

EUC-KR に近い、韓国語を取り扱う multi-byte エンコーディングです。

[SEE_ALSO] Encoding::EUC_KR, http://www.microsoft.com/globaldev/reference/dbcs/949.mspx, https://en.wikipedia.org/wiki/EUC-KR#EUC-KR

CP950 -> Encoding[permalink][rdoc][edit]

CP950 エンコーディングです。

Windows で使われる Big5 の亜種です。

[SEE_ALSO] http://msdn.microsoft.com/en-us/goglobal/cc305155.aspx

CP951 -> Encoding[permalink][rdoc][edit]

CP951 エンコーディングです。

Windows で使われる Big5-HKSCS の亜種です。

[SEE_ALSO] http://www.microsoft.com/hk/hkscs/default.aspx, http://www.microsoft.com/downloads/en/details.aspx?FamilyID=0e6f5ac8-7baa-4571-b8e8-78b3b776afd7&DisplayLang=en, http://blogs.msdn.com/b/shawnste/archive/2007/03/12/cp-951-hkscs.aspx

IBM037 -> Encoding[permalink][rdoc][edit]
EBCDIC_CP_US -> Encoding

IBM037 エンコーディング。

ダミーエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/EBCDIC_037

EMACS_MULE -> Encoding[permalink][rdoc][edit]
Emacs_Mule -> Encoding

Emacs-Mule エンコーディングです。

Emacsの多言語化(Mule)で使われているステートレスのエンコーディングです。

[SEE_ALSO] http://web.archive.org/web/20100714080650/http://www.m17n.org/mule/pricai96/mule.en.html

EUC_CN -> Encoding[permalink][rdoc][edit]
EUCCN -> Encoding
EucCN -> Encoding

ENC-CN エンコーディングです。

中国で用いられる簡体字中国語 EUCのエンコーディングです。 GB2312 と呼ばれることも多いです。

EUC_JP -> Encoding[permalink][rdoc][edit]
EucJP -> Encoding
EUCJP -> Encoding

IANA Character Sets にある EUC-JP のことです。

日本語 EUC 亜種で、G0 が US-ASCII、G1 が JIS X 0201 片仮名図形文字集合、G2 が JIS X 0208、G3 が JIS X 0212 となっています。 EUC-JP を指定する場合は、それが実際には CP51932 のことである可能性を考えなければなりません。

EUCJP_MS -> Encoding[permalink][rdoc][edit]
EucJP_ms -> Encoding
EUC_JP_MS -> Encoding

eucJP-ms、Unix 系で用いられる、日本語 EUC 亜種です。

EUC-JPに加え、Windowsの機種依存文字とユーザ定義文字を扱うことができます。

[SEE_ALSO] http://www2d.biglobe.ne.jp/~msyk/charcode/cp932/eucJP-ms.html, http://legacy-encoding.osdn.jp/wiki/index.php?eucJP-ms, http://blog.livedoor.jp/numa2666/archives/50980727.html

EUC_KR -> Encoding[permalink][rdoc][edit]
EUCKR -> Encoding
EucKR -> Encoding

EUC-KR エンコーディングです。

韓国語 EUC のエンコーディングです。

EUC_TW -> Encoding[permalink][rdoc][edit]
EUCTW -> Encoding
EucTW -> Encoding

EUC-TW エンコーディングです。

台湾で用いられる繁体字中国語 EUCのエンコーディングです。

GB12345 -> Encoding[permalink][rdoc][edit]

GB 12345 エンコーディング。

GB 2312 から派生したもので、繁体字中国語を取り扱うエンコーディングです。

GB18030 -> Encoding[permalink][rdoc][edit]

GBK エンコーディング

中国で用いられる中国語のエンコーディングです。

[SEE_ALSO] http://www.iana.org/assignments/charset-reg/GB18030

GB1988 -> Encoding[permalink][rdoc][edit]

GB1988 エンコーディング。

ISO/IEC 646 の中国版です。

ISO_2022_JP -> Encoding[permalink][rdoc][edit]
ISO2022_JP -> Encoding

ISO 2022-JP エンコーディングです。

[SEE_ALSO] http://tools.ietf.org/html/rfc1468

ISO_2022_JP_2 -> Encoding[permalink][rdoc][edit]
ISO2022_JP2 -> Encoding

ISO-2022-JP-2 エンコーディングです。

ISO-2022-JP の拡張版です。

[SEE_ALSO] Encoding::ISO_2022_JP

ISO_8859_1 -> Encoding[permalink][rdoc][edit]
ISO8859_1 -> Encoding

ISO-8859-1 エンコーディングです。

多くの西欧言語を含むさまざまなラテン文字言語を表現するための 8bitエンコーディングです。

Latin-1 とも呼ばれます。

ISO_8859_10 -> Encoding[permalink][rdoc][edit]
ISO8859_10 -> Encoding

ISO 8859-10 エンコーディング。

北欧の言語を扱う 8bit single-byte エンコーディングです。

ISO_8859_11 -> Encoding[permalink][rdoc][edit]
ISO8859_11 -> Encoding

ISO8859-11 エンコーディング。

タイ語を扱う 8bit single-byte エンコーディングです。

[SEE_ALSO] Encoding::TIS_620

ISO_8859_13 -> Encoding[permalink][rdoc][edit]
ISO8859_13 -> Encoding

ISO8859-13 エンコーディング。

バルト語派の言語を扱う8bit single-byteエンコーディングです。

[SEE_ALSO] Encoding::Windows_1257

ISO_8859_14 -> Encoding[permalink][rdoc][edit]
ISO8859_14 -> Encoding

ISO8859-14 エンコーディング。

ケルト語派の言語を扱う8bit single-byteエンコーディングです。

[SEE_ALSO] Encoding::Windows_1257

ISO_8859_15 -> Encoding[permalink][rdoc][edit]
ISO8859_15 -> Encoding

ISO 8859-15 エンコーディング。

ISO 8859-1 の改訂版です。

ISO_8859_16 -> Encoding[permalink][rdoc][edit]
ISO8859_16 -> Encoding

ISO 8859-16 エンコーディング。

東欧を中心とした地域の諸語を扱う 8bit single-byte エンコーディングです。

ISO_8859_2 -> Encoding[permalink][rdoc][edit]
ISO8859_2 -> Encoding

ISO8859-2 エンコーディング。

中東欧の言語を扱う 8bit single-byte エンコーディングです。

ISO_8859_3 -> Encoding[permalink][rdoc][edit]
ISO8859_3 -> Encoding

ISO8859-3 エンコーディング。

トルコ語、マルタ語、エスペラントを扱う 8bit single-byte エンコーディングです。

ISO_8859_4 -> Encoding[permalink][rdoc][edit]
ISO8859_4 -> Encoding

ISO 8859-4 エンコーディング。

北欧の言語を扱う 8bit single-byte エンコーディングです。

ISO_8859_5 -> Encoding[permalink][rdoc][edit]
ISO8859_5 -> Encoding

ISO 8859-5 エンコーディング。

キリル文字を用いる言語を扱う 8bit single-byte エンコーディングです。

ISO_8859_6 -> Encoding[permalink][rdoc][edit]
ISO8859_6 -> Encoding

ISO8859-6 エンコーディング。

アラビア文字を扱う 8bit single-byte エンコーディングです。

[SEE_ALSO] Encoding::Windows_1256

ISO_8859_7 -> Encoding[permalink][rdoc][edit]
ISO8859_7 -> Encoding

ISO8859-7 エンコーディング。

ギリシャ語を扱う 8bit single-byte エンコーディングです。

[SEE_ALSO] Encoding::Windows_1253

ISO_8859_8 -> Encoding[permalink][rdoc][edit]
ISO8859_8 -> Encoding

ISO8859-8 エンコーディング。

ヘブライ語を扱う 8bit single-byte エンコーディングです。

[SEE_ALSO] Encoding::Windows_1255

ISO_8859_9 -> Encoding[permalink][rdoc][edit]
ISO8859_9 -> Encoding

ISO8859-9 エンコーディング。

ISO8859-1 に近い、トルコ語を扱うことができる8bit single-byteエンコーディングです。

[SEE_ALSO] Encoding::Windows_1254

ISO_2022_JP_KDDI -> Encoding[permalink][rdoc][edit]

ISO-2022-JP-KDDI エンコーディングです。

ISO-2022-JP の亜種です。 KDDI の携帯電話で使われる絵文字が含まれています。

[SEE_ALSO] https://www.au.com/ezfactory/tec/spec/img/typeD.pdf

KOI8_U -> Encoding[permalink][rdoc][edit]

KOI8-U エンコーディング。

ウクライナ語のキリル文字で使われる8bit single-byteエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/KOI8-U

MacCentEuro -> Encoding[permalink][rdoc][edit]
MACCENTEURO -> Encoding

MacCentEuro エンコーディング。

Mac OSで使われる 8bit single-byteエンコーディングで、中欧および南東欧の言語を取り扱うものです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Macintosh_Central_European_encoding

MacCroatian -> Encoding[permalink][rdoc][edit]
MACCROATIAN -> Encoding

MacCroatian エンコーディング。

Mac OS で使われる 8bit single-byteエンコーディングで、クロアチア語、スベロニア語を取り扱うものです。

[SEE_ALSO] https://www.unicode.org/Public/MAPPINGS/VENDORS/APPLE/CROATIAN.TXT

MacCyrillic -> Encoding[permalink][rdoc][edit]
MACCYRILLIC -> Encoding

MacCyrillic エンコーディング。

Mac OS で使われる 8bit single-byte エンコーディングで、キリル文字を取り扱うものです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Macintosh_Cyrillic_encoding

MacGreek -> Encoding[permalink][rdoc][edit]
MACGREEK -> Encoding

MacGreek エンコーディング。

Mac OSで使われる 8bit single-byte エンコーディングで、ギリシャ語のために使われます。

[SEE_ALSO] https://www.unicode.org/Public/MAPPINGS/VENDORS/APPLE/GREEK.TXT

MacIceland -> Encoding[permalink][rdoc][edit]
MACICELAND -> Encoding

MacIceland エンコーディング。

Mac OSで使われる 8bit single-byte エンコーディングで、アイスランド語のために使われます

[SEE_ALSO] https://en.wikipedia.org/wiki/Mac_Icelandic_encoding

MacJapanese -> Encoding[permalink][rdoc][edit]
MACJAPAN -> Encoding
MACJAPANESE -> Encoding
MacJapan -> Encoding

MacJapanese エンコーディング。

Mac OS の 9.x までで用いられていた Shift_JIS 亜種です。

[SEE_ALSO] https://unicode.org/Public/MAPPINGS/VENDORS/APPLE/JAPANESE.TXT, https://ja.wikipedia.org/wiki/MacJapanese

MacRoman -> Encoding[permalink][rdoc][edit]
MACROMAN -> Encoding

MacRoman エンコーディング。

Mac OSで使われる 8bit single-byte エンコーディングで、西欧を中心としたラテン文字を用いる諸語を取り扱うためのものです。

IANA character-sets で "macintosh" で表現されるものです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Mac_OS_Roman

MacRomania -> Encoding[permalink][rdoc][edit]
MACROMANIA -> Encoding

MacRoman エンコーディング。

Mac OSで使われる 8bit single-byte エンコーディングで、ルーマニア語のために使われます。

[SEE_ALSO] https://www.unicode.org/Public/MAPPINGS/VENDORS/APPLE/ROMANIAN.TXT

MacThai -> Encoding[permalink][rdoc][edit]
MACTHAI -> Encoding

MacThai エンコーディング。

タイ語を扱うエンコーディングで、ISO8859-11の亜種です。

[SEE_ALSO] Encoding::TIS_620, Encoding::ISO_8859_11

MacTurkish -> Encoding[permalink][rdoc][edit]
MACTURKISH -> Encoding

MacTurkish エンコーディング。

Mac OSで使われる 8bit single-byte エンコーディングで、トルコ語のために使われます。

[SEE_ALSO] https://www.unicode.org/Public/MAPPINGS/VENDORS/APPLE/TURKISH.TXT

MacUkraine -> Encoding[permalink][rdoc][edit]
MACUKRAINE -> Encoding

MacUkraine エンコーディング。

Mac OS で使われる、ウクライナ語キリル文字を取り扱うエンコーディング。 MacCyrillic の亜種です。

[SEE_ALSO] https://en.wikipedia.org/wiki/Macintosh_Ukrainian_encoding

Shift_JIS -> Encoding[permalink][rdoc][edit]
SHIFT_JIS -> Encoding

IANA Character Sets にある Shift_JIS のことです。

基本的にはJIS X 0208:1997の付属書1にある「シフト符号化表現」のことですが、 Ruby M17N では 7bit 部分が US-ASCII になっています。

SJIS_DOCOMO -> Encoding[permalink][rdoc][edit]
SJIS_DoCoMo -> Encoding

SJIS-DoCoMo エンコーディングです。

Shift_JIS, CP932 の亜種です。 DoCoMo の携帯電話で使われる絵文字が含まれています。

[SEE_ALSO] https://www.nttdocomo.co.jp/english/service/developer/make/content/pictograph/basic/index.html, https://www.nttdocomo.co.jp/english/service/developer/make/content/pictograph/extention/index.html

SJIS_KDDI -> Encoding[permalink][rdoc][edit]

SJIS-KDDI エンコーディングです。

Shift_JIS, CP932 の亜種です。 KDDI の携帯電話で使われる絵文字が含まれています。

[SEE_ALSO] https://www.au.com/ezfactory/tec/spec/img/typeD.pdf

SJIS_SOFTBANK -> Encoding[permalink][rdoc][edit]
SJIS_SoftBank -> Encoding

SJIS-SoftBank エンコーディングです。

Shift_JIS, CP932 の亜種です。 SoftBank の携帯電話で使われる絵文字が含まれています。

[SEE_ALSO] http://creation.mb.softbank.jp/mc/tech/tech_pic/pic_index.html

STATELESS_ISO_2022_JP -> Encoding[permalink][rdoc][edit]
Stateless_ISO_2022_JP -> Encoding

stateless-ISO-2022-JP エンコーディングです。

ISO-2022-JPをステートレスに扱うための方式です。 Emacs-Mule エンコーディングを元にしています。

STATELESS_ISO_2022_JP_KDDI -> Encoding[permalink][rdoc][edit]
Stateless_ISO_2022_JP_KDDI -> Encoding

stateless-ISO-2022-JP-KDDI エンコーディングです。

stateless-ISO-2022-JP の亜種です。 KDDI の携帯電話で使われる絵文字が含まれています。

[SEE_ALSO] https://www.au.com/ezfactory/tec/spec/img/typeD.pdf

TIS_620 -> Encoding[permalink][rdoc][edit]

TIS-620 エンコーディング。

タイ語を扱うためのエンコーディングで、 ISO8859-11 とほぼ同一のエンコーディングです。

[SEE_ALSO] https://en.wikipedia.org/wiki/Thai_Industrial_Standard_620-2533

UTF_16BE -> Encoding[permalink][rdoc][edit]
UCS_2BE -> Encoding

UTF-16BE (ビッグエンディアン) です。

BOM を含みません。

UTF_32BE -> Encoding[permalink][rdoc][edit]
UCS_4BE -> Encoding

UTF-32BE (ビッグエンディアン) です。

BOM を含みません。

UTF_32LE -> Encoding[permalink][rdoc][edit]
UCS_4LE -> Encoding

UTF-32LE (リトルエンディアン) です。

BOM を含みません。

UTF8_DOCOMO -> Encoding[permalink][rdoc][edit]
UTF8_DoCoMo -> Encoding

UTF8-DoCoMo エンコーディングです。

UTF-8 の亜種です。 DoCoMo の携帯電話で使われる絵文字が含まれています。

[SEE_ALSO] https://www.nttdocomo.co.jp/english/service/developer/make/content/pictograph/basic/index.html, https://www.nttdocomo.co.jp/english/service/developer/make/content/pictograph/extention/index.html

UTF8_KDDI -> Encoding[permalink][rdoc][edit]

UTF8-KDDI エンコーディングです。

UTF8 の亜種です。 KDDI の携帯電話で使われる絵文字が含まれています。

[SEE_ALSO] https://www.au.com/ezfactory/tec/spec/img/typeD.pdf

UTF8_MAC -> Encoding[permalink][rdoc][edit]
UTF_8_MAC -> Encoding
UTF_8_HFS -> Encoding

UTF8-MAC、アップルによって修正された Normalization Form D(分解済み)という形式のUTF-8です。

[SEE_ALSO] http://developer.apple.com/jp/technotes/tn1150.html, http://developer.apple.com/jp/technotes/tn2078.html

UTF8_SOFTBANK -> Encoding[permalink][rdoc][edit]
UTF8_SoftBank -> Encoding

UTF8-SoftBank エンコーディングです。

UTF-8 の亜種です。 SoftBank の携帯電話で使われる絵文字が含まれています。

[SEE_ALSO] http://creation.mb.softbank.jp/mc/tech/tech_pic/pic_index.html

UTF_16 -> Encoding[permalink][rdoc][edit]

UTF-16 (BOMを含む) です。

ダミーエンコーディングです。

UTF_16LE -> Encoding[permalink][rdoc][edit]

UTF-16LE (リトルエンディアン) です。

BOM を含みません。

UTF_32 -> Encoding[permalink][rdoc][edit]

UTF-32 (BOMを含む) です。

ダミーエンコーディングです。