"UTF"はいくつある? このエントリーを含むはてなブックマーク

Unicode / ISO 10646の成立過程においては、様々な符号化方法が(ジョークも含めて)提案され、その結果「utf...」で始まる用語が頻出するようになりました(ちなみに、UTF = UCS Transformation Format)。このページでは「utf...」とつくものを(文字コードに限らず)リストアップしてみました。識者のコメントをお願いいたします。また、見落としがあればご指摘くだされば幸いです。

UTF... コメント
UTF-0 着物の女性(http://www.misanthrope.co.uk/)? 他にも文字コードの文脈で出てくるようだが、よくわからない。
UTF-1 かつてISO 10646:1993に登録されていたが、いろいろ欠陥があってお蔵入りになったらしい。参照:http://czyborra.com/utf/#UTF-1
UTF-2 UTF-8の前身、UTF-8FSSなどとも言うらしい。
UTF-3 UTF-7FSSの別名。
UTF-4 UCS-4のことらしい。
UTF-5 Martin Duerst氏によって提案された、Unicodeを5ビット([A-V][0-9]の範囲)で表現する方式。http://www.i-d-n.net/draft/draft-jseng-utf5-01.txt
UTF-6 DNSのプロトコルで安全に使えるようにしたものらしい。http://www.i-d-n.net/draft/draft-ietf-idn-utf6-00.txt参照。
UTF-7 主に電子メールでの利用を配慮した、7ビットのCES。RFC 1642 (ftp://ftp.nic.ad.jp/rfc/rfc1642.txt) 参照。
UTF-7, 5 1997年、Jörg Knappen氏によって提案された、ISO 4873向けにUTF-8を改良したもの、らしい。「UTF-seven-decimal-five」と読む。参照:http://czyborra.com/utf/#UTF-9
UTF-7 UTF-7, 5の別名?
UTF-7FSS http://www.cit.gu.edu.au/~davidt/cit3611/C_UNIX/ISO-2022.htmによれば、「7-bit File System Safe (also known as UTF-3), defined by Davis/Jenkins.」だそうです。
UTF-8 RFC 2279 (http://www.ietf.org/rfc/rfc2279.txt) を参照。
UTF-8B
UTF-8C
UTF-8FSS http://www.cit.gu.edu.au/~davidt/cit3611/C_UNIX/ISO-2022.htmによれば「8-bit File System Safe (also known as UTF-2), defined by Thompson.」だそうです。
UTF-8m
UTF-8N
UTF-8S
UTF-8s'
UTF-8x
UTF-8z
UTF-8-16 (=UTF-8S?)
UTF-9 Jerome Abela氏によって提案された「UTF-8 を改造した、ISO-8859-1 (Latin-1) 向けのエンコーディング」だそうです。参照:http://www.globecom.net/ietf/draft/draft-abela-utf9-00.htmlhttp://www.d2.dion.ne.jp/~imady/kcode/kcodemame.htmlなど。
UTF-15 Unicodeメーリングリストの過去ログやらタイ語で書かれたページやらに見られるのだが、内容は不明。
UTF-16 RFC 2781 (ftp://ftp.nic.ad.jp/rfc/rfc2781.txt) 参照。
UTF-16BE
UTF-16F
UTF-16LE
UTF-16S
UTF-16x 前寺正彦氏によって提案されたUTF-16の拡張。UCS-4全体を表現できるようにしたもの。http://www.ceres.dti.ne.jp/~maedera/UTF16X.TXT このあたりのUnicode/ISO 10646側の動きはけっこう見苦しかったですよねぇ。
UTF-17 http://www.ietf.org/internet-drafts/draft-whistler-utf17-01.txtにあったんですが、消えちゃったようです。
UTF-17S
UTF-32 Unicodeのスカラ値を32ビットで表現したもの。要するにUCS-4のUnicode版(1バイト無駄?)だが、いくつかの制限がある。http://www.unicode.org/unicode/reports/tr19/
UTF-32BE UTF-32のビッグエンディアン版。http://www.unicode.org/unicode/reports/tr19/
UTF-32LE UTF-32のリトルエンディアン版。http://www.unicode.org/unicode/reports/tr19/
UTF-32S
UTF-33 ジョークUTFの一。UTF-32の拡張。UTF-168の別名 (^_^;;
UTF-48 ジョークUTFの一。UTF-32の変種?
UTF-64 ジョークUTFの一。本物(Keinanen, Paul: authentic UTF-64 proposal (three 21-bit chars in a 64-bit word))と偽者(Cimarosti, Marco (proposer) and Ewell, Doug (implementer): apocryphal UTF-64 proposal (three 21-bit chars or nine 7-bit chars in a 64-bit word))とがある (^_^;;
UTF-168 ジョークUTFの一。UTF-32の拡張。別名UTF-33 (^_^;;
UTF-2000 Unicodeとは別物(そもそも文字コードではない)。http://kanji.zinbun.kyoto-u.ac.jp/~tomo/UTF-2000/
UTF-EBCDIC IBMのEBCDICと親和性の高いUnicodeの形式。http://www.unicode.org/unicode/reports/tr16/
UTF-FSS http://www.cit.gu.edu.au/~davidt/cit3611/C_UNIX/ISO-2022.htmによれば、「a version of UTF defined by Ken Thompson, and used in the Plan 9 operating system.」だそうです。
UTF-MU http://www.cit.gu.edu.au/~davidt/cit3611/C_UNIX/ISO-2022.htmによれば、「7-bit Mail System Safe (also known as MU), defined by van der Poel. It uses the Base64 encoding, which has already been implemented in many MIME programs.」だそうです。
UTF-Z

参考文献


mailto: s-moroNO@SPAMhanazono.ac.jp
Last update: 2001/09/21 10:21