14.1 エスケープシーケンス (escape sequences)

バックスラッシュ文字 \ は、1 バイト文字コード、または Unicode コードポ イントをエスケープするのに使います。

\ooo の形式 (ooo は 8 進値の 3 文字) は、特定のフォントエンコード内の 文字コード番号を指し示すのに使えます。例えば、Adobe Symbol フォントは、 無限大の記号を 8 進 245 番で示すようなカスタムエンコードを使用します。 これは、拡張文字列としてフォント名と文字コードを "{/Symbol \245}" のよ うに指定することで埋め込むことができます。これは主に PostScript 出力形 式で有用ですが、これは UTF-8 エンコーディングの処理は容易には行えませ ん。

\U+hhhh の形式の Unicode のコードポイントで文字を指定することができま す。ここで hhhh は 16 進値の 4 または 5 文字です。例えば、無限大の記号 ∞のコードポイントは \U+221E です。これは、必要ならば出力時に UTF-8 の バイト列に変換されます。UTF-8 環境では、印字可能な特殊文字は他の文字と 同様に文字列内で処理できるので、この仕組みは必要ありません。しかしこれ は結合文字や発音区別符号 (例えばベクトルを意味するための文字の上の矢印 など) には有用です。以下参照: set encoding (113.27), utf8 (113.27)。または オンラインユニコードデモ

を参照。

竹野茂治@新潟工科大学
2024-12-02