はじめての C - sekiyo’s diary

C programming note*1
次は、小文字を大文字に変えるプログラム。
最初の ASCII 依存プログラムでは、大文字と小文字のコード番号がちょうど 32 だけ離れているのを利用しています。その部分のコードは、

while )((c = getc(fp))( != EOF) {

    if ('a' <= c && c <= 'z')

        fputc(c - 'a' + 'A', stdout); /* ASCII 依存 */

    else

        fputc(c, stdout);

}

となり、それ以外のところは cat3 プログラムそのままです。
その応用で、逆に大文字を小文字に変えるには、上の if文の中身を、

if ('A' <= c && c <= 'Z')

    fputc(c + 'a' - 'A', stdout);

に変更すれば OK ですね。
これを、入力ファイルに日本語が混じっている場合を想定して、改良していきます。

コンピュータの記憶装置というのは「小さなスイッチのようなものの集まり」だと述べた。その「オンかオフか」だけを表現できる最小単位のスイッチ、これを ビット bit と呼ぶ。

このビットの 1つ1つを扱っていたのでは処理が繁雑すぎるので、まとめていくつかを扱う必要がある。通常は 8つのビットを 1組みにして 1バイト Byte という単位で扱う。アドレス (番地) も、通常はこのバイト単位でつけてある。

いままでのプログラムの説明において「1文字ずつ読む」のような表現をしてきた。ここでいう 1文字とは、char型の変数に入る 1つ分のデータという意味だった。 char型は 1バイトであると考えてよい。(p94)

日本字の扱いについて、

「文字」のコードとして ASCII の文字コードだけを考える場合は、この 1バイトで表現できる範囲内に収まるので、1文字 = 1バイトと考えてもよかった。

ところが日本語で使われる文字は、とうてい 256種類では足りない。 JIS では X0208 という規格で「情報交換用符号」を定めている。この規格では漢字 6355文字および漢字以外の 524文字 (ひらがな、カタカナなど)、合計 6879文字にコード (番号) をつけてある。この文字コード体系では、たとえば「愛」の文字は「16区 6点」 (16-6) と表現する。区は 1 〜 94、点も 1 〜 94 の範囲なので、この方法でも最大 8836文字しか表現できないが、通常の日本語文章の表記に用いるにはこれで足りるとされている。

この区の番号および点の番号ならば、それぞれ 94通りなので、どちらも 1バイトで表現し得る。つまり「区、点」のペアで、2バイトを使えば、この漢字コードが表現できるわけだ。(p96)

その問題点として、

さて、実際には ASCII もこの JIS X0208 もいっしょに (混在して) 使われる。そのままの文字コードの値で、ただ混在させたのではうまくいかない。

たとえば「圭」の字は JIS X0208 では 23-29 なのだが、この区と点の値にそれぞれ 32 だけ「ゲタをはかせて」大きい値として使うので、つまり 55 と 61 の 2バイトになる。

しかし、これでは ASCII の 55 (数字の 7) と 61 (＝記号) が連続したものと区別ができない。(p97)

では、実際にどう処理するかというと、たとえば EUC_jp コードだと、

ASCII は (コード番号) 0 〜 127 の部分を使うようにする。 JIS X0208 は 2バイトをそれぞれ 128 だけ大きい値へシフトさせて (161 〜 254)、区別がつくようにする。(p97)

その処理はというと、

(この) 方法においては、「日本語文字は 2バイト、ASCII は 1バイト」と、そのまま単純にバイト数が計算できるし、ふつうに fgetc() で処理してもむずかしくはない。

fgetc() を 2回呼び出せば、日本語文字 1文字分が読めるわけだ。日本語文字か ASCII かどうかを判断するためには、とりあえず 1バイト読んでみて、それが日本語コードの 1バイト目かどうかをチェックする。(p97)

その部分のコードは次のとおり、

while )((c = getc(fp))( != EOF)

    if (iskanji(c)) { /* 日本語文字かを チェック */

        fputc(c, stdout);

        fputc(fgetc(fp), stdout); /* 2回 読み込む */

    }

    else if (islower(c)) /* 小文字の場合 */

        fputc(toupper(c), stdout); /* 大文字に変換 */

    else

        fputc(c, stdout);

}

(islower() と toupper() については後まわしに)
まず、最初の if文にある iskanji() 関数で、入力が日本語文字かどうかをチェックしています。この関数はマクロ (#define) で定義しておきます。

#define iskanji(c) (0xa1 <= ((c) & 0xff) && ((c) & 0xff) <= 0xfe)

(このマクロについては) 解説はしないが、自分で読み解いてみるつもりがない人は、この時点では「おまじない」だと思ってみてもよい。(p100)

つもりがない ? フッ、挑発してますね ... (-_-)
では、わかる範囲で、
このマクロの iskanji() に続く ( ) の中は、この条件が満たされれば、真を返す、ということですね。
この ( ) の式を単純化すると、

(0xa1 <= (c') && (c') <= 0xfe)

となります。0x で始まるのは 16進数なので、これを 10進数にすると、

a -> 10, f -> 15, e ->14

0xa1 -> 1 + 10 x 16 = 161

0xfe -> 14 + 15 x 16 = 254

だから、上の式は、

(161 <= (c') && (c') <= 254)

と同じでつまり、c が日本語文字コード番号の範囲 (161 〜 254) にあるかをチェックしている。
あと、*2 ...

*1:「作ってわかる Cプログラミング」

*2:c) & 0xff) は、ビット演算子 & を使ったマスク処理と呼ばれるものです。 OS内部ではふつうシステムが扱いやすいように、メモリ配置を 8ビットずつ区切ってそれを逆転させています。これを little endian と呼びます。このことは通常、プログラムを書くときには意識しなくてもかまいません。ところが、日本語文字コードの場合には、big endian といってこの左右が逆になっています。それで、上のプログラムだと、初めの 1バイトをチェックするには、それが日本語文字だとすると、2バイトのうちの右側の 1バイトを最初にもってきて読む必要があります。 ((c) & 0xff) と書くことで、そのことが実現できる、ということですね。 (シフト JIS の場合には、も少しだけマクロが複雑になります) まあ、初心者なのでこの程度の理解ですけど((まちがってる ?