はじめての C - sekiyo’s diary

C programming note*1
プログラム cat3 には、入力した文字をそのまま標準出力する関数 do_one() が含まれています。

void do_one(FILE *fp)

{

    int c;    while )((c = fgetc(fp))( != EOF)

        fputc(c, stdout);

}

do_one() を、その入出力を配列を使って行単位で扱う関数 cat() につくり直します。

#define MAX_SIZE (80 + 1 + 1) /* plus '\n' + '\0' */
void cat(FILE *fp)

{

    char buf[MAX_SIZE];    while (fgets(buf, MAX_SIZE, fp) != NULL)

        fputs(buf, stdout);

}

出入力用の標準ライブラリ関数 fgetc() と fputc() とが、それぞれ fgets()、fputs() に替わっています。
まず、文字列の扱い、

C には「文字列 string のためのデータ型」は準備されていない。ではどのようにして文字列を扱うのかというと、文字型 char type の配列 array として扱うことになる。(p122)

こんなかんじ、ですか → char array[n] or char *array

たとえば "hello" という 5文字分の長さの文字列が s という名前の配列に入っているようすは次のようになっている。



 s[0] s[1] s[2] s[3] s[4] s[5] ... s[n]

  h    e    l    l    o    \0

文字列の終わりを示すために、文字列の最後の文字のすぐ後ろに '\0' というコードが入っている。

これはナル文字 null character と呼ばれ、C では文字列の終端を表すシルシとして使われる。

文字列の終わりにこの '\0' が必要なので、文字列用に使う配列の要素の数は、文字列 + 1 になる。(p122-123)

次は行 line の定義、

UNIX のファイルは、ただの一次元のバイト列だ。それ以外の何の構造ももっていない。

行 line という概念は、その一次元のバイト列に「改行」のコードが入っていることだけで実現されている。

改行のコードは '\n' で表わされる。(p123)

fputs() はちょっと置いといて、次は入力用の標準ライブラリ関数 fgets() とその引数、

fgets() は 3つの引数をとる。最後の - 3つ目の - 引数でそれが取り扱うストリームを指定する。

1つ目の引数で、1行分のデータ格納場所の先頭アドレスを指定する。

配列の名前を (添字を指定せずに) 書いた場合は、その1つ目の要素へのポインタ、つまり先頭のアドレスという意味になる。

この格納場所は、呼び出す側で配列を宣言するなどして確保しておく必要がある。(p124)

残りの引数、

第2引数だが、ここにはこの格納場所のサイズ (Byte 単位) を指定する。

fgets() は、指定されたストリームから MAX_SIZE - 1 文字になるまで、または改行文字が現れるまで (いずれか先に到達したほうまで) 読み込み、それを第1引数で指定された場所に入れる。(p125)

読み込んだ行の処理は、

読み込まれた最後の文字の後には、続けて 1つのナル文字が書かれる。

たとえば fgets() が "Dill" という文字列と改行コードからなる 1行を d という配列に読み込んだときの状態は、



 d[0] d[1] d[2] d[3] d[4] d[5] ...

  D    i    l    l    \n   \0

のようになっている。

改行コード '\n' も入ったあとにナル文字 '\0' が入っているわけだ。(P125)

今度はマクロの NULL のほう、

fgets() は通常は 1番目の引数と同じ値をそのまま関数の値として渡すが、ファイルの末尾などストリームの終端に達すると NULL を返す。

これはナルポインタ null pointer と呼ばれ「どこも指していないポインタ」を意味する。

fopen() がエラーのとき返すのもこれである。

少しわかりにくくなってきたので、途中だけど、K&R 2nd から fgets() のコードを書き写してみます。(p201)

/* fgets: get at most n chars from iop */

char *fgets(char *s, int n, FILE *iop)

{

    register int c;

    register char *cs;    cs = s;

    while (--n > 0 && (c = getc(iop)) != EOF)

        if ((*cs++ = c) == '\n')

            break;

    *cs = '\0';

    return (c == EOF && cs == s) ? NULL : s;

}

細かいところは置いといて、getc() が使われていますね。
while文が終了するのは、改行文字に到達したか、またはこの getc() が EOF - end of file ファイル終了のサイン - を返したときです。
また while から抜け出すときには、どちらも文字列の後に '\0' が追加されています。
そして fgets() の関数としての戻り値は char型のポインタなので、ファイルの終端になると null pointer を返すわけです。
では、なぜ NULL を戻り値として設定するのか、

(たとえば) fopen() が正常にオープン処理を行なったときに返すのは「ストリームへのポインタ」だ。そこで、エラーを示す値はそれと区別できる必要がある (たまたまポインタがその - ストリームへのポインタの - 値になっては困るわけだ。

NULL は「どのアドレスも指していないことが保証された値」であり、ポインタが取り得るどの (正常な) 値とも区別することができるので、ポインタ (アドレス) を返す関数では、この fgets() や fopen() に限らず、エラー時の値として NULL を返すのが一般的である。(p125)

また、プログラム作成のときの注意点として、

ポインタの値を 0 と比較したりポインタに 0 を代入すると、それはコンパイラによって自動的に null pointer の値として読み替えられるが、(それだと) 混乱をまねくので、0 とは書かず NULL という (マクロとして定義された) 名前を必ず使うようにすべきだ。(p127)

あと、残っている fputs() ですが、やはり K&R にあるコードを写すと、

/* fputs: put string s on file iop */

int fputs(char *s, FILE *iop)

{

    int c;    while (c = *s++)

        putc(c, iop);

    return ferror(iop) ? EOF : 0;

}

予想どおり、ここでは出力関数 putc() が使われていました。

*1:「作ってわかる Cプログラミング」