プログラミング言語 C

ある入力中のすべての単語を計算処理する方法を考えてみよう。
単語リストは前もってわかっているわけではないので、それをつごうよく分類しておいて二分探索することはできない。
しかしだからといって単語が来るたびに、その存在の有無を線形探索するわけにはいかない - 時間がかかりすぎるからである (正確にいうと実行時間の期待値は入力語数の二乗で増加していく)。
任意の単語リストを効率よく処理するためにはデータをどのように構築すればよいのだろうか ?
一つの解は、単語が来たときそれを順番になるよう適当な位置に入れて、単語の集合が常時分類されている状態にしておくやり方である。
しかし線形の配列で単語をシフトしながら、これを実行する方法は、時間がかかりすぎていい方法とはいえない。
そこで二本木 (binary tree) と呼ばれるデータ構造を使うことにしよう。

ノードの構造は、次の四つの成分をもつ構造体として表される。

struct Tnode {
char *word;
int cnt;
struct Tnode *left;
strucr Tnode *right;
};

ノード内の再帰的宣言は不思議に思うかもしれないがまちがいではない。なぜなら、
struct Tnode *left;
での left は Tnode のポインタの宣言であって構造体自身ではないからである。

この tree は単語ごとに一つのノードをもっている。
各ノードには左の子ノードへのポインタと、右の子ノードへのポインタがある (もちろん、単語へのポインタとあとカウンタも)。
次に来た単語がすでに tree にあるかどうかを探すには root から出発してそのノードに格納されている単語と比較する。このとき二つが一致すれば (カウントされて) そこで止まる。
その単語が tree に格納された単語より小さければ探索は左の子ノードに対して続けられ、反対に大きければ右の子ノードが調べられる。
求める方向に子ノードがなければその単語は tree に含まれていないことになり、その場所が新しい単語のおさまる位置となる。(P168-170)