はじめての C - sekiyo’s diary

C programming note*1

ハッシュはデータ構造そのものというよりも、アルゴリズムと深く結びついているので、いままで説明してきた他のデータ構造とはちょっと毛色が変わっているといえる。

ハッシュを使うと、データ構造の中からあるデータを検索するのに、データの比較などをせずに基本的には計算するだけで検索することができる。

データを格納するためのメモリ領域が比較的多めに必要なかわりに、データの検索が速いという特徴がある。

ハッシュ法の検索において「キーからデータの格納場所を計算する」関数をハッシュ関数という。

この関数を使ってデータの内容ごとに「格納すべき場所」を決定してその位置にデータを格納してあるので、アクセスするときも計算で位置が求められるわけだ。(p216)

K&R 2nd では、次の 2つの章で取り上げられています。
http://d.hatena.ne.jp/sekiyo/20051029
http://d.hatena.ne.jp/sekiyo/20051103
まず、キーとデータとを格納するためのポインタ配列をつくり、配列に格納する最大値を決定していきます。こんな感じで、

# define HASHSIZE 101static *hashtab[HASHSIZE];

この hashtable と、あとハッシュ関数が準備できれば、hash search の半分以上はできたも同然です。
hashtable にはふつう構造体を用い、1つの key に 1つの data が割り当てられるようにします。

typedef struct {

    char *key;

    char *data;

} ENTRY;static ENTRY *hashtab[HASHSIZE];

例題のハッシュ関数は、 K&R 2nd に載っているものとは少しだけ違っています。

int hash(char *s){

    unsigned u;    for (u = 0; *s != '\0'; s++)

        u = ((u << 8) + *s) % HASHSIZE;

    return u;

}

s は「文字列中の各文字」ですから、1文字ずつ「文字の value (とシフト計算の結果) を混ぜ合わせながら」それを HASHSIZE で割った modulo (余り) を次々加算していき、その計算結果をハッシュ値として返しています。
また、ここではビット演算子の "<<" も使われています。

a = a << b;

の場合、a は必ず正の値であり、b はビット数を表わします。"<<" は左シフトですから、このとき a の値は 2 の b乗倍になります。
上のハッシュ関数だと、2 の 8乗つまり 256倍になるわけです。
また、前にも見たように、モジュロ演算子の左側の数値がどれだけ大きくなっても割る数の値を越えることはありません。

u = ((u << 8) + *s) % HASHSIZE;

u の値は HASHSIZE より大きくはならないわけです。
ハッシュ値は hashtable の添値として使われるのですが、モジュロ演算子を用いることで、格納される key と data はつねに最大値が HASHSIZE の配列内に収まるようになります。

*1:「作ってわかる Cプログラミング」