web archive - sekiyo’s diary

Unsigned character
http://www.dwheeler.com/blog/2006/03/28/#unsigned-char
C に関連したところをちょっと訳してみた。

技術的な基礎から始めましょう。 C には char 型が含まれていて、通常 8 ビット文字を格納し使用します。国際化したプログラムの多くは、テキストに UTF-8 を使ってエンコードしているので、ユーザが見る文字は char の値の連続 (sequence) として格納されています。しかし、国際化したプログラムでさえしばしばテキストがある 1つの char 型で格納されています。

C standard には、はっきりと char を signed あるいは unsigned にすることが できると述べてあります (信じられませんか? では、ISO/IEC 9899:1999、セクション 6.2.5、パラグラフ 15 の 2番目のセンテンスを見るように、そうそこです)。多くの platform (たとえば Linux に代表される) で、char 型は signed になっています。問題は、ソフトウェアの開発者が char 型が unsigned であることを、しばしばまちがって考えているか、signed 文字の分岐 (ramification) をわかっていないことです。この思い違いは、時とともにより一般的になっています。なぜなら、他の C に似た多くの言語 (Java や C# のような) が、必要上 unsigned と定義しているか、あるいは、いくらかはたいしたことではないとしているからです。最悪の場合、この思い違いはまっすぐセキュリティでの弱点へと導かれます。

singed 文字をともなうシステムでは、さまざまな種類の 奇妙な 事態を、発生させることができます。例えば、文字の 0xFF は、 C や C++ の拡張されたルールにより、それと等しいものとして整数の -1 に一致 (match) するでしょう。そして、このことはすぐにセキュリティの欠陥をつくりだすことができます。なぜなら、-1 はふつう、多くの開発者が char では起こらないと推定している、番兵の値だからです。 Sendmail のよく知られたセキュリティの欠陥の 1つは、まさにこの問題から起こっています (詳細は、US-CERT #897604 と Michal Zalewski による投稿を参照)。

Securing Mycrosoft Windows for Home and small Business Users
http://www.dwheeler.com/essays/securing-windows.html
同じく、David A. Wheeler による記事。こちらは Windows のユーザに向けた解説です。

(追記) 訳文を少しだけ訂正。