導入
正規化とは、文字や文字列を正式に決められた表現に変換する処理のことです。
これは、検索や並べ替えなどの際に比較をするときに特に重要となります。
ただ、それだけではなく、テキストを保存する際に表記を統一するために用いることもあります。
Unicode Consortium では、
アプリケーション側でのさまざまなニーズにあわせていくつかの正規化方式を定義しています。
- Normalization Form D (NFD) - Canonical Decomposition
-
Normalization Form C (NFC) - Canonical Decomposition followed by
Canonical Composition
-
Normalization Form KD (NFKD) - Compatibility Decomposition
-
Normalization Form KC (NFKC) - Compatibility Decomposition followed by
Canonical Composition
これらの方式は、テキストに対する変換 (transformation)
のセットとして定義されます。変換 (transformation)
は、アルゴリズムとデータファイルの両方で表現します。