MySQLと文字コードと

投稿日: 2011年2月22日作成者: 鮎

まじめも：collationでUTF8日本語を使う場合、候補にutf8_general_ciとutf8_unicode_ciのどちらを選ぶか迷う事がある

これについては、
MySQL5.5ユニコードキャラクタセットの説明
の中程に

For any Unicode character set, operations performed using the xxx_general_ci collation are faster than those for the xxx_unicode_ci collation.
～
A difference between the collations is that this is true for utf8_general_ci:
ß = s
Whereas this is true for utf8_unicode_ci, which supports the German DIN-1 ordering (also known as dictionary order):
ß = ss

generalはunicodeに比べて高速だと書かれている。
挙動の違いとして、上記エスツェット（ドイツ語拡張文字）の違いが挙げられているが、現在の書法ではss(unicodeの挙動)が正しい。
しかし、日本語の扱いの違いが上げられていないが、実際に評価すると以下の様な挙動を示す。

test_table
id	name
1	ユニコード
2	ゆにこーど

SELECT * FROM test_table WHERE name LIKE ‘%ゆにこーど%’;
collation設定	id	name
unicode	1	ユニコード
unicode	2	ゆにこーど

general	2	ゆにこーど

utf8_unicode_ciにすると、なんとカタカナとひらがな表記が同じであると判定されてしまうのだ。
これだと、実運用上問題が生じることが多いだろうから、一般的には、utf8_unicode_ciではなくutf8_general_ciを使う様にした方がいい。

(306)

カテゴリー: LAMP[Linux, Apache, MySQL, PHP], MySQL パーマリンク

コメントを残すコメントをキャンセル

JVN
最近の投稿
2011年2月

月火水木金土日

1 2 3 4 5 6

7 8 9 10 11 12 13

14 15 16 17 18 19 20

21 22 23 24 25 26 27

28

« 1月 3月 »
アーカイブ
アーカイブ
カテゴリー
- LAMP[Linux, Apache, MySQL, PHP] (290)
  - fuelPHP (2)
  - ｊQuery (10)
  - MySQL (23)
  - PHP (20)
  - サーバ設定 (64)
- Python (1)
- Windows VPS (12)
- レビュー (10)
- 未分類 (11)
リンク
検索:
さくらのVPS／お名前.com VPSとは
　さくらのVPS やお名前.com VPS は、ＶＰＳ（仮想専用サーバー）サービスで、それぞれさくらインターネット、ＧＭＯインターネットの提供するサービスです。
　どちらもＫＶＭ（Linuxベースの完全仮想化マシン）を利用していて、1台の物理サーバー上に複数の仮想サーバーを構築できる為、低価格で利用できる利点があります。　また、仮想化システムにより完全に分離されている為、セキュリティも一般的な共有サーバーよりも優れています。
　お名前.comは価格あたりのCPU性能が良好ですが、さくらに比べてディスク速度が低速なため、ディスクアクセスが重要な場合はさくら、それ以外はお名前を利用するのが良いと思われます。
　なお、さくらのエントリーは2CPUコア・1GBメモリ・100GBハードディスクで月額980円プランですが、1480円で3CPUコア・2GBメモリ・200GBハードディスクのプランの方がコストパフォーマンスが良いと思います。
　＝＞その他のVPS情報
ドメイン取るならお名前