コータス先生の正規表現講座
(コータス先生)「こんにちは、今日はどうしたんだい?」
「はい、早速本題ですが正規表現とワイルドカードの違いがどうしてもわからなくて…。」
「なるほど、たしかにごっちゃにしている人は多いねぇ…。ちなみにクチートくんの認識はどうなんだい?」
「えっと、ワイルドカードも正規表現も文字列の検索に使うものですよね?ワイルドカードの方が表現力が少ないなぁって感じる程度ですね。」
「うん、まあ間違ってはないけど、その認識だと違いはわかりづらいかもなぁ。でも表現力っていうのは一つの違いだと思ってくれていいかな。文字列検索で使えるものというのも間違ってはいないから、文字列検索をする上での使用感の違いから入る方がいいかもね。」
「でもひとくくりに正規表現と言っても実際はいくつも種類がありますよね?だったらワイルドカードも表現力の低い正規表現ってことになりませんか?」
「あー、その認識はまずいね。なぜなら正規表現とワイルドカードでは文字列の検索の仕方が根本的に違うからね。」
「説明をお願いします!」
「そうだねぇ、例えば下の2つは同じように文字列検索をできるよね?」
「そうですね、どちらも"あい"の後に任意の文字が0文字以上続いて"えお"ってなっている文字列を検索します。」
「そうだね、でもクチートくんの言った考え方はワイルドカード寄りの考え方なんだ。ワイルドカードでは、任意の文字を表す記号(だいたいは"*“と”?“)を扱って文字列検索を行うよ。」
「え、じゃあ正規表現だとどういう考え方なんですか?」
「正規表現だと、『"あい"と"えお"の間に任意の文字が0文字以上続くような文字列の集合の中に存在する文字列を検索する』と考えるよ。」
「そういえば、正規表現は文字列の集合を1つの文字列で表現したものだっていうのをどこかで読みましたね…。いまいちピンと来てないんですが、もう少し砕いた説明はありませんか?」
「そうだね、いきなり文字列の集合だとか言われてもよくわかんないよね。じゃあまず簡単に0~9上での正規表現を考えてみようか。」
「0~9上での正規表現???」
「そう、文字としては{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}(以下この集合をNとおく)の10個の文字だけを使った正規表現だよ。」
「なるほど、実用性は低そうですが、理解する上では重要なんでしょうね。」
「デデン!それでは問題です!」
(突然なんか始まった…)
「正規表現は文字列の集合です。では、N上の正規表現"..“はどんな集合でしょう?」
「えっと、".“が任意の1文字を表す正規表現で今は0~9の文字しか使えないから…。答えは{00, 01, 02, …, 99}です!」
「正解!正解したあなたにはどくけしをプレゼント!」
(私、毒無効なんだけどなぁ…)
「第2問!N上の正規表現で"0*“はどんな集合でしょう?」
「2問目あるんですか!えっと、"*“は直前の文字が0文字以上続くの意味なので、答えは{0, 00, 000, 0000, …, 00000, …}ってあれ?無限集合になってしまいました…。」
「残念、不正解!でも無限集合になってしまったからではないよ、むしろ無限集合になることは構わないよ。ちなみに正解は{, 0, 00, 000, 0000, …, 00000, …}。空の文字を忘れているよ。」
「あ、そうか。0文字以上だから空の文字を含めなくちゃいけないんですね!」
「どうだろう?少しは正規表現をわかってもらえたかな?」
「そうですね、今になって考えるとワイルドカードと正規表現って全然違うものなんだなと感じます。」
「それはよかった。厳密に定義しようとするともう少し数学に詳しくないといけないから、その話はまた今度だね。」
「はーい!今日はありがとうございました!」
まとめ
ワイルドカード:任意の文字を表す記号を使う。語源はトランプのワイルドカード(どんなカードにでもなれるカード)から来ているので、同じようなものだと考えて良い。 正規表現:文字列の集合を一つの文字列で表現する表現方法。何かしらの文字の集合が用意されており、その上に定義される。文字列検索の際はその集合の元として存在するかどうかで検索する。