検索汚染とキーワードによる検索の限界
ネット上で使われる言葉で、
検索汚染と呼ばれるものがある。Web検索で、利用者が知りたい事柄と無関係なものばかりが、結果に表れる現象を指す。たとえば歴史上の人物や軍艦の名前を検索すると、無関係なゲームのキャラクターばかりが出る。また、SEO(サーチエンジン最適化)の悪用により、適切ではない商品や解説ばかりが出るケースもある(
Weblio辞書)。
派生的な言葉として、画像検索汚染と呼ばれるものがある。こちらは見た目が分かりやすいので、よく話題になる。アニメやゲームの盛り上がりにより、検索結果が大きく置き換わってしまう。
検索汚染の仲間の言葉に、サジェスト汚染がある。Web検索を利用すると、1つの単語を入力した時点で、キーワード候補が複数表示される。こうしたキーワード候補がサジェスト(suggest:提案)だ(
Weblio辞書)。
たとえば特定の企業名や芸能人の名前を入力すると、犯罪行為をにおわせるネガティブなキーワードが表示される。それらが正しいものではなければ、何らかの理由で、サジェスト結果が汚染されている可能性がある。
こうした検索汚染や、それに類するものは、Web検索でよく発生して話題になる。悪意なく発生することもあれば、意図的に誹謗中傷の目的でおこなわれることもある。
ユーザーが入力したキーワードに対して、膨大なWebの情報から、適切な情報を選んで返す。よくよく考えてみると、非常に難しいことだ。
世の中には同じ名前が複数のものに割り当てられている。たとえば人名だと、世界に一人だけの名前を持っている人は、かなりの少数派だ。会社や商品の名前に一般名詞が使われていれば区別が付かない。どちらを求めて検索したのか、何の手掛かりもなしに知るのは困難だ。
言葉やフレーズによって情報にたどり着く。そのためには文脈が必要だ。
たとえば「しんげん」について知りたいと言われたとする。漢字で書いてあればよいが、音声や平仮名ならば「進言」なのか「箴言」なのか「震源」なのか分からない。人にすすめようとしているのならば進言だろう。格言みたいなと言われれば、箴言だと気付く。地震の話をしていれば震源だ。
漢字で書いてあれば特定できるとは限らない。漢字で書いていても「信玄」ならば、「武田信玄」なのか「信玄餅」なのか、文脈が分からないと判断が付かない。
こうした問題の解決方法の一つが、パーソナライズだ。年齢や性別、職業など、その人の情報を集めて、その人が何に興味を持っているのかを推測する。
Google では、2004年にパーソナライズド検索の実験を始めて、2005年に本格的に開始した(
専門家@メディア)。しかし、2018年の時点でその範囲は大きく縮小していると明かした。あまり効果がなかったからだ。大きく影響するものとして残っているのは、検索している場所や言語設定、利用している端末などだ(
海外SEO情報ブログ)。
興味の対象は刻々と変わるから、属性や長い過去の情報をもとにしても、適切な結果は得られない。その代わりに、短期的な文脈を解釈する方法として、連続して検索した場合の検索の繋がりを利用する会話型検索を、2020年に発表している(
Google)。
もちろん、Google お得意のAIによるアプローチもおこなっている。2018年の
Google Blog の記事によると、ニューラルネットワークを利用して、検索クエリの概念と文書の概念を対応づけることができると謳っている。Google はこの手法をニューラル マッチングと呼んでいる。他にも随所にAIを導入している。
Google は様々な手法や技術を使い、検索結果の向上を目指している。
ユーザーが入力した短い言葉やフレーズと、Webの膨大な情報をどう対応づけるかは難しい。それに、ネットの情報は膨大にある。意図とは違う結果が表示されても仕方がない。いや、「仕方がない」では済まないケースもある。