知識ベース

Web検索クエリ

ユーザーがウェブ検索エンジンに入力するクエリ

Web検索クエリは、ユーザーが情報のニーズを満たすためにWeb検索エンジンに入力する特定の検索用語に基づくクエリです。 Web検索クエリは、オプションのsearch-6ディレクティブ(除外する「-」を含む「and」/「or」など)を含むプレーンテキストまたはハイパーテキストであることが多いという点で独特です。これらは、キーワードまたは定位置パラメーターを持つコマンド言語としての厳密な構文規則によって管理される標準クエリ言語とは大きく異なります。

タイプ

ほとんどのWeb検索クエリをカバーする3つの広範なカテゴリがあります:情報、ナビゲーション、およびトランザクション。これらは「行う、知る、行く」とも呼ばれます。この検索モデルは理論的に導出されたものではありませんが、実際の検索エンジンクエリを使用して、分類が経験的に検証されています。

  • 情報クエリ -関連する結果が数千件もある可能性のある広範なトピック( コロラドトラックなど )を対象とするクエリ。
  • ナビゲーションクエリ –単一のエンティティ(たとえば、 youtubeデルタ航空 )の単一のWebサイトまたはWebページを検索するクエリ。
  • トランザクションクエリ -車の購入やスクリーンセーバーのダウンロードなど、特定のアクションを実行するユーザーの意図を反映するクエリ。

多くの場合、検索エンジンは、あまり頻繁に使用されない4番目のタイプのクエリをサポートしています。

  • 接続性クエリ -インデックス付きWebグラフの接続性を報告するクエリ(たとえば、どのURLがこのURLを指しているのか、このドメイン名からいくつのページがインデックスされているのかなど)。

特徴

ほとんどの商用Web検索エンジンは検索ログを公開しないため、ユーザーがWebで検索している情報を入手するのは困難です。それにもかかわらず、1998年に調査研究が登場しました。その後、2001年の研究では、Excite検索エンジンからのクエリを分析し、Web検索の興味深い特徴を示しました。

  • 検索クエリの平均長は2.4語でした。
  • ユーザーの約半数が単一のクエリを入力し、ユーザーの3分の1未満が3つ以上の一意のクエリを入力しました。
  • ユーザーの半数近くが、結果の最初の1ページまたは2ページのみを調査しました(ページあたり10結果)。
  • 高度な検索機能(AND、OR、NOTなどのブール演算子)を使用したユーザーは5%未満です。
  • 最も頻繁に使用される上位4つの用語は、 (空の検索)、および、および性別です。

同じExciteクエリログの調査では、クエリの19%に地理用語(地名、郵便番号、地理的特徴など)が含まれていることが明らかになりました。また、調査では、短いクエリ(用語が少ないクエリ)に加えて、ユーザーがクエリを変更する方法について予測可能なパターンもあることが示されています。

Yahooのクエリログに関する2005年の調査では、同じユーザーからのクエリの33%がクエリの繰り返しであり、87%のユーザーが同じ結果をクリックすることが明らかになりました。これは、多くのユーザーが繰り返しクエリを使用して情報を再訪または再発見することを示唆しています。この分析は、クエリの30%がナビゲーションクエリであるというBing検索エンジンのブログ投稿で確認されています

さらに、クエリ用語の頻度分布がべき乗則またはロングテール分布曲線に適合することを多くの研究が示しています。つまり、大規模なクエリログ(たとえば、1億件を超えるクエリ)で観察される用語のごく一部が最も頻繁に使用され、残りの用語は個別に使用される頻度が低くなります。このパレートの原理(または80–20ルール )の例により、検索エンジンはインデックスやデータベースのパーティション分割、キャッシュ、プリフェッチなどの最適化手法を使用できます。さらに、Webクエリがナビゲーション、情報、トランザクションのいずれであるかを認識できる言語指向の属性を発見する研究が行われています。

しかし、2011年の最近の調査では、クエリの平均長は時間とともに着実に増加し、英語以外の言語のクエリの平均長は英語のクエリよりも長くなっていることがわかりました。 Googleは2013年8月にハミングバードの更新を実装し、より多くの検索が会話型であるため(「最寄りのコーヒーショップはどこですか?」)、より長い検索クエリを処理しました。クエリの解析ツリーは回答とそのスニペットのツリーと照合できるため、長いクエリの場合、自然言語処理が役立ちます。キーワード統計とTf-idfがあまり役に立たないマルチセンテンスクエリでは、複雑な質問と回答を構造的に表すためにParse thicketテクニックが役立ちます。

構造化クエリ

ブール演算子と括弧をサポートする検索エンジンを使用すると、図書館員が従来使用していた手法を適用できます。複数のトピックまたはファセットをカバーするドキュメントを探しているユーザーは、車両、車、自動車などの特徴的な単語の分離によってそれらのそれぞれを説明することができます。 ファセットクエリは、このようなファセットの組み合わせです。たとえば、(電子ORコンピュータ化OR DRE)AND(投票OR選挙OR選挙OR投票OR選挙)などのクエリは、「電子」または「投票」という単語のいずれかを省略しても、電子投票に関する文書を見つける可能性があります。両方。