Googleの連続検索では幾つかの壁が次々と立ちはだかります

こんにちは、アラタです^^

 

検索順位チェックツール開発の為に、日夜いろいろなテストに励んでいるわけですが、
やっぱり検索順位を測るうえでGoogleは外せない・・・・という方は多いですよね。

 

しかし、実際にGoogleの検索結果を連続で取得しようとした時に、
まず最初に壁として現れるのが、『20回の壁』じゃないでしょうか。
まぁ、この『20回の壁』というのは私が勝手に言っている訳ですが^^

これは20回連続して検索すると、画像認証が出るイライラロジックの事です。

 

この画像認証のロジックに入ってしまうと、バスを選択しろとか、
横断歩道を選択しろとか自転車を選択しろとか言ってくる訳です。

 

非常にやっかいです><

 

このロジックはPCでもモバイルでも同様です。

 

・・・とはいえ、この20件で画像認証が出る・・・
というのも検索の仕方によって出たり出なかったりします。

 

例えば同じような間隔で検索しても1ページに表示される件数を
50件にすると出るけど、30件だと出ない・・・・とかあります。

 

非常に面白くもあり、そしてイライラもさせてくれます。

 

ちなみに、1ページの表示件数を30件に抑えておくと『20回の壁』はクリアしますが、
その場合は『60回の壁』が待ち構えています。

 

はい。

 

61回目の検索で画像認証ロジックに入りますね。

まぁ、勿論検索順位チェックツール『aiuto』を開発するにあたって、
この『60回の壁』もクリアしているわけですが、
そういうGoogle先生のチェックがあちこちに散りばめられています。

 

これ単純にスピードを落とせば良いという問題ではありません。
そりゃあすっげー大幅に落とせば大丈夫かもしれませんが、それでは使い物になりません。

 

aiとは言わないまでも、ちょっと工夫しないとダメなんですよね。
60回の壁をクリアしてもその先に『100回の壁』もありますしね。

 

そんなわけで色んなパターンを試してなるべく速いやり方を少しづつ追及しているところです。

 

検索の仕方もいろいろあって、どういう検索のやり方だと安全でスピードが出せるのか?
日々その実験を行っています。

 

一般的にはSeleniumを使ってスクレイピングをやられる方が多いんですかね??

 

私も5月の対応でSelenium版で作ってみたんですが、実際には速くはできませんでした。
ブラウザを動かすのも結構負荷かかりますからね・・・・。

 

PCのスペックが良ければ速くなる可能性はありましたが、
結局Googleのアクセス制限をクリアできる訳ではないので、
画像認証に引っかかりますし、どちらかと言うと今まで以上に
厳しくなった感はありました。

 

最初はSeleniumが問題??と思い、
直接ブラウザから同じように手で検索をかけて調べたところ、Selenium関係無く、
やはり一定の回数で引っかかるので、ブラウザを使ったスクレイピングはなかなか難しい、
という事がわかりました。

今考えているのは元々の検索ロジックとの融合ですね。

それぞれの良い部分を使う感じです。
検索URLはSeleniumで取ってこようと思っているので検索の精度は上がるはずです。

 

まぁ、ただ融合してもスピード的な問題は改善はされないので、
今はそのスピードの間隔を調整したり、Googleがどこで判定しているのか?
そこらへんを調べてます。

 

とはいえ、Yahooも別の制限ロジックがありますからね^^

 

今後はGoogle版、Yahoo版というように分けたバージョンも検討しています。

 

とにかく奥が深いですね^^

 

でもがんばります!!

aiuto Pro版上位版(検索順位チェック・アクセス解析)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です