Paroday

Paroday:ニュースやアニメのレビュー、FC2ブログのテンプレート・プラグインなどを配信しています。

もしかして Parody ではありませんか? yes

FC2ブログのrobots.txtファイル更新…最新記事がインデックスされない問題


 Googleで検索しても最近投稿した記事がヒットせず、ウェブマスターツールで確認してもインデックスされていない状態がFC2ブログの一部で起こっていましたが、29日頃、FC2側に少し動きがあり、その影響なのかは不明ですが、別のブログでインデックスされていなかった2週間前からの記事が全てインデックスされているのを確認しました。
※全てのブログで改善されたかどうかはよくわかりません。ブログによっては過去記事がまとめてインデックスされただけで、最新記事のインデックス時期についてはバラつきがあるようです。

 検索エンジンのクローラーのアクセスを制御するrobots.txtを見てみると、それまでなかった「Sitemap」の指定が追加されています。FC2がインデックスされていないことを調査して他にも何か色々と調整したのかもしれません。

 robots.txtに「Sitemap」を指定することでこのブログのサイトマップはここにありますとクローラーに示すことができます。これは必須ではありません。Googleのウェブマスターツールでサイトマップを登録するのと似たようなものです。Google以外のクローラーもrobots.txtからサイトマップの場所を特定します。

 robots.txtはアドレスの末尾に「robots.txt」を追加すると確認できます。Sitemapの行が追加されているはずです。
(例)http://fc2information.blog.fc2.com/robots.txt
※ユーザーが内容を書き換えることはできません。

インデックスと最近のFC2ブログの動向

中国向けアドレス

 FC2ブログには本来のアドレスとは別に規制で閲覧できない中国からアクセスするためのアドレス「fc2blognet.fc2.com」が用意されているため、コンテンツが重複していた。

// 同じブログ
http://ID.blog番号.fc2.com/
http://ID.blog番号.fc2blog.net/

サーバー番号ありのブログのリダイレクト

 当初、サーバー番号ありのブログは中国向けアドレスにアクセスすると元のアドレス「blog番号.fc2.com」にリダイレクトされていたため、表立って重複することはなかった

http://ID.blog番号.fc2blog.net/(中国向けにアクセス)
↓ジャンプ
http://ID.blog番号.fc2.com/

「blog.fc2.com」登場

 2011年1月、新規作成のFC2ブログにサーバー番号なしの「blog.fc2.com」が登場。
 新規FC2ブログの仕様変更 アドレス id.blog.fc2.com

http://ID.blog.fc2.com/

 番号なしは「fc2blog.net」にアクセスしても元のアドレス「blog.fc2.com」にリダイレクトされず、「fc2blog.net」が重複コンテンツとして検索エンジンに拾われた

 番号ありのブログにも番号を削ったアドレスが生成されたが、アクセスすると番号ありにリダイレクトされるので重複することはない。

// 番号ありのブログは4つのアドレスがある
http://ID.blog.fc2.com/
http://ID.blog.fc2blog.net/

http://ID.blog番号.fc2blog.net/
↓リダイレクト
http://ID.blog番号.fc2.com/

サーバー番号ありのブログアドレス変更告知

  2011年2月、FC2がすべてのサーバー番号ありのブログアドレスを番号なし「blog.fc2.com」に変更すると正式に告知。

 しかしすぐにその告知を削除してなかったことに。他言語サーバーに所属するアカウントにはURL変更のメールが送信された。
 FC2総合インフォメーション 【ブログ】URL変更に関するお知らせ

ブログの新規作成でサーバー番号ありのブログが開設できなくなっていく

 着エロ、児童ポルノに接触するような際どい画像(肌の露出が多い少女の画像などを含む)をアップロードしている利用者のアカウントの強制非公開・凍結処理が盛んに。

サーバー番号ありのブログがサーバー移設

 2012年3月、サーバー番号ありのブログに対して、負荷軽減とパフォーマンスを向上させる目的でサーバー移設が開始される。ブログアドレスの変更はないと明記。
 FC2総合インフォメーション 【ブログ】サーバー移設による管理画面のURL変更のお知らせ

 移設されると中国向けアドレス「fc2blog.net」にアクセスしても「blog番号.fc2.com」にリダイレクトされなくなり、「blog.fc2.com」と同じように番号ありも重複コンテンツが検索エンジンに拾われ始める

 サーバーのホスト名は「ec2-~.amazonaws.com」で移設サーバーはAmazon EC2の模様。ポータルサイト「http://blog.fc2.com」は「fc2.com」のまま。

サーバー移設後

 このブログは新規記事を投稿すると数十分内にGoogleにインデックスされていたが、移設後から検索結果に反映されるまで数日から1週間かかるようになる。

 ウェブマスターツールで確認すると1日のクロールのページ数が移設してから減少していた。「Fetch as Google」でも失敗(クロールできない)が目立つようになる。
 このブログが所属するblog122サーバーは2012年6月26日に移設。
 その他のサーバーはFC2ブログサーバー移設の確認事項を参照。

■このブログの1日のクロールページ数

 直後の大幅減少は重複コンテンツではなくサーバー移設後に正常にクロールできないケースが増えたのが原因と思われ、しばらくしても回復しないのはfc2blog.netが多少影響しているかもしれない。
 ウェブマスターツールでのクロール速度の設定は「このサイトには、特別なクロール速度が設定されています。このクロール速度を変更することはできません」と表示されできない。
 FC2にfc2blog.netとサーバー移設について問い合わせるも自動返信のみで正式な回答はなかった。

2012年7月

 FC2が番号なしブログとサーバー移設済みの番号ありブログを対象に独自ドメインが利用できる「有料プラン」を開始する。
 FC2ブログに有料プランが登場!!

 中国向けアドレス「fc2blog.net」のブログで「中共」「尖閣諸島」などの政治キーワードや「淫行」などの猥褻表現が伏字(***)に書き換えられる。
 FC2ブログ、猥褻表現や尖閣など政治的表現を伏字に=中国向け検閲対策か

 18日、Googleがパンダアップデートを実施。

 19日、2ちゃんねるが一部のまとめサイトに広告を掲載しないよう管理会社のFC2とライブドアに要請

トラックバックURLのクロールエラー

※トラックバックURLはhref属性などに指定していない。

 ウェブマスターツールでFC2ブログのトラックバックURLがエラー検出されるようになる。このブログだけでなく他の多くのFC2ブログでも検索結果でエラーが表示される。

FC2がrobots.txtファイルを更新(1回目)

 FC2ブログのrobots.txtファイルが更新され、「Disallow: /tb.php/」の記述が追加される(トラックバックURLにクローラーがアクセスしないようにする設定)。

User-agent: *
Disallow: /tb.php/

 以降、トラックバックのエラーはなくなる。

「fc2blog.net」の利用が選択可能に

 8月、ブログの環境設定に「fc2blog.net」の中国向けアドレスを利用するかどうかの設定が追加され、重複コンテンツの解消に進む

 デフォルトでは「fc2blog.net」のアドレスを利用しないになっており、サーバー番号の有無にかかわらず、中国向けアドレスにアクセスすると元のアドレスにリダイレクトされるようになった。

 リダイレクトされるようになったもののインデックスされにくい状況が続く。
 このブログのクロールページ数も戻らず、減ったままの状況。

インデックスされないとの報告が続出

 11月に入って記事がインデックスされないとの報告がネット上で続出する。
 改めてウェブマスターツールで確認すると11月中旬からクロールのページ数がさらに減っていた(実は50ページを切っている)。もともと更新頻度はそれほど多くはないがサーバー移設前の30分の1くらいにまで減少した。

FC2がrobots.txtファイルを更新(2回目)

 29日頃、FC2ブログのrobots.txtファイルが更新され、「Sitemap」の記述が追加される。その他にも何らかの調整をしたのかもしれない。

 最新記事とこれまでインデックスされていなかった記事がインデックスされているのを確認。
 追記:ブログによっては過去記事がまとめてインデックスされただけで、最新記事のインデックス時期についてはバラつきがあるようです。

※すべてのFC2ブログで解消されているとは限りません。新しく作成したばかりのブログはインデックスされにくいです。

関連記事
  1. comment
  2. anonymous 2012-12-06 20:52 No.1618 #-URL

    大変参考になりました。やはり原因はホスト変更のようですね。

    私もクロール頻度の低下について問い合わせてみたのですが、「修正に時間を要している状態となっております」というテンプレ返信があっただけでした。

    更新pingを打ってもGooglebotが来てくれないようで、Fetch as Googleも効果なし。ユーザー側ではクロール頻度の低下をカバーできないのに、FC2が本気で取り組んでいるように見えないのが辛いところです。

  3. 通りすがり 2012-12-08 00:42 No.1623 #-URL

    参考になりました。

    解決済みとのことですが、最近の記事がインデックスされていません。

    私もFC2に問い合わせをしましたが、クローラーやgoogleのことは関知できないし、こちらの事情や対処しているかどうかも答えられない、との事でした。

    上記の方の通り、あまり対策はしていないみたいです。

  4. Pdy 2012-12-08 14:54 No.1624 #-URL

     問い合わせ結果が「返信なし」「修正に時間を要している」「答えられない」だとちょっと期待できそうにないですね。ただrobots.txtが更新されたのは間違いないので認識はしていると思います。ユーザー側にできるのはコンテンツの見直しやメタやタイトルタグなどのHTMLの改善程度なので、それ以外に原因があるとすればどうしようもないです。あとはブログの作り直し、移転でしょうか…。

     こちらで確認して戻ったのは11月中旬からのクロールページ数の減少分程度でサーバー移設前の水準は正直なところ無理そうです(サーバー移設した月から本日反映分までのクロールページ数のグラフを記事トップに掲載しました)。
     インデックスされていなかった過去記事がまとめてインデックスされただけでインデックスされる時期についてはバラつきがあるようです。この記事はインデックスされるのに2日かかり、この次に投稿した記事は1時間程度でインデックスされていました。更新の頻度とクロールのタイミングによっては最新記事が漏れてしまうこともありそうです。

     ウェブマスターツールに登録しておらずインデックスされていなかったブログがrobots.txtに追加されたサイトマップの指定でインデックスされるようになったということはあるかもしれません。

     いくつかインデックスされてない他所のブログをチェックしていたので12/8現時点でのインデック状況を再確認してみました。いずれも開設から2年以上経過&検索避けをしていないブログです。ブログCのように過去記事がインデックスされないままのところもあるようです。
    ■ブログA
    (17日~29日までの記事はまとめて29日にインデックスされた)
    12/07投稿記事2→○
    12/07投稿記事1→○
    12/03投稿記事→×
    11/30投稿記事→○
    11/29投稿記事→○
    11/21投稿記事→○
    11/20投稿記事→○
    11/19投稿記事→○
    11/17投稿記事→○
    ■ブログB
    12/08投稿記事→×
    12/06投稿記事2→×
    12/06投稿記事1→○
    12/05投稿記事→○
    12/03投稿記事→○
    11/30投稿記事→×
    11/29投稿記事2→○
    11/29投稿記事1→○
    ■ブログC
    12/05投稿記事→○
    11/29投稿記事→×
    11/25投稿記事→×
    11/19投稿記事→×
    11/18投稿記事→×

  5. a 2012-12-10 14:02 No.1628 #-URL

    年明けてもこのままなら移転した方がよさそう
    直ってもまたインデックスされなくなる可能性だってあるわけだし
    今問題ない所もいつインデックスされなくなるかわかったもんじゃない

  6. 通りすがり 2012-12-10 21:30 No.1631 #-URL

    上記の通りすがりです。

    最近の記事がインデックスされていませんでしたが、いくつかインデックスはされてきました。

    が、結構パワーを持ったブログで、大手の会社も抑えてグーグル検索のトップページの1番上にくるくらいだったのに、そこまでになってくれていません。

    圏外と変わらない感じです。


    ですので、更新もとりあえず据え置いて、一応記事を書きためています。。


    細かな検証、すごいです。
    感謝!

  7. fc2blogger 2012-12-10 22:58 No.1632 #-URL

    ブログによって差はあるけどクロールが減って
    インデックスされるのが遅れてるってことですねー。
    でも更新頻度を減らすとクロールもますます減るから
    粘り強く更新を続けていくしかない
    |インデックス| λ............トボトボ

    被リンクが多い記事はクロールされる機会が増えるから影響は少ないのかなぁ。

  8. Padoday様テンプレ利用者 2013-01-23 10:21 No.1717 #-URL

    大変参考になる記事、ありがとうございます。
    また、テンプレートカスタマイズに関する記事についても何年も以前からお世話になっており、この機会に合わせてお礼申し上げます。

    さて、現在私のFC2ブログのGoogleウェブマスターにおいて、
    「サイトへのリンク」欄で、それまで数万単位あったFC2からのものが、現在までにどんどん減少し、現在「fc2.com…2,189 fc2blog.net…2,079」となっています。
    これも、FC2ブログがインデックスされづらい状況であることから、被リンクが減少したという推察は正しいのでしょうか?

    paroday様のブログにおいても、このようなFC2からの被リンク減少現象があるのでしたら、腑に落ちることができますので、差し支えなければお調べ頂けると幸いです。


    本記事の調査・公開、本当にありがとうございました。

  9. Pdy 2013-01-24 18:22 No.1718 #zs6auFL2URL

    こんにちは。
    被リンクは確認していないため、減少しているかどうかはわからないです。ただfc2blog.netページにあったリンクの分だけは減少していると思います。
    クロール頻度はサーバ移設前に比べると回復していませんが、インデックスはここ一ヶ月で改善されている感じです。
    pingの送信不具合もあったのではと思いますが、手動送信やツールの「Fetch as Google」で送信が成功したときでもインデックスされていなかったので何とも言えません。

    サイトへのリンクは「Googlebotがクロールとインデックス登録の処理中に検出したリンク」ですのでリンク元サイトに何らかの問題があると減るようです。
    例えば、クロールエラーやインデックス削除。またリンク元サイトが長い間クロールされていなればそのリンクは消滅します(最終検出日が古ければ消滅…以前は検出日をツール上で確認できたが現在は確認できない)。

    先月、環境設定のfc2blog.netの設定項目が削除されてfc2blog.netのページはごく一部を除いて表示されなくなっています。
    リンクの数にはリダイレクトも含めるようなのでfc2blog.netへのリンクはカウントされますが、fc2blog.netページにあったリンクはすべて消滅するため、サイトへのリンクはその分だけ減ります(かなりの数)。

    また11月末時点での確認ですが、FC2ブログが存在しないページを404で返すようになったことも減少の一因として考えられます。今までは存在しないページにアクセスすると記事部分が空っぽのページが表示され、サイドバーなどにあるリンクがカウントされていましたが、この変更で空ページが消滅するため、その分だけリンクの数が減少します。

    クロールやインデックスのタイミングにもよるのでこれらの影響がどの程度、どのくらい続くのかはわからないのが現状です。

  10. Padoday様テンプレ利用者 2013-01-24 23:00 No.1719 #-URL

    丁寧なご返信ありがとうございます。
    なるほど勉強になります。

    クロール頻度ですが、私の方では徐々に回復してきたように感じます。12月までは週に1度ほどしかbotが訪れていませんでしたが、最近になり2日に1度ほど訪れるようになりました。
    確かに12月までは Fetch as Google を使用しても全く効果がなかったですね。

    ありがとうございました。
    今後も素敵なブログ運営、頑張ってください。感謝・応援しております。

コメント

Icon ※必須 :
Pass  ※入力した英数字を識別コードとしてNoに表示(123→LkZag.iM)

トラックバック

http://paro2day.blog122.fc2.com/tb.php/1029-42c8bf15

  1. trackback