|
Redirectをcgi スクリプトに設定します。
それは301または302ステータスを出力し、別サーバのロケーションです。cgi-scriptを使うことによって、重要なリクエストや特別扱いのリクエスト の割り込みが行えます。 例えば、POSTリクエストに割り込みを行いたい時、クライアントは POSTの情報をリダイレクトしてくれません。(リダイレクトはPOST情報を失います)
ここに全てのリクエストをリダイレクトする方法があります.... サーバの設定ファイルで、
ScriptAlias /
/usr/local/httpd/cgi-bin/redirect_script
そして、シンプルなリダイレクトをするperlスクリプトはこれです。
#!/usr/local/bin/perl
print "Status: 302 Moved Temporarily\r
Location: http://www.some.where.else.com/\r\n\r\n";
access.log は通常10,000リクエスト毎に1MB増えます。
たいていの人がログファイルをクリアする際に、そのファイルを移動したり 削除しますが、これではうまく動きません。
Apacheはログファイルを削除する前と同じオフセットにログを出力し続けます。 その結果、古いログファイルと同様に巨大な新しいログファイルを生成しますが、 膨大なヌル(null)データが詰まっています。
正しい手順は logfile を移動し、Apacheにログファイルを再オープンする シグナルを送ります。
Apacheは SIGHUP (-1) シグナルを使用します。例えば
mv access_log access_log.old ; kill -1 `cat httpd.pid`
注意:ファイルhttpd.pid はApache httpdデーモンのprocess idを格納しており、Apacheはログファイルと同じディレクトリにそのファイルを
作成します。多くの人が夜間にこの方法でログファイルをクリア(そしてバックアップ) しています。
robots.txtに興味をもって
アクセスしに来ているか考えませんか?これらのクライアントはロボットと呼ばれます − 特別で自動的に 動作するクライアントで、面白い情報を探して当ても無くWebをさまよいます。
たいていのロボットは検索エンジンの情報の場所を突き止めるのを 手伝う際に使われる何種類かのweb インデックスを生成するために使 われます。
robots.txt はロボットからそのサイトへののリクエストに制限を
かけることが出来ます。
最初のロボットが開発された時、(彼・それ)らはそれぞれのサイトに何百という リクエストを送り、しばしばサイトの負荷が高過ぎるという結果になるため 良くない評判がありました。その後、 ロボット 開発者のためのガイドラインのおかげで劇的に良くなりました。 しかしそれでもWeb担当者は若干のロボットを多めに見なければならないような ことがあるかもしれません。
Webマスターによっては、別の理由によりロボットからのアクセスを拒否し ます。理由は、ロボットによって集められた情報がその後インデックスを付けられる ためです。 現在、徘徊しているロボットによってインデックスを付けられることができるよう に、書類に注釈を付ける良いシステムがありません。 それ故、インデックスの著者は、不満足なアルゴリズムによってどんな インデックスが付けられるか考えることになります。
典型的に、インデックスはドキュメントのタイトル(<TITLE>) または標題(<H1>)、そしてその他のドキュメントにある文字列で 作られます。 最も良くないインデックスは全てのドキュメントに基づいたものです。 これは必然的にユーザとサーバの貴重な時間を浪費します。
もし完全にロボットからのアクセスを禁止するか、制限を加えるなら、
robots.txtファイルを設定して、
robot
exclusion documentation.
を参考にしてください。
よりよいシステムは自分のサイトのインデックスを付けて、そのリソースを公 にしています。 例えば、サイトでのインデックスファイルの定義 ALIWEB