すぐにメインのスクリプト コードから始めましょう。
#!/usr/bin/perl
# what-forum.pl スクリプト
# (c) 2010 Alexandr A Alexeev、http://site/
厳密を使用します。
# コメント行 - 厳密にするため
# タスクがエンジン統計を収集することである場合は、そのままにしておきます
# フォーラムのリストを作成する場合 - コメントを解除します
私の $data ;
$data .= $_while (<>
)
;
# フッターにリンクがない状態で Powered by phpBB の金額を確認する このスクリプトと、このアーカイブの投稿で言及されている他のスクリプトが見つかります。 スクリプト どのフォーラム.pl HTML ページのコードを調べて、フォーラム エンジンの署名が含まれているかどうかを確認します。 WordPress と Joomla を定義するときに同様の手法を使用しましたが、いくつかの違いがあります。 まず、スクリプト自体はページ コードをロードせず、stdin または引数として渡されたファイルからページ コードを読み取ります。 これにより、たとえば wget を使用してページを一度ダウンロードし、複数のアナライザーがある場合は、それを複数のアナライザーで実行することができます。 次に、このスクリプトでは、署名の存在は 100% エンジンの兆候です。 前回は、署名の存在は対応するエンジンに重みを加えるだけであり、最も大きな重みを持つエンジンが「勝利」しました。 この場合、そのようなアプローチはコードを不必要に複雑にするだけであると判断しました。 スクリプトをテストするために、いくつかの調査を行いました。 私は数千のフォーラムのリストを編集し、スクリプトでそれぞれを実行して、プログラムの応答の割合とさまざまなエンジンの人気を判断しました。 フォーラムのリストを取得するために、Google パーサーを使用しました。 このようなクエリが検索エンジンに送信されました サイト:forum.*.ru 等々。 完全なクエリ ジェネレーター コードはファイル内にあります。 gen-forumsearch-urls.pl。 zone.ru に加えて、.su .ua .kz および .by も使用されました。 前回は、WordPress および Joomla サイトには URL にそのような署名がないため、このような調査を実施することは困難でした。 cmsmagazine.ru/catalogue/ などのカタログでは、十分なサンプル サイズが提供されていません。 600 Drupal サイトとは何ですか? 正直に言うと、実験の結果にはがっかりしました。 調査された 12,590 のサイトのうち、エンジンの特定に成功したのは 7,083 サイトのみ、つまりケースの 56% のみでした。 もしかしたら何かのエンジンを考慮していなかったのでしょうか? フォーラムの半数に Bitrix がインストールされているというのは本当ですか? それとも署名を探すのにもっと時間を費やすべきだったのでしょうか? 一般に、ここでは追加の調査が必要です。 特定に成功したエンジンの 56% のうち、最も人気があったのは予想通り、IPB (31%)、phpBB (26.6%)、および vBulletin (26.5%) でした。 これに大きな遅れをとって SMF (5.8%) と DLEForum (5.3%) が続きます。 私のお気に入りのダジャレは 6 位 (1.64%) にとどまりました。 これらの数字をあまり信用することはお勧めしません (RuNet のフォーラムは 3 つおきに IPB で運営されていると言われています) が、もちろん、一定の結論を導き出すことは可能です。 たとえば、フォーラム エンジンでサイトを作成し、フォーラムを変更する予定がある場合 (たとえば、メッセージごとにユーザーに 0.01 ドルを支払い、週に 1 回資金が自動引き落とされるようにする)、最も人気のある 3 つのエンジンのいずれかを選択する必要があります。 フォーラムの人気が高くなればなるほど、そのフォーラムに精通したプログラマーを見つける可能性が高くなります。 エンジンに大きな変更が期待されない場合は、SMF や punBB など、あまり人気のないエンジンを選択するのが合理的かもしれません。 これにより、フォーラムに対するハッカー攻撃の数が減り、フォーラムに自動的に送信されるスパムの量が減ります。 フォーラムを検索/識別するためのスクリプトにも、多くの実用的な用途が見つかります。 最初に思いついたのは、特定されたフォーラムを TIC ごとに分類し、私のサイトの 1 つへのリンクを含む最初の 100 件の投稿に投稿することでした。 ただし、何百ものフォーラム dofollow リンクは TCI にまったく影響を与えませんでした (2 つの更新が経過しました)。そのため、移行に興味がない場合を除き、ここで時間を無駄にしない方が良いでしょう。 前述したスクリプトの使用法が唯一のものではないことは明らかです。 他にどのように使用できるかは簡単に理解できると思います。 Botmaster Labs が主催しますが、計画はありません。 時間がありません。新しいトレンドとしてコンテストにはビデオが必要ですが、優れたスクリーンショットがあればすべてを簡単に説明できます (私の個人的な意見です)。実際には何も撮りたくないのです。 有益なトピックはほとんど残っていない。愚かなスパムはもうまったく支配していない。ここで考える必要がある。時代遅れのトピックを美しい包装紙に入れて少し粉砕しようとしない限り、誰もトピックを取り上げないでしょう。 :) しかし、これは私たちに関することではありません。 一般に、これら 3 つの「やってはいけないこと」は、潜在的な参加者の大多数にとって、基本的にコンペティションへの参加の障壁になっていると思います。 車を修理するのに、安い、高品質、早いという 3 つの条件が揃っているようなものです。このサービスは同時に 2 つの条件しか満たせません。 座って自分に近いものを選択してください。 :) コンテストでも同じです。時間はあり、ビデオの作り方は知っていますが、トピックがありません。または、ビデオの作り方は知っていますが、トピックはありますが、時間がありません。全部、あるいは暇でちょっとした話題があるのですが、動画が怖いです。 ただし、2 つの条件が同時に満たされる場合にはこれは問題ありません。 さて、歌詞は捨てましょう。 私は自分自身に続けます。 私は計画を立てていませんでした。つまり、コンテストに参加し、どの記事に投票するかも自分で選びました。 あなたが何と言おうと、Doz はソフトウェアをよく知っており、それを非常に賢く使用する方法を知っています。 しかし今日、この競争に陰謀が現れていることを知りました。 私には投票できないことがわかりました。投票できるのは 2011 年にソフトウェアを購入した新規ユーザーだけであり、コンテストは彼ら向けに設計されています。 ちょっと驚きましたが、店主は紳士的な方です。 このコンテストは広告キャンペーンであり、アレクサンダーはそれを実行する方法をよく知っています。 一般的に、私は記事を投稿することにしました。誰のため、集団農場全体にとって、実際にはこれを行うことは不可能であることが明らかな場合、記事を書くのはいくらか簡単です。 php-Fusion を利用 バージョン Khroomer 7.07 では、プログラムはいくつかの新しいエンジンでトレーニングされます。 forumi.biz、forumb.biz、1forum.biz、7forum.bizなど phpBB-fr.com、Solaris phpBB テーマ そして、新しいことを学ぶプロセスは継続的です。 「SMF 1.1.2 を搭載」 「SMF 1.1.3 を搭載」 「SMF 1.1 RC2 を搭載」 「SMF 1.1.4 を搭載」 「SMF 1.1.8 を搭載」 「SMF 1.1.7 を搭載」 「2006~2008年、シンプル・マシーンズLLC」 それだけではありません。 エンジンのバージョンを収集していると、一部の SMF フォーラムでフッターに「2001-2006、Lewis Media」というキャプションが表示されます。 私たちはこのリクエストを確認していますが、それは私たちも完全に満足しています。 同様のリクエスト「2001-2005、Lewis Media」が見つかります。 フッターをさらに見てみると、「SMFone design by A.M.A, ported to SMF 1.1」というリクエストが見つかります。 チェックします - 素晴らしいです。 等々。 30 分の作業で、エンジン用のクエリの素晴らしいデータベースができあがり、これらのクエリに対して Google が禁止する頻度は、クエリ内で演算子を使用する場合よりもはるかに少なくなります。 そして同時に、データベースは "index.php?topic=" のようなクエリを使用する場合よりもはるかにクリーンになります。なぜなら、ここで Google は私たちが必要とするフォーラムだけでなく、可能であれば多くの左翼リソースも提供してくれるからです。フォーラムのトピックへのリンクを残します。 あなたは反対するかもしれませんが、それの何が悪いのですか? 他の人がリンクを残したので、私たちもリンクを残すことができます。 しかし! リンクは、Khrumer だけでなく、他のプログラムからも残すことができます。 さらに、特定のリソース、いわゆる高度に専門化されたソフトウェアにコメントを残すために特別に調整することができ、さらにそのようなリンクを手動で残すこともできます。 繰り返しますが、私たちにとって重要なのはゴミの量ではなく、適切なリクエストに従ってデータベースを収集する質です。 この方法の利点は、実質的に設定が必要ないことです。 ふるいフィルター
伟哥 - バイアグラ 吉他 - ギター その他 - 休憩 保险公司 - 保険 これらの置換コードを Words ファイルに追加します。 %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 保険の Web サイトを宣伝している場合は、リクエストによって見つかったテーマ別 (!) の中国のフォーラムのリンクをプロフィールに配置します。」 SMFフォーラム」保险公司とても良いでしょう。
印刷 "phpbb \n"
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/iまたは
# $data =~ /viewforum\.php\?[^""]*f=\d+/i または
$data =~ /phpBB\-SEO/i または
$データ =~ /)
;
「ipb」を印刷します \n"
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
または
$データ =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/iまたは
$データ =~ /
$データ =~ /index\.php\?[^""]*showforum=\d+/i)
;
「vbulletin」を印刷する \n"
if ($data =~ /Powered by:?[^<]+vBulletin[^<]+(?:Version)?/i
または
$データ =~ /)
;
印刷 "smf \n"
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>SMF/i を利用または
$データ =~ /index\.php\?[^""]*board=\d+\.0/i)
;
印刷「パンブ」 \n"
if ($data =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*>パンBB/i) ;
#または
# $data =~ /viewforum\.php\?[^""]*id=\d+/i); \n"
「フラックスBB」を印刷する
# if($data =~ /viewtopic\.php\?id=\d+/i または /if ( $data =~)
;
]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i \n"
if ($data =~ /「exbb」を印刷します]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i
) ;
# または \n"
if ($data =~ /# $data =~ /forums\.php\?[^""]*forum=\d+/i);または
印刷「ヤブ」
]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/i \n"
if ($data =~ $data =~ /YaBB\.pl\?[^""]*num=\d+/i ) ;<\/title>/私または
$データ =~ /「ドルフォーラム」を印刷<\/a>/私)
;
/\(DLE フォーラムの提供\) \n"
if ($data =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">DLE フォーラムまたは
$データ =~ /]*>Ikonboard/i \n"
if ($data =~ /]*>ExBB/i
$data =~ /ikonboard\.cgi/i ) ;
印刷「bbpress」
# $data =~ /topic\.php\?id=\d+/i または \n"
# $data =~ /forum\.php\?id=\d+/i);
「フラッシュBB」を印刷
if ($data =~ /# if($data =~ /forums\.php\?fid=\d+/i または)
;
# $data =~ /topic\.php\?fid=\d+/i または \n"
]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i
if ($data =~ /「ストークシット」を印刷する)
;
# if($data =~ /forum\.php\?f=\d+/i または \n"
]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*ストークス IT/i
if ($data =~ /「表彰台」を印刷する)
;
# if($data =~ /topic\.php\?t=\d+/i または \n"
# if($data =~ /forum\.php\?id=\d+/i または
if ($data =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
「wrforum」を印刷 \n"
# if($data =~ /index\.php\?fid=\d+/i または
if ($data =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i)
;
「さらに別のフォーラム」を印刷する \n"
if ($data =~ /Yet Another Forum\.net/i または
$データ =~ /default\.aspx\?g=posts&t=\d+/i)
;
サイト:talk.*.ru
サイト:board.*.ru
サイト:smf.*.ru
サイト:phpbb.*.ru
....
長い前置きも終わり、いよいよ本題です。
初心者がこのようなスーパーコンバイン、つまり Xrumer + Hrefer 複合体を購入した場合、何が必要ですか? そうです、それに取り組む方法を学び、シートをスパム送信し始めればお金を稼げるという幻想を捨ててください。 そう思うなら、今すぐ慈善団体に寄付したほうがいいです。 複合施設のツールの使い方を学ぶ必要があり、できれば自分で研ぐ必要があります。 「もっと取って、もっと投げる」という時代は終わりました。 量は質に取って代わられます。 これは、私たちが自分たちで基地を組み立てることを意味します。その方法を学ばなければ、列車に遅れることになります。 当然、Khrefer がこれを手伝ってくれます。 Google でリソースを宣伝する予定がある場合は、Google を通じてドナー サイトを検索する必要もあります。 これは理解できて論理的だと思います。 しかし、Google は銅山の女主人のように、その富をすべての人に分け与えているわけではありません。 それにはアプローチが必要です。 私がすぐに言いたいのは、公共の場で見つけた標識に基づいて何かを収集できることを期待しないでください。 それらが公に利用できる理由は、それらに価値がないからです。 これ以上話題を発展させるつもりはありません。 結果を確認できるように、正しく組み立てる方法を説明する方が良いです。残りの部分は自分で解決できます。重要なのは原理を理解することです。 フォーラム全体の特性ではなく、必要な特定のエンジンの特性に基づいて適切なエンジンを収集する必要があります。 これは初心者の主な間違いです。特定のことに集中せず、すべてを全体的にカバーしようとすることです。 また、多かれ少なかれ通常のデータベースを解析したい場合は、クエリでの演算子の使用をやめてください。 「inurl:」、「site:」、「title」などは使用できません。 Googleはあなたのような検索者を即座に禁止します。 したがって、私たちは Khrumer が現在使用しているエンジンを注意深く研究しています。
一般に、Hrefer による解析用に正しいクエリを準備する必要があります。 フォーラム dizhok を例に挙げてみましょう。 SMF フォーラム。 そして、解析のためにスペアパーツに分解し始めましょう。 私たちの愛する Google がこれを助けてくれます。 Google にクエリを入力します SMF フォーラム- 検索結果にはゴミがたくさんあるので、13 ページ目まで巻き戻してリンクを選択します。 私はこれを見つけました: http://www.volcanohost.com/forum/index.php?topic=11.0。 それを開いて勉強してみましょう。 このエンジン上の他のページの検索に適用できる、ページ上の特徴的なものを見つける必要があります。 フッターには次のような記述があることに気付きます SMF 1.1.14 を搭載引用して Google に入力すると、このクエリについて 5,900 万のオプションを知っていることがわかります。 リンクをすばやく確認し、このキーワードにさらにいくつかのオプションを追加します。たとえば、 「Powered by SMF 1.1.14」ポプラまたは 「SMF 1.1.14搭載」バイアグラ。 私たちはリクエストが素晴らしいものであり、結果はフォーラムのみでゴミがほとんどないことを確認します。
さらに、上で述べたように、私たちは量ではなく質に興味があります。 先に進みましょう。 同じフォーラムから、フッターから別のフレーズを抜粋します。 , また、それを引用して Google にフィードします。 これに対し、彼は 1,300 万件以上の結果を知っていることを明らかにしました。 繰り返しますが、結果をすぐに確認し、追加の単語を追加して結果を確認します。 依頼内容も丁寧で、ゴミもほとんど出ません。 一般的に、すでに 2 つの鉄リクエストがあります。 当面は最初のフォーラムをそのままにして、他のフォーラムからのリクエストを収集し続けることをお勧めします。 幸いなことに、Google ではリクエストに応じてオープンしています。 2006 ~ 2008 年、Simple Machines LLC。 検索結果から、たとえば次のフォーラムを取得します: http://www.snowlinks.ru/forum/index.php?topic=1062.0 および http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 フッターのクエリから次のクエリを取得します: 「Powered by SMF 1.1.7」および「Powered by SMF 1.1.10」 (Hrefer のクエリは常に引用符で囲むことをお勧めします。最初に品質が必要なためです)全て)。 私たちが何をしているかは明らかだと思います。最終的には、SMF エンジンでフォーラムを検索するためのクエリの特定のデータベースが作成されます (これは例として選択されており、他のエンジンでも同様です)。
次のようになります。
初期段階で正しいヒュールーマーの使い方を学ぶことは非常に重要だと思います。これを習得すれば、状況がどのように変化しても、ヒュールーマーは常に活用できるからです。 保護はますます複雑になっており、一部のタイプのエンジンで保護が強化されており、現時点で Khroomer がそれに対処できない場合、これらのリンクの収集にリソースを費やしてから Khroomer で作業するのは意味がありません。結果が得られるものに力を集中する方がよいでしょう。 そして同時に、Botmaster Labs チームが Khroomer に何か新しいことを教えた場合、新しい患者をすぐに解剖し、患者がまだ温かいうちに Khroomer の基礎を準備することができます。 時は金なり。ベースを購入すると、リソースは関係なくなる可能性があります。 誰かが集めたもの。 さらに、塩基を正しく収集することで、Khrumer の「白」の使用が大幅に拡大されます。 そして、これはまさに、私たちが好むと好まざるにかかわらず、すべてが動いている場所であり、白くなったり白髪になったりするプロセスが進行中です。 黒いシートはあらゆる面で過去のものになりつつあります。
Hrefer の使用に関するその他すべての技術的側面はヘルプで確認できます。すべての目標、ポイント、秒数は実験的に各車に個別に設定されています。
おまけとして、中国の検索エンジン Baidu を解析するためのテンプレートをここに載せておきます。先日、それについて質問されたので、冗談で失礼します。 :)
ホスト名=http://www.baidu.com
クエリ=s?wd=
リンクマスク=
合計ページ数=100
次のページ=
次のページ2=
キャプチャURL=
キャプチャ画像=
キャプチャフィールド=
テスト解析を試みましたが、禁止はありませんでした。Khrefer はリソースを迅速に収集しました。解析用のクエリはすべて Google のものと似ていましたが、PR の高い中国のリソースがたくさんあり、さらに、ヨーロッパ人も足を踏み入れたことがある。 中国語のクエリを解析する方が良いでしょう。 Google 翻訳はこれに役立ちます。キーワードのリストをロシア語で入力し、中国語に翻訳します。 「」の真実 言葉「中国語では参照語を追加できないため、再コード化する必要があります。
中国語の代わりに:
結論として、これに対して私は、クレーファーの調理法がまずいとか下手だと文句を言う人々の気持ちが全く理解できないと言いたいのですが、私はいつも言いたかったのですが、あなたはクレーファーの調理方法を知らないだけなのです。 リクエストが正しければ、reffer よりも優れた結果を収集できるパーサーはありません。 Hrefer はドイツ製で、丈夫で優れた車ですが、運転するのは人間であり、すべては運転の仕方に左右されます。車を強制的に左右に同時に運転することはできません。
別のトピックはデータベースのクリーニングです。私は 3 年前の前回のコンテストでこれを行ったことがあります。 ほとんどの場合、そこではすべてが依然として関連していますが、200 OK のチェックを拒否できるようになりました。私はこのプロセスがあまり好きではありませんでした。非常に大きなエラーが発生し、多くの不要なものがフィルターで除外されました。 現在、これは Khrumer の操作中にほぼ自動的に実行できますが、このプロセスは「200 OK」のチェックに完全に似ているわけではありません。 とにかく、要点を言えば、少し前に、プロジェクトの実行時にリソースから情報を盗むという素晴らしい機会が Khrumer に現れました。 こんな感じです。 操作中に処理されるテンプレートを入力すると、テンプレートから収集された情報が Logs フォルダーの xgrabbed.txt ファイルに入力されます。 この機能は何にでも使用でき、想像力の幅が広がります。 私はこの機能を週に 1 回使用して、作業中の「期限切れ」データベースからリンクを削除します。 このようなリソースのデータベースをクリアするためにフォーラムが毎日消滅していることは周知の事実であり、この場合には「自動取得」ツールが役に立ちます。
結局のところ、たとえば http://www.laptopace.com/index.php とよく入力すると、このドメインがすでに、たとえば金を売っている善良な存在であることがわかりますが、実際にはそうではないことを認めなければなりません。そこのフォーラム。 そこで、このスラグを基地の外に投げ出すために、強盗を行います。 :) ページのソース コードを開いて、次のエントリを確認してください。
これで、ゴーダディのすべての「死者」の名前が私たちに知られることになります。
さまざまな「期限切れ」ドメインのデータベースをクリアする場合、自動取得ツールの選択肢は次のとおりです。