محركات البحث والزواحف والروبوتات العنكبوتية. مستقبل محركات البحث. روبوتات محرك البحث بحث عن العناكب

31.08.2020

مجموعات الروابط المواضيعية عبارة عن قوائم تم تجميعها بواسطة مجموعة من المحترفين أو حتى هواة الجمع الفرديين. في كثير من الأحيان، يمكن تغطية موضوع متخصص للغاية بواسطة متخصص واحد بشكل أفضل من مجموعة من الموظفين من كتالوج كبير. هناك العديد من المجموعات المواضيعية على الإنترنت بحيث لا معنى لإعطاء عناوين محددة.

اختيار اسم المجال

يعد الكتالوج نظام بحث مناسبًا، ولكن للوصول إلى خادم Microsoft أو IBM، فمن الصعب الوصول إلى الكتالوج. ليس من الصعب تخمين اسم الموقع المقابل: www.microsoft.com، www.ibm.com أو www.microsoft.ru، www.ibm.ru هي مواقع المكاتب التمثيلية الروسية لهذه الشركات.

وبالمثل، إذا كان المستخدم يحتاج إلى موقع ويب مخصص للطقس في العالم، فمن المنطقي أن يبحث عنه على الخادم www.weather.com. في معظم الحالات، يكون البحث عن موقع باستخدام كلمة أساسية في العنوان أكثر فعالية من البحث عن مستند يستخدم تلك الكلمة في النص. إذا كانت شركة تجارية غربية (أو مشروع) لها اسم مكون من مقطع لفظي واحد وتقوم بتنفيذ خادمها على الإنترنت، فمن المرجح أن يتناسب اسمها مع التنسيق www.name.com، وبالنسبة لـ Runet (الجزء الروسي من الشبكة) - www.name.ru، حيث الاسم - اسم الشركة أو المشروع. يمكن أن يتنافس اختيار العنوان بنجاح مع طرق البحث الأخرى، حيث أنه باستخدام نظام البحث هذا، من الممكن إنشاء اتصال بخادم غير مسجل في أي محرك بحث. ومع ذلك، إذا لم تتمكن من العثور على الاسم الذي تبحث عنه، فسيتعين عليك اللجوء إلى محرك البحث.

محركات البحث

أخبرني ما الذي تبحث عنه على الإنترنت، وسأخبرك من أنت

إذا كان الكمبيوتر نظامًا ذكيًا للغاية يمكنه شرح ما تبحث عنه بسهولة، فإنه سينتج مستندين أو ثلاثة - بالضبط تلك التي تحتاج إليها. ولكن لسوء الحظ، ليس هذا هو الحال، واستجابة للطلب، يتلقى المستخدم عادة قائمة طويلة من المستندات، والكثير منها لا علاقة له بما سأل عنه. تسمى هذه المستندات غير ذات صلة (من اللغة الإنجليزية ذات الصلة - مناسبة وذات صلة). وبالتالي، فإن الوثيقة ذات الصلة هي وثيقة تحتوي على المعلومات المطلوبة. من الواضح أن النسبة المئوية للمستندات ذات الصلة المستلمة تعتمد على القدرة على إصدار استعلام بشكل صحيح. تسمى نسبة المستندات ذات الصلة في قائمة جميع المستندات التي يعثر عليها محرك البحث بدقة البحث. تسمى المستندات غير ذات الصلة بالضوضاء. إذا كانت جميع المستندات التي تم العثور عليها ذات صلة (لا توجد مستندات ضجيج)، فإن دقة البحث تكون 100٪. إذا تم العثور على جميع المستندات ذات الصلة، فإن اكتمال البحث يكون 100٪.

وبالتالي، يتم تحديد جودة البحث من خلال معلمتين مترابطتين: دقة البحث واكتماله. تؤدي زيادة اكتمال البحث إلى تقليل الدقة، والعكس صحيح.

كيف يعمل محرك البحث؟

يمكن مقارنة محركات البحث بمكتب المساعدة، الذي يتجول وكلاؤه حول الشركات لجمع المعلومات في قاعدة بيانات (الشكل 4.21). عند الاتصال بالخدمة، يتم استرداد المعلومات من قاعدة البيانات هذه. تصبح البيانات الموجودة في قاعدة البيانات قديمة، لذلك يقوم الوكلاء بتحديثها بشكل دوري. ترسل بعض الشركات نفسها معلومات عن نفسها، ولا يتعين على الوكلاء الحضور إليهم. بعبارة أخرى، مكتب المساعدةله وظيفتان: إنشاء البيانات في قاعدة البيانات وتحديثها باستمرار والبحث عن المعلومات في قاعدة البيانات بناءً على طلب العميل.

أرز. 4.21.

على نفس المنوال، محرك بحثيتكون من جزأين: ما يسمى بالروبوت (أو العنكبوت)، الذي يتجاوز خوادم الويب ويشكل قاعدة بيانات محرك البحث.

يتم تشكيل قاعدة الروبوت بشكل أساسي من تلقاء نفسه (يجد الروبوت نفسه روابط لموارد جديدة)، وبدرجة أقل بكثير، من خلال مالكي الموارد الذين يسجلون مواقعهم في محرك البحث. بالإضافة إلى الروبوت (وكيل الشبكة، العنكبوت، الدودة) الذي يشكل قاعدة البيانات، هناك برنامج يحدد تصنيف الروابط التي تم العثور عليها.

مبدأ تشغيل محرك البحث هو أنه يستعلم عن الكتالوج الداخلي (قاعدة البيانات) الخاص به للكلمات الرئيسية التي يحددها المستخدم في حقل الاستعلام وينتج قائمة من الروابط مرتبة حسب الصلة.

تجدر الإشارة إلى أنه عند معالجة طلب مستخدم معين، يعمل محرك البحث بدقة على الموارد الداخلية (ولا يشرع في رحلة عبر الويب، كما يعتقد المستخدمون عديمي الخبرة في كثير من الأحيان)، وتكون الموارد الداخلية محدودة بطبيعة الحال. على الرغم من أن قاعدة بيانات محرك البحث يتم تحديثها باستمرار، محرك بحثلا يمكن فهرسة جميع مستندات الويب: عددها كبير جدًا. لذلك، هناك دائمًا احتمال أن يكون المورد الذي تبحث عنه غير معروف لمحرك بحث معين.

يتم توضيح هذه الفكرة بوضوح من خلال الشكل. 4.22. يحد الشكل الناقص 1 من مجموعة كافة مستندات الويب الموجودة في وقت ما، ويحد الشكل الناقص 2 من جميع المستندات التي يتم فهرستها بواسطة محرك بحث معين، ويحد الشكل الناقص 3 من المستندات التي تم البحث عنها. وبالتالي، باستخدام محرك البحث هذا، يمكنك العثور فقط على ذلك الجزء من المستندات المطلوبة التي يتم فهرستها به.

أرز. 4.22.

لا تكمن مشكلة اكتمال البحث غير الكافي في الموارد الداخلية المحدودة لمحرك البحث فحسب، بل تكمن أيضًا في حقيقة أن سرعة الروبوت محدودة، وأن عدد مستندات الويب الجديدة يتزايد باستمرار. إن زيادة الموارد الداخلية لمحرك البحث لا يمكن أن تحل المشكلة بشكل كامل، لأن السرعة التي يزحف بها الروبوت إلى الموارد محدودة.

وفي نفس الوقت افترض ذلك محرك بحثيحتوي على نسخة من موارد الإنترنت الأصلية، فإنه سيكون غير صحيح. معلومات كاملة(المستندات المصدر) لا يتم تخزينها دائمًا في كثير من الأحيان، يتم تخزين جزء منها فقط - ما يسمى بالقائمة المفهرسة، أو الفهرس، وهو أكثر إحكاما بكثير من نص المستندات ويسمح لك بالاستجابة بسرعة لاستعلامات البحث.

لبناء فهرس، يتم تحويل البيانات المصدر بحيث يكون حجم قاعدة البيانات في حده الأدنى، ويتم إجراء البحث بسرعة كبيرة ويعطي الحد الأقصى معلومات مفيدة. من خلال شرح ماهية القائمة المفهرسة، يمكننا إجراء توازي مع نظيرتها الورقية - ما يسمى بالتوافق، أي. قاموس يسرد الكلمات التي يستخدمها كاتب معين حسب الترتيب الأبجدي، بالإضافة إلى روابط لها وتكرار استخدامها في أعماله.

من الواضح أن الفهرس (القاموس) أكثر إحكاما بكثير من النصوص الأصلية للأعمال ويمكنك أن تجده فيه الكلمة الصحيحةأسهل بكثير من تقليب كتاب على أمل العثور على الكلمة الصحيحة.

بناء المؤشر

يظهر مخطط بناء المؤشر في الشكل. 4.23. يقوم وكلاء الشبكة، أو الروبوتات العنكبوتية، "بالزحف" إلى الويب وتحليل محتوى صفحات الويب وجمع معلومات حول ما تم العثور عليه وعلى أي صفحة.

أرز. 4.23.

عند العثور على صفحة HTML التالية، معظم محركات البحثتسجيل الكلمات والصور والروابط والعناصر الأخرى (في محركات البحث المختلفة بطرق مختلفة) الموجودة عليه. علاوة على ذلك، عند تتبع الكلمات على الصفحة، لا يتم تسجيل وجودها فحسب، بل يتم أيضًا تسجيل موقعها، أي. مكان وجود هذه الكلمات: في العنوان والعناوين الفرعية والعلامات الوصفية 1 العلامات الوصفية هي علامات خدمة تسمح للمطورين بوضع معلومات الخدمة على صفحات الويب، بما في ذلك توجيه محرك البحث.( العلامات الوصفية ) أو في أماكن أخرى. في هذه الحالة، عادة ما يتم إصلاحها كلمات ذات معنى، ويتم تجاهل أدوات العطف والإدخالات مثل "أ" و"لكن" و"أو". تسمح العلامات الوصفية لأصحاب الصفحات بتحديد الكلمات الرئيسية والموضوعات التي يتم فهرسة الصفحة من خلالها. قد يكون هذا مناسبًا عندما يكون للكلمات الرئيسية معاني متعددة. يمكن للعلامات الوصفية توجيه محرك البحث عند الاختيار من بين عدة معاني للكلمة إلى المعنى الصحيح الوحيد. ومع ذلك، تعمل العلامات الوصفية بشكل موثوق فقط عندما يتم ملؤها من قبل مالكي المواقع الشرفاء. يقوم أصحاب مواقع الويب عديمي الضمير بوضع الكلمات الأكثر شيوعًا على الويب في علامات التعريف الخاصة بهم، والتي لا علاقة لها بموضوع الموقع. ونتيجة لذلك، ينتهي الأمر بالزائرين إلى مواقع غير مرغوب فيها، مما يؤدي إلى زيادة تصنيفهم. ولهذا السبب تتجاهل العديد من محركات البحث الحديثة العلامات الوصفية أو تعتبرها إضافة إلى نص الصفحة. يحتفظ كل روبوت بقائمة الموارد الخاصة به التي يعاقب عليها بسبب الإعلانات الكاذبة.

من الواضح, إذا كنت تبحث عن مواقع بها الكلمة الرئيسية"كلب"، فيجب أن يجد محرك البحث ليس فقط جميع الصفحات التي تم ذكر كلمة "كلب"، ولكن تلك التي ترتبط فيها هذه الكلمة بموضوع الموقع. من أجل تحديد مدى ارتباط كلمة معينة بالملف الشخصي لصفحة ويب معينة، من الضروري تقييم عدد مرات ظهورها على الصفحة، وما إذا كانت هناك روابط لصفحات أخرى لهذه الكلمة أم لا. باختصار، تحتاج إلى ترتيب الكلمات الموجودة في الصفحة حسب الأهمية. يتم تعيين أوزان للكلمات اعتمادًا على عدد مرات ظهورها ومكان ظهورها (في عنوان الصفحة، في بداية الصفحة أو نهايتها، في رابط، في علامة تعريفية، وما إلى ذلك). يحتوي كل محرك بحث على خوارزمية الترجيح الخاصة به - وهذا أحد أسباب قيام محركات البحث بإرجاع قوائم مختلفة من الموارد لنفس الكلمة الرئيسية. نظرًا لأن الصفحات يتم تحديثها باستمرار، يجب أن تكون عملية الفهرسة مستمرة. تتبع الروبوتات العنكبوتية الروابط وتقوم بإنشاء ملف يحتوي على فهرس، والذي يمكن أن يكون كبيرًا جدًا. ولتقليل حجمه، يلجأون إلى تقليل كمية المعلومات وضغط الملف. باستخدام العديد من الروبوتات، يمكن لمحرك البحث معالجة مئات الصفحات في الثانية. واليوم، تقوم محركات البحث القوية بتخزين مئات الملايين من الصفحات وتستقبل عشرات الملايين من الاستفسارات يوميًا.

عند إنشاء فهرس، يتم أيضًا حل مشكلة تقليل عدد التكرارات - وهي مهمة غير تافهة، نظرًا لأنه من أجل المقارنة الصحيحة، يجب عليك أولاً تحديد ترميز المستند. وهناك مهمة أكثر صعوبة تتمثل في فصل المستندات المتشابهة جدًا (تسمى "النسخ القريبة من التكرارات")، مثل تلك التي يختلف فيها العنوان فقط ويكون النص مكررًا. هناك الكثير من المستندات المماثلة على الإنترنت - على سبيل المثال، قام شخص ما بنسخ ملخص ونشره على الموقع بتوقيعه. محركات البحث الحديثة تسمح لنا بحل مثل هذه المشاكل.

إن روبوتات محركات البحث، والتي تسمى أحيانًا "العناكب" أو "برامج الزحف"، هي وحدات برمجية تبحث عن صفحات الويب. كيف يعملون؟ ماذا يفعلون في الواقع؟ لماذا هم مهمون؟

مع الأخذ في الاعتبار كل الضوضاء المحيطة تحسين محرك البحثوقواعد بيانات فهرس محركات البحث، ربما تعتقد أن الروبوتات يجب أن تكون مخلوقات عظيمة وقوية. ليس صحيحا. تحتوي روبوتات محرك البحث فقط على وظائف أساسية مشابهة لما كانت تمتلكه المتصفحات القديمة من حيث المعلومات التي يمكنها التعرف عليها على الموقع. مثل المتصفحات القديمة، لا تستطيع الروبوتات ببساطة القيام بأشياء معينة. الروبوتات لا تفهم الإطارات الرسوم المتحركة فلاشأو الصور أو جافا سكريبت. لا يمكنهم الدخول إلى الأقسام المحمية بكلمة مرور ولا يمكنهم النقر على جميع الأزرار الموجودة على الموقع. يمكن أن تتعثر في عملية فهرسة عناوين URL الديناميكية وتصبح بطيئة جدًا، إلى درجة التوقف وجعل التنقل في JavaScript غير فعال.

كيف تعمل روبوتات محركات البحث؟

يجب اعتبار روبوتات البحث بمثابة برامج آلية لاسترجاع البيانات تنتقل عبر الويب بحثًا عن المعلومات وروابط المعلومات.

عندما تذهب إلى صفحة إرسال عنوان URL وتسجيل صفحة ويب أخرى في محرك بحث، تتم إضافة عنوان URL جديد إلى قائمة الانتظار حتى يتمكن الروبوت من عرض المواقع. حتى إذا لم تقم بتسجيل صفحة، فإن الكثير من الروبوتات سوف تجد موقعك بسبب وجود روابط من مواقع أخرى مرتبطة بموقعك. وهذا هو أحد الأسباب التي تجعل من المهم بناء شعبية الروابط ووضع الروابط على الموارد الموضوعية الأخرى.

عندما تأتي برامج الروبوت إلى موقعك، فإنها تتحقق أولاً مما إذا كان هناك ملف robots.txt. يخبر هذا الملف الروبوتات عن أقسام موقعك التي لا ينبغي فهرستها. عادة قد تكون هذه أدلة تحتوي على ملفات لا يهتم بها الروبوت أو لا ينبغي له أن يعرف عنها.

تقوم الروبوتات بتخزين الروابط وجمعها من كل صفحة تزورها ثم تتبع هذه الروابط لاحقًا إلى صفحات أخرى. شبكة الويب العالمية بأكملها مبنية على الروابط. كانت الفكرة الأولية لإنشاء شبكة إنترنت هي إمكانية تتبع الروابط من مكان إلى آخر. هذه هي الطريقة التي تتحرك بها الروبوتات.

تعتمد براعة فهرسة الصفحات في الوقت الفعلي على مهندسي محركات البحث الذين اخترعوا الأساليب المستخدمة لتقييم المعلومات التي يتم استرجاعها بواسطة روبوتات محركات البحث. بمجرد تضمينها في قاعدة بيانات محرك البحث، تصبح المعلومات متاحة للمستخدمين الذين يقومون بالبحث. عندما يقوم مستخدم محرك البحث بإدخال استعلام بحث، يتم إجراء سلسلة من الحسابات السريعة لضمان إرجاع المجموعة الصحيحة من المواقع فعليًا للحصول على الإجابة الأكثر صلة.

يمكنك عرض صفحات موقعك التي تمت زيارتها بالفعل بواسطة روبوت البحث، مسترشدًا بملفات سجل الخادم، أو نتائج المعالجة الإحصائية لملف السجل. من خلال تحديد الروبوتات، سوف ترى متى قاموا بزيارة موقعك، وأي صفحات وعدد المرات. يمكن التعرف بسهولة على بعض الروبوتات من خلال أسمائها، مثل Googlebot من Google. والبعض الآخر مخفي أكثر، مثل Inktomis Slurp. قد تظهر أيضًا روبوتات أخرى في السجلات ومن الممكن ألا تتمكن من التعرف عليها على الفور؛ قد يكون بعضها متصفحات يديرها البشر.

بالإضافة إلى تحديد روبوتات البحث الفريدة وحساب عدد زياراتها، يمكن أن تظهر لك الإحصائيات أيضًا روبوتات عدوانية تستهلك النطاق الترددي أو روبوتات غير مرغوب فيها لزيارة موقعك.

كيف يقرأون صفحات موقع الويب الخاص بك؟

عندما يزور روبوت البحث صفحة ما، فإنه ينظر إلى نصها المرئي ومحتوى العلامات المختلفة الموجودة فيها كود المصدرصفحتك (علامة العنوان، العلامات الوصفية، وما إلى ذلك)، بالإضافة إلى الارتباطات التشعبية الموجودة على الصفحة. بناءً على الكلمات الموجودة في الروابط، يقرر محرك البحث موضوع الصفحة. هناك العديد من العوامل المستخدمة لحساب الجوانب الرئيسية للصفحة التي يتم تشغيلها. يحتوي كل محرك بحث على خوارزمية خاصة به لتقييم المعلومات ومعالجتها. اعتمادًا على كيفية تكوين الروبوت، تتم فهرسة المعلومات ثم تسليمها إلى قاعدة بيانات محرك البحث.

بعد ذلك، تصبح المعلومات التي يتم تسليمها إلى قواعد بيانات فهرس محرك البحث جزءًا من عملية تصنيف محرك البحث وقاعدة البيانات. عندما يقوم زائر بإجراء استعلام، يقوم محرك البحث بالزحف إلى قاعدة البيانات بأكملها لإرجاع القائمة النهائية ذات الصلة استعلام البحث.

تتم معالجة قواعد بيانات محركات البحث بعناية ويتم امتثالها. إذا كنت موجودًا بالفعل في قاعدة البيانات، فستزورك الروبوتات بشكل دوري لجمع أي تغييرات على الصفحات والتأكد من حصولها على أحدث المعلومات. ويعتمد عدد الزيارات على إعدادات محرك البحث، والتي قد تختلف حسب نوعه والغرض منه.

في بعض الأحيان تكون روبوتات البحث غير قادرة على فهرسة موقع ويب. إذا تعطل موقعك أو توقف الموقع عدد كبيرالزوار، قد يكون الروبوت عاجزًا في محاولاته لفهرسته. وعندما يحدث ذلك، لا يمكن إعادة فهرسة الموقع، الأمر الذي يعتمد على عدد مرات زيارة الروبوت له. في معظم الحالات، ستحاول الروبوتات التي تفشل في الوصول إلى صفحاتك مرة أخرى لاحقًا على أمل أن يصبح موقعك متاحًا قريبًا.

لا يمكن التعرف على العديد من برامج زحف الويب عند عرض السجلات. ربما يقومون بزيارتك، لكن السجلات تشير إلى أن شخصًا ما يستخدم متصفح Microsoft، وما إلى ذلك. تحدد بعض الروبوتات نفسها باستخدام اسم محرك البحث (googlebot) أو نسخته (Scooter = AltaVista).

اعتمادًا على كيفية تكوين الروبوت، تتم فهرسة المعلومات ثم تسليمها إلى قواعد بيانات محرك البحث.

تخضع قواعد بيانات محرك البحث للتعديل في أوقات مختلفة. حتى الدلائل التي تحتوي على نتائج بحث ثانوية تستخدم بيانات الروبوت كمحتوى لموقعها على الويب.

في الواقع، لا يتم استخدام الروبوتات بواسطة محركات البحث إلا لما سبق. هناك روبوتات تقوم بفحص قواعد البيانات بحثًا عن محتوى جديد، وزيارة محتوى قاعدة البيانات القديمة، والتحقق مما إذا كانت الروابط قد تغيرت، وتنزيل مواقع كاملة للعرض، وما إلى ذلك.

لهذا السبب، تساعدك قراءة ملفات السجل ومراقبة نتائج محرك البحث على مراقبة فهرسة مشاريعك.

من خلال النظر في سجلات الخادم، يمكنك أحيانًا ملاحظة الاهتمام المفرط بالمواقع من روبوتات البحث. إذا كانت الروبوتات مفيدة (على سبيل المثال، روبوتات فهرسة PS)، فكل ما تبقى هو المراقبة، حتى لو زاد الحمل على الخادم. ولكن هناك أيضًا الكثير من الروبوتات الصغيرة التي لا يلزم الوصول إلى الموقع. لنفسي ولكم عزيزي القارئ قمت بجمع المعلومات وتحويلها إلى جهاز لوحي مناسب.

من هم روبوتات البحث

بوت البحث، أو كما يطلق عليهم أيضًا، الروبوت، الزاحف، العنكبوت - ليس أكثر من برنامج يقوم بالبحث والفحص في محتوى مواقع الويب من خلال اتباع الروابط الموجودة في الصفحات.ليست محركات البحث فقط هي التي تمتلك روبوتات بحث. على سبيل المثال، تستخدم خدمة Ahrefs العناكب لتحسين البيانات الموجودة على الروابط الخلفية، ويقوم Facebook بإجراء عملية مسح على الويب لرمز الصفحة لعرض الروابط المعاد نشرها مع العناوين والصور والأوصاف. تجريف الويب هو جمع المعلومات من مصادر مختلفة.

استخدام أسماء العناكب في ملف robots.txt

كما ترون، فإن أي مشروع جاد يتعلق بالبحث عن المحتوى له عناكب خاصة به. وأحيانًا تكون المهمة العاجلة هي تقييد وصول بعض العناكب إلى الموقع أو أقسامه الفردية. ويمكن القيام بذلك من خلال ملف robots.txt الموجود في الدليل الجذر للموقع. لقد كتبت المزيد عن إعداد الروبوتات سابقًا، أنصحك بقراءتها.

يرجى ملاحظة أن ملف robots.txt وتوجيهاته قد يتم تجاهلها بواسطة روبوتات البحث. التوجيهات هي مجرد توصيات للروبوتات.

يمكنك تعيين توجيه لروبوت البحث باستخدام القسم - الاتصال بوكيل المستخدم لهذا الروبوت. يتم فصل أقسام العناكب المختلفة بسطر واحد فارغ.

وكيل المستخدم: Googlebot السماح: /

وكيل المستخدم: Googlebot

يسمح: /

يوجد أعلاه مثال على استدعاء محرك البحث الرئيسي لـ Google.

في البداية، خططت لإضافة إدخالات إلى الجدول حول كيفية تعريف روبوتات البحث لنفسها في سجلات الخادم. ولكن نظرًا لأن هذه البيانات ليست ذات أهمية كبيرة بالنسبة إلى تحسين محركات البحث، ولأن كل رمز وكيل يمكن أن يكون هناك عدة أنواع من السجلات، فقد تقرر الاكتفاء فقط باسم الروبوتات والغرض منها.

بحث عن الروبوتات G o o g l e

وكيل المستخدم	وظائف
جوجل بوت	مفهرس الزاحف الرئيسي لصفحات الكمبيوتر الشخصي والمُحسّن للهواتف الذكية
شركاء الوسائط-جوجل	روبوت شبكة إعلانات AdSense
واجهات برمجة التطبيقات-جوجل	واجهات برمجة التطبيقات-وكيل مستخدم Google
AdsBot-جوجل	التحقق من جودة الإعلان على صفحات الويب المخصصة لأجهزة الكمبيوتر
AdsBot-جوجل-موبايل	التحقق من جودة الإعلان على صفحات الويب المصممة للأجهزة المحمولة
صورة Googlebot (Googlebot)	فهرسة الصور على صفحات الموقع
أخبار Googlebot (Googlebot)	يبحث عن صفحات لإضافتها إلى أخبار Google
Googlebot-فيديو (Googlebot)	فهرسة مواد الفيديو
AdsBot-Google-Mobile-Apps	التحقق من جودة الإعلان في تطبيقات أجهزة أندرويد، يعمل على نفس المبادئ مثل AdsBot العادي

بحث الروبوتات أنا فندكس

وكيل المستخدم	وظائف
ياندكس	عند تحديد هذا الرمز المميز للوكيل في ملف robots.txt، ينتقل الطلب إلى جميع روبوتات Yandex
YandexBot	روبوت الفهرسة الأساسي
YandexDirect	تنزيل معلومات حول محتوى مواقع شركاء YAN
YandexImages	فهرسة صور الموقع
YandexMetrika	روبوت Yandex.Metrica
YandexMobileBot	تنزيل المستندات لتحليلها للتأكد من وجود تخطيط للأجهزة المحمولة
YandexMedia	روبوت يقوم بفهرسة بيانات الوسائط المتعددة
ياندكس نيوز	فهرس Yandex.News
YandexPagechecker	مدقق العلامات الدقيقة
YandexMarket	روبوت Yandex.Market؛
YandexCalenda	روبوت Yandex.Calendar
YandexDirectDyn	يولد لافتات ديناميكية (مباشرة)
YaDirectFetcher	تنزيل الصفحات التي تحتوي على إعلانات للتأكد من توفرها وتوضيح الموضوع (YAN)
YandexAccessibilityBot	تنزيل الصفحات للتحقق من توفرها للمستخدمين
YandexScreenshotBot	يأخذ لقطة (لقطة شاشة) للصفحة
YandexVideoParser	عنكبوت خدمة Yandex.Video
YandexSearchShop	تنزيل ملفات YML لكتالوجات المنتجات
YandexOntoDBAPI	يقوم روبوت الاستجابة للكائن بتنزيل البيانات الديناميكية

روبوتات البحث الشائعة الأخرى

وكيل المستخدم	وظائف
بايدوسبايدر	عنكبوت محرك البحث الصيني بايدو
Cliqzbot	روبوت محرك البحث المجهول Cliqz
AhrefsBot	روبوت البحث Ahrefs (تحليل الارتباط)
جينيو	روبوت خدمة جينيو
بينجبوت	زاحف محرك البحث Bing
تسرع في الشراب	محرك بحث ياهو
DuckDuckBot	زاحف الويب PS DuckDuckGo
com.facebot	روبوت الفيسبوك للزحف على شبكة الإنترنت
WebAlta (WebAlta Crawler/2.0)	بحث الزاحف PS WebAlta
BomboraBot	يقوم بمسح الصفحات المشاركة في مشروع بومبورا
CCBot	زاحف يعتمد على Nutch ويستخدم مشروع Apache Hadoop
MSNBot	PS MSN بوت
Mail.Ru	زاحف محرك البحث Mail.Ru
ia_archiver	إلغاء البيانات لخدمة اليكسا
تيوما	اسأل بوت الخدمة

هناك الكثير من روبوتات البحث، لقد قمت باختيار الأكثر شهرة وشهرة فقط. إذا كانت هناك روبوتات واجهتها بسبب المسح العدواني والمستمر للمواقع، فيرجى الإشارة إلى ذلك في التعليقات، وسأضيفها أيضًا إلى الجدول.

وخلافًا للاعتقاد الشائع، لا يشارك الروبوت بشكل مباشر في أي معالجة للمستندات الممسوحة ضوئيًا. فهو يقرأها ويحفظها فقط، ثم تتم معالجتها بواسطة برامج أخرى. يمكن الحصول على تأكيد مرئي من خلال تحليل سجلات الموقع الذي تتم فهرسته لأول مرة. في الزيارة الأولى، يطلب الروبوت أولاً ملف robots.txt، ثم الصفحة الرئيسية للموقع. أي أنه يتبع الرابط الوحيد المعروف له. هذا هو المكان الذي تنتهي فيه الزيارة الأولى للروبوت دائمًا. بعد مرور بعض الوقت (عادةً في اليوم التالي)، يطلب الروبوت الصفحات التالية - باستخدام الروابط الموجودة في الصفحة التي تمت قراءتها بالفعل. ثم تستمر العملية بنفس الترتيب: طلب الصفحات التي تم العثور على روابط لها بالفعل - توقف مؤقت لمعالجة مستندات القراءة - الجلسة التالية مع طلب الروابط التي تم العثور عليها.

إن تحليل الصفحات بسرعة يعني أكثر من ذلك بكثير يازيادة استهلاك الموارد للروبوت وضياع الوقت. يقوم كل خادم فحص بتشغيل عمليات روبوت متعددة بالتوازي. يجب عليهم التصرف في أسرع وقت ممكن حتى يتوفر لديهم الوقت لقراءة الصفحات الجديدة وإعادة قراءة الصفحات الموجودة. لذلك، تقوم الروبوتات بقراءة المستندات وحفظها فقط. كل ما يقومون بحفظه يتم وضعه في قائمة الانتظار للمعالجة (تحليل التعليمات البرمجية). يتم وضع الروابط التي تم العثور عليها أثناء معالجة الصفحة في قائمة انتظار المهام للروبوتات. هذه هي الطريقة التي يتم بها فحص الشبكة بالكامل بشكل مستمر. الشيء الوحيد الذي يمكن للروبوت ويجب عليه تحليله بسرعة هو ملف robots.txt، حتى لا يطلب العناوين المحظورة فيه. أثناء كل جلسة زحف للموقع، يطلب الروبوت هذا الملف أولاً، وبعد ذلك، يتم وضع كافة الصفحات في قائمة الانتظار للزحف.

أنواع روبوتات البحث

يحتوي كل محرك بحث على مجموعته الخاصة من الروبوتات لأغراض مختلفة.
وهي تختلف بشكل رئيسي في الغرض الوظيفيعلى الرغم من أن الحدود تعسفية للغاية، وكل محرك بحث يفهمها بطريقته الخاصة. بالنسبة لأنظمة البحث عن النص الكامل فقط، يكفي روبوت واحد لجميع المناسبات. بالنسبة لمحركات البحث التي لا تتعامل مع النص فقط، يتم تقسيم الروبوتات إلى فئتين على الأقل: للنصوص والرسومات. هناك أيضًا روبوتات منفصلة مخصصة لأنواع معينة من المحتوى - الهاتف المحمول، والمدونة، والأخبار، والفيديو، وما إلى ذلك.

روبوتات جوجل

الجميع روبوتات جوجليُطلق عليها مجتمعة اسم Googlebot. يقدم مفهرس الروبوت الرئيسي نفسه على النحو التالي:

Mozilla/5.0 (متوافق؛ Googlebot/2.1؛ +http://www.google.com/bot.html)

هذا الروبوت مشغول بمسح صفحات HTML والمستندات الأخرى للبحث الرئيسي بحث جوجل. كما أنه يقرأ أحيانًا ملفات CSS وJS - ويمكن ملاحظة ذلك بشكل رئيسي في المرحلة المبكرة من فهرسة الموقع، بينما يقوم الروبوت بالزحف إلى الموقع لأول مرة. أنواع المحتوى المقبولة كلها (قبول: */*).

الروبوت الثاني الرئيسي مشغول بمسح الصور من الموقع. إنها "تقدم نفسها" ببساطة:

Googlebot-Image/1.0

وشوهدت أيضًا ثلاثة روبوتات على الأقل في السجلات، مشغولة بجمع المحتوى لها النسخة المحمولةيبحث. ينتهي حقل وكيل المستخدم لجميع الثلاثة بالسطر:

(متوافق؛ Googlebot-Mobile/2.1؛ +http://www.google.com/bot.html)

قبل هذا الخط هو النموذج الهاتف المحمول، والذي يتوافق معه هذا الروبوت. الروبوتات المرقطة لديها نماذج هواتف نوكياوسامسونج وآيفون. أنواع المحتوى المقبولة كلها، ولكن مع الإشارة إلى الأولويات:

قبول: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

روبوتات ياندكس

من بين محركات البحث النشطة على RuNet، تمتلك Yandex أكبر مجموعة من الروبوتات. في قسم مساعدة مشرفي الموقع، يمكنك العثور على قائمة رسمية بجميع موظفي العنكبوت. ليس من المنطقي تقديمه هنا بالكامل، حيث تحدث التغييرات بشكل دوري في هذه القائمة.
ومع ذلك، يجب ذكر أهم روبوتات Yandex بشكل منفصل.
روبوت الفهرسة الأساسييسمى حاليا

Mozilla/5.0 (متوافق؛ YandexBot/3.0؛ +http://yandex.com/bots)

تم تمثيلها سابقًا كـ

Yandex/1.01.001 (متوافق؛ Win16؛ I)

يقرأ صفحات HTMLالموقع والوثائق الأخرى للفهرسة. كانت قائمة أنواع الوسائط المقبولة محدودة سابقًا:

قبول: text/html، application/pdf؛q=0.1، application/rtf؛q=0.1، text/rtf؛q=0.1، application/msword؛q=0.1، application/x-shockwave-flash؛q=0.1، application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

منذ 31 يوليو 2009، لوحظ توسع كبير في هذه القائمة (تضاعف عدد الأنواع تقريبًا)، ومنذ 10 نوفمبر 2009، تم اختصار القائمة إلى */* (جميع الأنواع).
يهتم هذا الروبوت بشدة بمجموعة محددة جدًا من اللغات: الروسية، والقليل من الأوكرانية والبيلاروسية، والقليل من الإنجليزية، والقليل جدًا من اللغات الأخرى.

لغة القبول: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

روبوت ماسح الصوريحمل السطر التالي في حقل وكيل المستخدم:

Mozilla/5.0 (متوافق؛ YandexImages/3.0؛ +http://yandex.com/bots)

يشارك في مسح الرسومات بتنسيقات مختلفة للبحث في الصور.

على عكس جوجل، تمتلك ياندكس روبوتات منفصلة لخدمة بعض وظائف البحث العامة الخاصة.
روبوت "مرآة"

Mozilla/5.0 (متوافق؛ YandexBot/3.0؛ MirrorDetector؛ +http://yandex.com/bots)

لا يفعل أي شيء معقد بشكل خاص - فهو يظهر بشكل دوري ويتحقق مما إذا كانت الصفحة الرئيسية للموقع متطابقة عند الوصول إلى المجال باستخدام www. وبدون. يتحقق أيضًا من النطاقات "المرآة" المتوازية بحثًا عن التطابقات. على ما يبدو، يتم التعامل مع المرايا والشكل المتعارف عليه للنطاقات في ياندكس بشكل منفصل حزمة البرامج، لا تتعلق مباشرة بالفهرسة. بخلاف ذلك، لا يوجد أي شيء على الإطلاق يفسر وجود روبوت منفصل لهذا الغرض.

جامع الأيقونات favicon.ico

Mozilla/5.0 (متوافق؛ YandexFavicons/1.0؛ +http://yandex.com/bots)

ويظهر بشكل دوري ويطلب أيقونة favicon.ico، والتي تظهر بعد ذلك في نتائج البحث بجوار رابط الموقع. من غير المعروف الأسباب التي تجعل جامع الصور لا يشارك في هذه المسؤولية. يبدو أن هناك أيضًا حزمة برامج منفصلة قيد التشغيل.

بوت التحققللمواقع الجديدة، يعمل عند إضافته إلى نموذج AddURL

Mozilla/5.0 (متوافق؛ YandexWebmaster/2.0؛ +http://yandex.com/bots)

يتحقق هذا الروبوت من استجابة الموقع عن طريق إرسال طلب HEAD إلى عنوان URL الجذر. بهذه الطريقة نتحقق من وجودها الصفحة الرئيسيةفي المجال ويتم تحليل رؤوس HTTP لهذه الصفحة. يطلب الروبوت أيضًا ملف robots.txt في جذر الموقع. وبالتالي، بعد إرسال الرابط إلى AddURL، تم تحديد أن الموقع موجود ولا تمنع رؤوس robots.txt أو HTTP الوصول إلى الصفحة الرئيسية.

روبوت رامبلر

حاليا لم تعد تعمل، نظرًا لأن Rambler يستخدم الآن بحث Yandex
يمكن التعرف بسهولة على روبوت مفهرس Rambler في السجلات من خلال حقل وكيل المستخدم

StackRambler/2.0 (MSIE غير متوافق)

بالمقارنة مع "زملائه" من محركات البحث الأخرى، يبدو هذا الروبوت بسيطًا جدًا: فهو لا يشير إلى قائمة بأنواع الوسائط (وبالتالي يتلقى المستند المطلوب من أي نوع)، كما أن حقل قبول اللغة مفقود في الطلب، والحقل If-Modified-since غير موجود في طلبات الروبوت.

روبوت البريد.Ru

لا يُعرف سوى القليل عن هذا الروبوت حتى الآن. تعمل بوابة Mail.Ru على تطوير بحثها الخاص منذ فترة طويلة، لكنها لم تتمكن بعد من إطلاق هذا البحث. لذلك، فإن اسم الروبوت الموجود في وكيل المستخدم هو الوحيد المعروف على وجه اليقين - Mail.Ru/2.0 (سابقًا - Mail.Ru/1.0). لم يتم نشر اسم الروبوت لتوجيهات ملف robors.txt في أي مكان؛ وهناك افتراض بأن الروبوت يجب أن يسمى Mail.Ru.

الروبوتات الأخرى

البحث على الإنترنت، بطبيعة الحال، لا يقتصر على محركين للبحث. ولذلك هناك روبوتات أخرى - مثلا روبوت بينج - محرك البحث من مايكروسوفت وروبوتات أخرى. لذلك، على وجه الخصوص، يوجد في الصين محرك بحث وطني بايدو - ولكن من غير المرجح أن يصل الروبوت الخاص به إلى منتصف النهر ويصل إلى الموقع الروسي.

بالإضافة إلى ذلك، في مؤخرالقد انتشرت العديد من الخدمات - ولا سيما خدمة Solomono - والتي، على الرغم من أنها ليست محركات بحث، تقوم أيضًا بفحص المواقع. في كثير من الأحيان تكون قيمة نقل معلومات الموقع إلى مثل هذه الأنظمة موضع شك، وبالتالي يمكن حظر الروبوتات الخاصة بها

روبوت البحث مُسَمًّى برنامج خاصأي محرك بحث مصمم للدخول إلى قاعدة بيانات (فهرس) المواقع وصفحاتها الموجودة على شبكة الإنترنت. الأسماء المستخدمة أيضًا: الزاحف، العنكبوت، الروبوت، الفهرس التلقائي، النمل، webcrawler، bot، webscutter، webrobots، webspider.

مبدأ التشغيل

روبوت البحث هو برنامج من نوع المتصفح. يقوم بمسح الشبكة باستمرار: يزور المواقع المفهرسة (المعروفة بالفعل)، ويتبع الروابط منها ويبحث عن موارد جديدة. عندما يتم اكتشاف مورد جديد، يقوم روبوت الإجراء بإضافته إلى فهرس محرك البحث. يقوم روبوت البحث أيضًا بفهرسة التحديثات على المواقع، والتي يتم تحديد تكرارها. على سبيل المثال، الموقع الذي يتم تحديثه مرة واحدة في الأسبوع سيزوره العنكبوت بهذا التردد، ويمكن فهرسة المحتوى الموجود على المواقع الإخبارية خلال دقائق من النشر. إذا لم تكن هناك روابط من موارد أخرى تؤدي إلى الموقع، فمن أجل جذب روبوتات البحث، يجب إضافة المورد من خلال نموذج خاص (Google Webmaster Center، Yandex Webmaster Panel، وما إلى ذلك).

أنواع روبوتات البحث

العناكب ياندكس:

Yandex/1.01.001 I - الروبوت الرئيسي المشارك في الفهرسة،
Yandex/1.01.001 (P) - فهرسة الصور،
Yandex/1.01.001 (H) - يجد مواقع المرآة،
Yandex/1.03.003 (D) - يحدد ما إذا كانت الصفحة المضافة من لوحة مشرفي المواقع تتوافق مع معلمات الفهرسة،
YaDirectBot/1.0 (I) - يقوم بفهرسة الموارد من شبكة إعلانات Yandex،
Yandex/1.02.000 (F) - يقوم بفهرسة أيقونات الموقع المفضلة.

العناكب جوجل: