Урок от Semalt за това как да изстържете най-известните уебсайтове от Wikipedia

Динамичните уебсайтове използват robots.txt файлове, за да регулират и контролират всички дейности по изстъргване. Тези сайтове са защитени от уеб терени общи условия и правила за предотвратяване на блогъри и търговци от премахване на техните сайтове. За начинаещи уебстъргирането е процес на събиране на данни от уебсайтове и уеб страници и запазване след това запазването им в четими формати.

Извличането на полезни данни от динамични уебсайтове може да бъде тромава задача. За да опростят процеса на извличане на данни, уебмайсторите използват роботи, за да получат необходимата информация възможно най-бързо. Динамичните сайтове се състоят от „разреши“ и „забрани“ директиви, които казват на роботите къде е разрешено остъргването и къде не.

Изстъргване на най-известните сайтове от Wikipedia

Този урок обхваща казус, проведен от Брендън Бейли в сайтове за изстъргване от Интернет. Brendan започна със събиране на списък на най-мощните сайтове от Wikipedia. Основната цел на Brendan беше да идентифицира уебсайтове, отворени за извличане на данни в мрежата, въз основа на правилата robot.txt. Ако искате да бракувате сайт, помислете за посещение на условията за ползване на уебсайта, за да избегнете нарушаване на авторски права.

Правила за изстъргване на динамични сайтове

С инструментите за извличане на данни в мрежата изстъргването на сайта е само въпрос на щракване. Подробният анализ за това как Брендън Бейли класифицира сайтовете на Уикипедия и критериите, които използва, са описани по-долу:

смесен

Според казуса на Брендан повечето популярни уебсайтове могат да бъдат групирани като смесени. На пай диаграмата уебсайтове със смес от правила представляват 69%. Google robots.txt е отличен пример за смесен robots.txt.

Попълнете всичко

Complete Allow, от друга страна, отбелязва 8%. В този контекст „Всичко разрешено“ означава, че файлът robots.txt на сайта дава автоматичен достъп на програми, за да изстърже целия сайт. SoundCloud е най-добрият пример за вземане. Други примери на сайтове за пълно разрешение включват:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

Не е зададено

Уебсайтовете с „Не е зададено“ представляват 11% от общия брой, представени на диаграмата. Not Set означава следните две неща: или на сайтовете липсва файл robots.txt, или на сайтовете липсват правила за „User-Agent“. Примерите на уебсайтове, където файлът robots.txt е „Не е зададено“, включват:

  • Live.com
  • Jd.com
  • Cnzz.com

Пълна забрана

Пълните сайтове за забрана забраняват на автоматизираните програми да бракуват сайтовете си. Linked In е отличен пример за сайтове за пълна забрана. Други примери за пълни сайтове за забрана включват:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

Изстъргването в мрежата е най-доброто решение за извличане на данни. Въпреки това, бракуването на някои динамични уебсайтове може да ви създаде големи проблеми. Този урок ще ви помогне да разберете повече за файла robots.txt и да предотвратите проблеми, които могат да възникнат в бъдеще.