atsense – маркетинг и интернет реклама – бизнес блог

интернет реклама, маркетинг, SEO оптимизация, и всичко останало свързано с бизнеса в интернет
  • rss
  • Начало
  • Интернет Реклама
  • SEO услуги
  • За нас
  • За контакти

Как търсачки като Google и Yahoo събират информация?

Иво Русев | 01.02.2009

Реших да почна да вмятам от време на време малко по-конкретни постове в отговор на масата идиотски псевдо-онлайн-маркетинг-разбирачи, бълващи безсмислени статии със стандартна информация която можете да прочетете на 1000 места без да има някаква разлика. За тях мнението ми е, че са до толкова свързани със онлайн бизнеса колкото е магаре с космос, но това е друга тема.

Та, за хората които не са запознати с това как работят търсачките (пр. Google, Yahoo, Live, WebCrawler, Diri, и т.н.) и които са достатъчно интелигентни за да си го признаят обяснявам. Търсачките разполагат със бази данни. За да попадне в тези бази данни вашият сайт той по някакъв начин трябва да бъде прочетен от някой, нали така? Тази работа естествено е непосилна за компаниите поддържащи тези търсачки да извъшат на ръка с оглед милиардите сайтове в интернет, дори да разполагаха със целокупния китайски народ като персонал. Ето защо са създадени от тях така наречените „паяци“ спайдъри, кроулъри (от crawl – пълзя), ботове, абе както искате ги наричайте това са просто автоматизирани компютри които обикалят интернет уеб пространството и събират информация за сайтовете и тяхното съдържание.

Как се „движат“ тези автоматизирани спайдъри на търсачките. Поведението им следва предварително зададен алгоритъм, като той при различните търсачки е различен и е в основата и голяма част от тайните на всяка една търсачка за това как точно оценява сайтовете и съответно ги класира(процес който не се извършва от паяците, но те доставят информацията за него). Поведението на тези автоматизирани „машинки“ не е чак толкова сложно, те един вид се движат из уеб страниците като следват маршрут определен от линкове. След като достигнат страница свързана с линк от предходна те събират съдържанието и точно като браузър (пр. Internet Explorer, Opera, Mozilla FireFox). Те интерпретират кода на страницата и го поемат във вид почти такъв какъвто и вие го виждате на вашия компютър.

Забележка: Някой от спайдърите (повечето) не са способни да интерпретират флаш съдържание, голяма част java i Аjax скриптове, но няма да се отплесвам за това какво не поемат. Бъдете сигурни че чист html, php и asp със визуални ефекти постигнати максимум със css , jpg, png и gif формати биват попити без проблем. А и има трикове все пак ако държите да имате флаш за юзърите да поднесете нещо „по-чистичко“ на ботовете. Друг път ще си приказваме за тия неща макар че програмиране въобще не ме вълнува.

Как спайдъра (пр. на Google или MSN или Yahoo) прочита вашия сайт. До тук предполагам се ориентирахте горе-долу как започва процеса на събиране на информация от търсачките и техните паяци. Трябва вече да ви свети една крушка над главата в знак на осъзнаване или напомняне че за да стигне до сайта ви която и да е гадина трябва да имате външен линк до някъде по сайта ви нали така? Та веднъж озовал се някъде по вашия уебсайт, робота на google сканира съдържанието на сайта – такова каквото е в изходен html от горе надолу. Ако пък за първи път се озовава на домейна ви, или предприема цялостно сканиране в последствие той първо проверява за файла robots.txt в който можете да му окажете какво да не събира и къде няма право да ходи. Този файл бива прочитан както при цялостни събирания така и произволно при проверка за промяна на индекса на сайта ви. Редом със съдържанието се прочитат и линковете към вътрешни и външни страници и в последствие те биват последвани но не веднага и не ако съдържат като параметър „nofollow“ за който също ще си приказваме друг път. Но стандартните ви линкове, да кажем вътрешни освен ако изрично не искате да бъде индексирана дадена част от сайта едва ли съдържат този параметър.

Сега относно това как третира съдържанието което прочита още преди да бъде предадено за класиране и индексирано. Първата му работа е да види за мета тагове ( description и keywords ) и заглавие на страницата които ще бъдат взети предвид при окончателно класиране на сайта. Ако такива не съществуват бива генериран статичен description който представлява извадка от първия текст който срещне на страницата + евентуално alt/title параметри на първите снимки. Не се плашете защото и в двата случая това не е фатално тъй като при окончателно индексиране и класиране той генерира и динамичен description който представлява извадка от съдържанието отговаряща на търсената дума или фраза. Примерно ако във трети абзац говорите за „плюшени мечки“, и се класирате добре за тях, на хората търсещи това има вероятност да бъде показан пасаж от този абзац съдържащ фразата, естествено ако според алгоритъма сте оптимизирали за фразата и въобще ви се покаже страницата във резултатите на Google.

Следва основен анализ на съдържанието (главно текстово) след което действат най-основните алгоритми за не-предаване на информацията за класиране – скрити линкове, тотално пренасищане с ключови думи, sandbox ефект, твърде много външни или вътрешни линкове, и т.н. Да кажем че не сте прекалили и информацията бива запазена в опашка за втори алгоритъм (вече локално в сървърите на търсачките), където бива оценено съдържанието и класирано според оценката на значимостта и релевантността към различни думи и фрази.

И тъй като съм почнал да говоря за спайдъри, ще продължа за тази част от процеса. Много е важно следенето и анализа на поведение на събиращите паяци-роботи. Те могат и трябва да се следят защото фактора „crawl rate“ или на български коефициент на събиране на инфорамацията е много важен елемент от оптимизацията (SEO) на всеки един сайт. За тази материя голяма маса от „професионалните тъпанари занимаващи се със онлайн маркетинг или оптимизация“ в България могат много малко да ви кажат защото повечето от тях нямат бегла представа от това как работи един сайт, как работи уеб сървъра на който е този сайт и въобще как работи компютъра използван за такъв сървър. Инструменти като google analytics, webalizer или awstats са единствения им начин въобще да добият някаква представа за това. Да подчертая, тези инструменти са добри, но ако си говорим за следене поведението на това как бива обхождан сайта ви, единствено лаици биха се информирали само от тях. Естествено не искам да обиждам хора които си разбират от работата и тези неща са им до болка познати а и те са достатъчно с акъла си да знаят че не целя тях.

Как да следим спайдърите обхождащи нашият сайт и да разберем какво правят?
Така, чудя се дали да почна от далече, но тъй като поста вече е достатъчно дълъг ще почна от близко. Във уеб сървър(пр. Аpache, IIS, Tomcat) лог-а който (трябва да) имате за всеки конкретен домейн по който работите (говоря за access log както и за error log) се записва абсолютно всяка активност свързана със сайта който се намира на този домейн и всички негови подстраници. Записват се всички заявки, както успешни, така и неуспешни, пренасочвания, референции ако предходния сайт има такива, IP адреси на посетители, клиентска част на потребители(браузъри или идентификация за ботове) час и дата на заявки, отговор на сървъра ви след заявките и поискана и дадена информация. Както се досещате там се намират и всички заявки на спайдърите обхождащи сайта ви, заедно със всички техни детайли както при обикновените потребители. Това почване си беше от далече. Та там са техните заявки. И те не се крият, всеки спайдър си има идентификация освен третокласните роботи на четвъртокласните търсачки от трета глуха, но и тях можете да прихванете. Ето ще ви дам един пример как да намерите какво е правил MSN спайдъра на вашият сайт днес:

65.55.210.248 – - [01/Feb/2009:01:46:25 +0100] „GET /robots.txt HTTP/1.1″ 200 1 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.248 – - [01/Feb/2009:01:46:26 +0100] „GET /index.php?/archives/2008/12/C3.html HTTP/1.1″ 200 12422 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.246 – - [01/Feb/2009:18:25:33 +0100] „GET /robots.txt HTTP/1.1″ 200 1 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.246 – - [01/Feb/2009:18:25:35 +0100] „GET /index.php?/archives/2008/11/C3.html HTTP/1.1″ 200 12382 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.251 – - [01/Feb/2009:22:48:19 +0100] „GET /robots.txt HTTP/1.1″ 200 1 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.251 – - [01/Feb/2009:22:48:22 +0100] „GET /index.php?/archives/9-Zavladejte-pazara-s-blog-ot-Blogspot-!.html HTTP/1.1″ 200 24681 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“

Това е заявка под линукс bash# с команда grep „01/Feb/2009″ access_log | grep „msnbot“ която можете да замените с друга дата или просто месец или каквото ви скимне както и със идентификатор за друг бот на друга търсачка. Но пък ако разполагате със лог файла можете да направите това със простичкия Ctrl+F във всеки едитор с който желаете да го разглеждате дори по Windows.

Нека анализираме какво се е случило: първото което трябва да забележите е че бота в случая на Microsoft е използвал 3 различни IP-та, което не трябва да ви притеснява тъй като с цел разпределение на натоварването биват използвани много на брой машини постоянно за обхождане на уеб пространството. Какво е направил спайдъра – във 01:46 както по-нагоре ви обясних е прегледал robots.txt . След като се е убедил че му е позволено да обхожда се е засилил там където е решил да събира информация – в случая 2 пъти е сканирал една и съща страница – което е много добър фактор за нея, а и това че не го прави като част от цялостно сканиране говори че тя е добре индексирана и има висок коефициент на сканиране, с две думи ако го повтори и потрети в други дни значи наистина тази страница представлява голям интерес за MSN/Live чиито представител е бота. Както виждате робота се е върнал по късно и е сканирал и още една страница която в случая е линк-ната от първата, и така нагледно виждате неговото поведение. Така можете примерно да прецените ако страница не бива обходена а е добре линкната от друга която бива сканирана да намерите проблема или негативния фактор заради който бота не обхожда всичко което вие искате. Знаете ли, ще оставя подробностите около това как още можете да използвате тази информация защото просто стана нечовешки дълга статия. Единственото още което държа да ви дам като информация е user-agent идентификаторите на другите търсачки (за MSN както видяхте е msnbot):
Ще ви дам само основните три, другите можете да намерите без проблем в интернет:

Google – Googlebot (може да бъде с версия както и без) пр (Googlebot/2.1)
MSN / Live – msnbot
Yahoo – Yahoo! Slurp (може да бъде различни вариации на думата „slurp“)

Наистина ама наистина се надявам да ви дойде полезна статията и естествено не сменяйте станцията ;-)

предай нататък:
  • Digg
  • Facebook
  • Google Bookmarks
  • StumbleUpon
  • Twitter

Ако статията ви е харесала можете да се абонирате за RSS емисията ни

Категории
SEO оптимизация
Tags
google, Googlebot, msn, SEO оптимизация, web spider, yahoo, оптимизация, търсачки
Коментари rss
Коментари rss
Проследяване
Trackback

« Какви са цените на реклама в Google Сайта със нашите онлайн маркетинг услуги – вече факт »

Напишете коментар

Можете да използвате следните тагове : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Търсене

RSS Актуални статии за SEO, интернет реклама и маркетинг

  • Нова услуга – хостинг и домейни от JIThost
  • От лоша репутация към добра оптимизация
  • Секса в рекламата
  • Блог избори 2009. Защо Atsense?
  • Маркетингово сегментиране на услугите и продуктите за увеличаване на клиентите.
  • Основи на SEO оптимизация за търсачки – Google Webmasters tools
  • Нова екстра към интернет реклама – made by atsense

Категории

  • SEO оптимизация (13)
  • Без категория (2)
  • бизнес (16)
  • маркетинг (12)
  • реклама (17)
  • хостинг и домейни (1)

Facebook

присъединете се към Глобал Маркетинг и Реклама във Facebook

Връзки

  • Web design
  • Блог на Гошо
  • Регистрация на домейни
  • Уеб Хостинг услуги
  • Що е интернет реклама

atsense blogspot content content scraping google google adwords Googlebot google pr google класиране microsoft msn page rank PR quality score SEO оптимизация SEO оптимизация subdomains technorati usability web spider yahoo азия анкета бизнес бизнес в интернет блог блог мрежа домейни интернет бизнес интернет маркетинг интернет реклама класиране клиенти конкуренция маркетинг оптимизация позиции ранк реклама търсачки услуги фирма фирми цена на клик цени

WP-Cumulus by Roy Tanck and Luke Morton requires Flash Player 9 or better.

rss Comments rss valid xhtml 1.1 powered by Wordpress get firefox