Mga computerProgramming

Ano ang isang crawler? crawler tool "Yandex" at Google

Araw-araw sa Internet doon ay isang malaking halaga ng mga bagong materyales upang lumikha ng isang website-update ang lumang pahina ng web, mag-upload ng mga larawan at mga video. Nang walang nakatago mula sa mga search engine ay hindi mahanap sa World Wide Web, wala sa mga dokumentong ito. Alternatibo tulad ng robotic mga programa sa anumang naibigay na oras ay hindi umiiral. Ano ang isang search robot, kung bakit kailangan mo ito at kung paano gamitin?

Ano ang isang search robot

Crawler site (search engine) - ito ay isang awtomatikong programa na ay magagawang upang bisitahin ang milyon-milyong mga pahina ng web, mabilis na pag-navigate sa pamamagitan ng internet na walang anumang interbensyon operator. Bot ay patuloy na pag-scan space ng World Wide Web, paghahanap ng mga bagong mga web page at regular na bisitahin ang naka-index. Iba pang pangalan para sa mga web crawler spider, crawler, bots.

Bakit ang mga search engine spiders

Ang pangunahing pag-andar na magsagawa ng search engine spiders - mga pahina ng web-index, pati na rin ang mga teksto, imahe, audio at video file na nasa kanila. Bot-check mga sanggunian, mirror site (kopya) at mga update. Ang mga robot ring magsagawa ng HTML-code control para sa Pagsunod pamantayan ng World Organization, na develops at nagpapatupad ng mga teknolohikal na mga pamantayan para sa World Wide Web.

Ano ang pag-index, at kung bakit ito ay kinakailangan

Pag-index - ay, sa katunayan, ay ang proseso ng pagbisita sa isang partikular na web page sa pamamagitan ng search engine. Ang programa ay ini-scan ang teksto sa site na ito, mga imahe, mga video, mga palabas na link, pagkatapos ay ang pahina ay lilitaw sa mga resulta ng paghahanap. Sa ilang mga kaso, ang site ay hindi maaaring awtomatikong i-scan, pagkatapos ay maaari itong maidagdag sa mga search engine nang manu-mano webmaster. Kadalasan, ito ay nangyayari sa kawalan ng mga panlabas na mga link sa isang partikular na (madalas na kamakailan lamang nilikha) pahina.

Paano spider ng search engine

Ang bawat search engine ay may sariling bot sa search robot ng Google ay maaaring magbago nang malaki ayon sa mga mekanismo ay gumagana sa isang katulad na programa, "Yandex" o iba pang mga sistema.

Sa pangkalahatan, isang robot nagtatrabaho prinsipyo ay tulad ng sumusunod: ang programa "ay" sa site at panlabas na mga link mula sa pangunahing pahina, "bumabasa ng" Web mapagkukunan (kabilang ang mga naghahanap overhead na hindi nakikita sa user). Boat ay kung paano i-navigate sa pagitan ng mga pahina ng isang site at lumipat sa iba.

Ang programa ay piliin kung aling site sa index? Higit pang madalas kaysa sa hindi "trip" ang spider ay nagsisimula sa isang site ng balita o isang malaking mapagkukunan direktoryo at aggregators na may malaking reference timbang. Crawler patuloy na ini-scan ang mga pahina ng isa sa pamamagitan ng isa, sa rate at pagkakapare-pareho ng pag-index ng mga sumusunod na salik:

  • Internal: perelinovka (panloob na mga link sa pagitan ng mga pahina ng parehong mapagkukunan), laki ng site, ang tamang code, user-friendly at iba pa;
  • Panlabas: ang kabuuang reference timbang, na hahantong sa site.

Ang unang bagay na ang mga search robot na paghahanap sa anumang website ng robots.txt. Ang karagdagang mga mapagkukunan sa pag-index ay ginanap batay sa impormasyon na natanggap mula ito sa dokumentong ito. Ang file na ito ay naglalaman ng tiyak na mga tagubilin para sa "spiders" na maaaring dagdagan ang mga pagkakataon ng mga pagbisita sa pahina ng mga search engine, at, dahil diyan, upang makamit ang isang maagang hit site sa "Yandex" o Google.

Programa analogs crawler

Kadalasan ang terminong "search robot" ay malito matalino, user o autonomous na mga ahente, "ants" o "bulate". Sa ilalim ng tubig makabuluhang pagkakaiba lamang sa paghahambing sa mga ahente, iba pang mga kahulugan ay tumutukoy sa mga katulad na uri ng mga robot.

Halimbawa, mga ahente ay maaaring maging:

  • intelektuwal na: ang programa na gumagalaw mula sa site sa site, nang nakapag-iisa sa pagpapasya kung paano magpatuloy; ang mga ito ay hindi napaka-pangkaraniwan sa Internet;
  • Autonomous: Ang mga ahente ng tulong user sa pagpili ng isang paghahanap ng produkto o pagpuno sa mga form, kaya-tinatawag na mga filter na kakaunti ang mga programa ng network;.
  • user: ang programa ng kontribusyon sa pakikipag-ugnayan sa World Wide Web, isang browser (halimbawa, Opera, IE, Google Chrome, Firefox), mensahero (Viber, Telegram) o mga programang e-mail (MS Outlook at Qualcomm).

"Ants" at "worm" ay mas katulad ng mga search engine "spiders". Ang unang anyo sa pagitan ng isang network at tuloy-tuloy na nakikipag-ugnayan na katulad nito ant kolonya, "worm" ay able sa magtiklop sa iba pang nirerespeto ang parehong bilang batayan ng crawler.

Iba't-ibang mga search engine robots

Makilala sa pagitan ng maraming mga uri ng mga crawler. Depende sa mga layunin ng programa, ang mga ito ay:

  • "Mirror" - Doble ay nagba-browse ng mga website.
  • Mobile - focus sa mga mobile na bersyon ng mga pahina ng web.
  • Quick - ayusin ang bagong impormasyon nang mabilis sa pamamagitan ng pagtingin sa pinakabagong update.
  • Reference - reference index, bilangin ang kanilang mga numero.
  • Indexer iba't ibang uri ng nilalaman - tiyak na mga programa para sa teksto, audio, video, mga imahe.
  • "Spyware" - naghahanap para sa mga pahina na hindi pa ipinapakita sa mga search engine.
  • "Tariktik" - panaka-nakang bisitahin ang site upang suriin ang kanilang kaugnayan at kahusayan.
  • National - nagba-browse sa Web mga mapagkukunan na matatagpuan sa isa sa mga domain bansa (eg, mobi, o .kz .ua).
  • Global - index ang lahat ng mga pambansang mga site.

Robots pangunahing search engine

Mayroon ding ilang mga search engine spiders. Sa teorya, ang kanilang mga pag-andar ay maaaring mag-iba nang malawakan, ngunit sa mga kasanayan sa mga programa ay halos magkapareho. Ang pangunahing pagkakaiba sa pag-index ng mga pahina ng web robot dalawang mga pangunahing search engine ay ang mga sumusunod:

  • Ang kahigpitan ng pagsubok. Ito ay pinaniniwalaan na ang mga mekanismo ng crawler "Yandex" medyo mas mahigpit estima ang site para sa pagsunod sa mga pamantayan ng World Wide Web.
  • Pagpapanatili ng integridad ng mga site. Ang Google crawler index ang buong site (kabilang ang nilalaman ng media), "Yandex" ay maaari ring tingnan ang nilalaman nang pili.
  • Bilis ng pagsubok ng bagong mga pahina. Nagdaragdag ang Google ng bagong mapagkukunan sa mga resulta sa paghahanap sa loob ng ilang araw, sa kaso ng "sa pamamagitan ng Yandex" proseso ay maaaring tumagal ng dalawang linggo o higit pa.
  • Ang dalas ng muling pag-index. Crawler "Yandex" tumingin ng mga update ng dalawang beses sa isang linggo, at Google - isa sa bawat 14 na araw.

Internet, siyempre, hindi limitado sa mga dalawang mga search engine. Iba pang mga search engine ay may kanilang mga robot na nagsisisunod sa kanilang sariling mga parameter ng pag-index. Sa karagdagan, may ilang mga "spiders" na idinisenyo hindi pangunahing mapagkukunan sa paghahanap, at mga indibidwal na mga koponan o mga webmaster.

karaniwang misconceptions

Salungat sa palasak na paniniwala, "spiders" huwag iproseso ang impormasyon. Ang programa lamang ini-scan at nag-iimbak ng mga pahina ng web at karagdagang processing tumatagal ng isang ganap na naiibang mga robot.

Gayundin, maraming mga gumagamit naniniwala na ang mga search engine spiders magkaroon ng negatibong epekto at "mapanganib" Internet. Sa katunayan, ang ilang mga bersyon ng "spiders" ay maaaring makabuluhang labis na karga server. Mayroon ding mga tao na kadahilanan - ang webmaster, na lumikha sa programa, ay maaaring gumawa ng mga pagkakamali sa robot configuration. Ngunit karamihan ng mga umiiral na mga programa ay mahusay na dinisenyo at propesyonal pinamamahalaang, at ang anumang mga umuusbong na mga problema kaagad tinanggal.

Paano upang pamahalaan ang pag-index

Search engine robots ay ang mga automated na program, ngunit ang pag-index proseso ay maaaring bahagyang kontrolado ng webmaster. Ito ay lubos na tumutulong panlabas at panloob na pag-optimize ng mga mapagkukunan. Bilang karagdagan, maaari mong mano-manong magdagdag ng isang bagong site sa isang search engine: malaking resources ay may isang espesyal na anyo ng mga pahina ng Web registration.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 tl.delachieve.com. Theme powered by WordPress.