Sectiune pentru limba româna > Administratie

Cum copiem ...

<< < (3/4) > >>

AndreiASM:

--- Quote from: Xanadron on  26 August 2011, 12:01:21 ---Deloc inexplicabila pasiunea brusca a chinezoiului Baidu pentru profilul/nickname-ul cu rezonantze nipone al colegului Kymosabe, daca ne reamintim detaliul livrat de Nox parca nu demult - cum ca IP-ul computerului de pe care "conspecteaza" baidezul pe RUFOn e de fapt din Japonia. 8-)

Mai astept doar aparitia unui bot cu IP-ul in Xanadronia. :-D

--- End quote ---

Salutari tuturor,

Serviciile oferite de Baidu sunt valabile in China si Japonia, deci locatia serverului de pe care are loc crawling-ul nu e deosebita.

Un coforumist intreba de ce interesul subit pentru site-ul acesta (romanesc, fiind). Aici intervine un concpt IT-ist pe nume de TLD (Top Level Domain - domeniul de nivel maxim), care practic identifica un web-site din punct de vedere a categoriei; in acest caz, acest TLD este .org, si nu .ro. Din punct de vedere al paianjenului care efectueaza operatiunea automat, acesta nu este un site romanesc (nici localizarea serverelor in Romania nu ar ajuta, dat fiind ca un site poate fi oglindit sau replicat pe mai multe servere, distribuite uniform geografic, pentru a asigura viteza mare de raspuns.).

De ce in general noaptea tarziu? Aceasta are de-a face cu o politica generala a crawlerelor, care isi executa actiunile atunci cand loadul serverului tinta este minim (in cazul nostru, evident, noaptea exista mai putin trafic decat ziua).

De ce crawluieste in continuare? O indexare completa poate dura saptamani, chiar luni pentru site-urile mari si stufoase (nu as putea sa dau un ETA pe cand termina :D)

De asemenea, precizez de pe acum ca e foarte posibil ca micutul Baidu sa ne mai scotoceasca in viitor - tot o politica de-a crawlerelor, de a-si mentine actualizate datele de pe un anumit site (politica de revizitare).

De asemenea, anumite subiecte pot prezenta mai mult interes, dat fiind numarul mai mare de vizitatori, astfel ca vor fi preferate in dauna altora mai putin citite.

Sper ca am reusit sa elucidez intr-o oarecare masura misterul. Nu exista nimic deosebit la aceste evenimente (chiar daca sunt mai paranoic de felul meu cand vine vorba de conspiratii & co, stiu ca astfel de 'evenimente' sunt normale, IT-ist fiind).

Xanadron:
Vorba ceea: cine stie, cunoaste... :wink:
Astea-s desigur explicatiile rationale, dar ma racaie in continuare unul din cele citeva adevaruri strecurate printre tonele de BS in "2012-The Movie" (v. sediul preparativelor global-centralizate pentru Apoca_lipsa - CHINA).

Nu stiu daca si ajutati de Baidu sau nu, chinejii inclin sa cred ca au si ei programe ample de prognoze pe baza de analiza semantica a fluxurilor globale de... cuvinte circulante pe net in definitiv. :roll:
E doar parerea mea, evident.

Siberia:
@AndreiASM o mica intrebare am si eu:

Cate crowlere de indexare (spiders) sunt programate sa tipareasca continutul unor subiecte ?
Macar sa ne facem si noi o idee.

AndreiASM:

--- Quote from: Siberia on  26 August 2011, 19:18:18 ---@AndreiASM o mica intrebare am si eu:

Cate crowlere de indexare (spiders) sunt programate sa tipareasca continutul unor subiecte ?
Macar sa ne facem si noi o idee.

--- End quote ---

Depinde. In general, pentru un singur motor de cautare, sunt lansate mai multe instante simultan care culeg informatiile de pe respectivul site (de obicei, atunci cand se viziteaza un site pentru prima data, se folosesc multe instante); totul depinde de cat de repede se doreste indexarea respectivului site si de latimea de banda (pentru a evita gatuirea serverului). Ulterior, cand se efectueaza revizitarile, se foloseste un numar mai mic. Chiar acum sunt 7 paianjeni de la MSN online, in captura de ecran postata erau parca 12 de la Baidu, numere care sunt cat se poate de in regula (un numar foarte mare pot gatui serios serverul).

In final, judecand la rece, totul este in regula. Bineinteles, cred ca nimeni si nimic nu impiedica o corporatie sa plateasca, de exemplu, pe cei de la Baidu ca sa extraga anumite date de pe un site, dar fiind date toate circumstantele prezente, eu as zice ca nu e niciun motiv de ingrijorare. Mai mult, daca chinezii (prin asta inteleg guvern, tPTB, sforari NWO, etc.) ar vrea sa obtina ceva informatii, cu toata puterea lor de calcul, as garanta ca nu ar apela la bietii Baidu (care sunt un soi de Yahoo asiatic) ca sa faca asta in locul lor, si ar folosi spideri invizibili, nume aleatoare de useri, etc., astfel incat sa treaca neobservati.  :martiansmile:

PS: Ca sa raspund la intrebare si scurt si la obiect, pot fi folosite si cateva zeci de instante pentru asa ceva (10, 20, 30 - depinde de mai multi factori pe care i-am enumerat deja in postul acesta & cel precedent).

Siberia:
Multumesc mult, dar eu am intrebat :

--- Quote ---Cate crowlere de indexare (spiders) sunt programate sa tipareasca continutul unor subiecte ?
--- End quote ---
Nu cate instante ale unui robot sunt pe pagina pentru a o indexa conform unui algoritm.

Sau ca sa fiu mai inteleasa: in algoritmii de indexare a robotilor/ crawlerelor de internet exista si optiunea de tiparire a unor informatii gasite pe baza respectivului algoritm de cautare pentru indexare ?
Si daca da, informatiile tiparite / printate folosesc pentru indexarea site-ului sau in alte scopuri ?

Navigation

[0] Message Index

[#] Next page

[*] Previous page

Go to full version