Ne znam sta te konkretno zanima ? Nutch je vise sklop par razlicitih komponenti , generalno pustis ga da crawluje net i nakon par sati mislim da mozes vec da dobijes nekakav rezultat querija.
ako 1 sajt ima u prosjeku , npr. nekih 1 mb , 100 miliona sajtova ti je oko 100 TB . Dakle , ni govora o 1 hd . S tim da sajt ima u prosjeku mnogo vise od 1mb , tesko da ce to da fercera :)
hoplit: ako 1 sajt ima u prosjeku , npr. nekih 1 mb , 100 miliona sajtova ti je oko 100 TB . Dakle , ni govora o 1 hd . S tim da sajt ima u prosjeku mnogo vise od 1mb , tesko da ce to da fercera :)
Mnogo vise od 1MB cistog html-a, znaci nista slike. U svakom slucaju to prelazi kapacitet jednog kompjutera.
Ne bih ti preporucio nutch nikako ako koristis svoju masinu za testiranje, ucenje i tako to. Nije optimizovan za jednu masinu. Pre bih ti savetovao da pises svoje botove koji ce krolovati, da sam napises parsere i siguran sam da ces, em nauciti vise sta se desava ispod haube i kako su sajtovi organizovani nego da koristis Nutch kao crnu kutiju iz koje dobijas neke podatke. To ti je moja preporuka.