Ricky 的讨论

发布于: 雪球回复:7喜欢:0
这大概是个什么概念?//截至目前360搜索引擎拥有13000多台服务器,庞大的蜘蛛爬虫系统每日抓取网页数量10多亿,引擎索引的优质网页数量超过200亿,而且网页搜索速度和质量都已经达到先进水平

热门回复

2012-08-29 17:24

 恩,确实是,相当于百度的UGC

2012-08-29 17:20

 百度的我不知道,似乎他们没公开过这数字。不过我觉得百度的量不太能做参考,一方面百度蜘蛛算法不好,大量内容重复抓取。另外一方面百度自己有贴吧/知道/百科这种大内容源,这些抓取更新我怀疑和普通网站不一样。

ps:这三个东西我认为也是百度的护城河。360在这方面不太好办。

2012-08-29 17:18

 百度和大概有多少?

2012-08-29 17:15

 谢

2012-08-29 17:14

 10亿大约是每天google全球索引量的1/10吧。如果蜘蛛算法不错,这些抓取的都是变化了的结果,那这个数量仅对于中文已经相当可观了。