六狼论坛's Archiver
首页
›
MongoDB
› 对抓取回来的海量原始网页存储结构设计
tangmi
发表于 2013-1-30 01:57:00
对抓取回来的海量原始网页存储结构设计
最近一直在搞爬虫相关的工作,现在在考虑抓取回来的原始网页存储问题
找了一些资料,也参考了天网的存储格式,现在头绪没有理清楚,该以怎样的结构存储对后期的再加工和查询等提高效率,希望做搜索的朋友一起讨论,哪里不对请指教
页:
[1]
查看完整版本:
对抓取回来的海量原始网页存储结构设计