2010Freeze 发表于 2013-1-1 22:35:48

使用python多线程实现一个简单spider

使用python多线程实现一个简单spider

<div id="cnblogs_post_body">老习惯,先看看别人的工作。推荐看看 我的知识库(1)--Java 搜索引擎的实现— 网络爬虫 文章把相关概念讲的很详细了。
老样子,我也是初学者,通过本次学习主要掌握以下几点:
1.了解python 网络编程
2.了解python多线程锁机制
3.掌握python re模块match使用
那么开始吧
1.使用python抓取一个网页的内容
使用urllib模块
<div class="cnblogs_code">1 def getWebPage(url):2   wp = urllib.urlopen(url)3   content = wp.read()4   return content
页: [1]
查看完整版本: 使用python多线程实现一个简单spider