六狼论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

搜索
查看: 35|回复: 0

webharvest & xpath tips

[复制链接]

升级  40%

4

主题

4

主题

4

主题

童生

Rank: 1

积分
20
 楼主| 发表于 2013-2-7 15:12:57 | 显示全部楼层 |阅读模式
webharvest:

1.get a web page source formats in XML format
<html-to-xml><http url="${sys.fullUrl(rooturl,nexturl)}" charset="ISO-8859-1"/>
</html-to-xml>

or just get html format

<http url="${sys.fullUrl(rooturl,nexturl)}" charset="ISO-8859-1"/>

2. SimpleDateFormat
EEE, dd MMM yyyy hh:mm:ss Z

dd-MM-yyyy HH:mm a

3.<template>${sys.fullUrl(rooturl,commenter_name)}</template>

XPATH

1.data((//font[@class='subject'])[1])

2.//td[@class='tablerow' and @valign='top' and @style='height: 80px; width: 82%']/font[position() > 1]

3.a[.,'1']


Regular Expression

<content>([\\w\\W]*?)<content>

<post>(.*?)</post>

/\\d{4}/\\d{1,2}/\\d{1,2}/  <!-- such as /2009/12/3/-->
您需要登录后才可以回帖 登录 | 立即注册 新浪微博账号登陆

本版积分规则

快速回复 返回顶部 返回列表