《网站链接抓取器》抓取规则详解

《网站链接抓取器》抓取规则详解

在重写软件的时候发现有这么一个设置,想到有些朋友可能不明白怎么设置。所以就借这篇文章来解释一下。

“包含”的意思是指只保留符合此规则里的链接。如果留空,则保留所有链接。

“排除”的意思是指不保留符合此规则里的链接。如果留空,则不排除任何链接。

在设置规则的地方,有一个输入框,后面有“或”和“且”。

输入框里,就要“包含”或者“排除”的内容。

比如在包含里输入 “tags”(不含引号) ,那么软件就只会保留有“tags”这几个字符的链接,其它链接一概舍去。

同要的,在“排除”里输入某内容,软件就不保留包含此内容的链接。

然后输入框里并不是只能输入一条内容。而是一行一条。可以输入N条。

各条内容之类的关系就需要选择后面的“或”和“且”了。

还是拿“包含”来举例。

比如有4条链接:

aaa/dsfjniwoewer/bbb/dspo22.html

aaa/ds1f56we8sd/ccc/dsewodsf2.html

aaa/iejwo2834sd/bbb/1s022.html

123/fs0lkop[pw/bbb/6dfwisll.html

然后我只想保留第1条和第3条怎么办?如果只输入 aaa 会保留1、2、3条。如果只输入 bbb 会保留 1、3、4条。

这时候就可以输入两个条件。

第一行输入 aaa

然后换行,在第二行输入 bbb

再选择后面的 “且”

“且”的意思就是同时满足前面的条件,才保留(或者排除)链接。

“或”的意思就是前面的条件,只要满足一条,就保留(或者排除)链接。

原文链接:http://www.zylou.cn/329.html,未经允许,禁止转载。

评论0

请先

站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
没有账号? 注册  忘记密码?
'); })();