我们在做网站SEO的时候,肯定会更新网站的内容,在日常更新中,作为seoer,比较关注的所发布的文章是否被百度收录,一方面是判断最近文章的更新质量,另一方面是判断网站关键词优化的效果怎么样。少量url可以自己手动查询,但是想要查询过往所有发布的文章url,难免手动查询比较耗时,这次淡墨流年pyseo,用python去批量查询网站的url。(可以试试用软件推送:推送-搜索结果 -资源楼 (zylou.cn))
核心思路:多线程、pyquery解析判断,requests请求
一、requests请求文章url
def scrape_html(url):
logger.info(f'开始查询{url}是否收录。。。。。。。。。')
try:
headers = Headers(headers=True).generate()
response = requests.get(url=url,headers=headers)
if response.status_code == requests.codes.ok:
html = response.content.decode('utf-8')
return html
except Exception as e:
logger.error(f'查询url出错,错误是{e}')
二、pyquery解析判断(xxx是你的网站地址或品牌名称)
def is_shoulu(html,url):
doc = pq(html)
item = {}
if doc('a:contains(xxx)'):
logger.info(f'该url:{url}已收录')
item.setdefault('url',url)
item.setdefault('is_shoulu','收录')
else:
logger.info(f'该url:{url}未收录')
item.setdefault('url', url)
item.setdefault('is_shoulu', '未收录')
return item
三、mongodb数据保存
四、将网站的url保存到txt中
五、多线程运行
六、运行效果
七、txt可视化界面
八、手动检查收录准确性
可以看到url确实已经是收录了,准确性还是不错的。
原文链接:https://www.zylou.cn/1670.html,未经允许,禁止转载。
请先
!