【阿里爬虫】如何应对反爬?

最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer):
但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个


关键是滑滚过去还会失败:

https://sf.taobao.com/item_list.htm

正在摸索,阿里主要是根据cookie来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么cookie),我要本地定时爬然后发到远程服务器~~ :rage:

请问该如何道高一尺魔高一丈?
:robot:

反爬了还爬是违法的吧。 :joy:

这个咱提前问了客户,他说这些数据都是公开的
确实,卖房难道还要保密? 确实有类似的网站/app,它就很好地怕了阿里这些数据,所以如果实在爬不了阿里的,就直接爬这个网页的:
https://www.yfbudong.com/

1 个赞

公开并不意味着你可以爬来为己用。

1 个赞

主要目的就是节省用户(主要是律师)的时间 /效率,现在他们要一时搜京东,一时搜阿里,白花了很多时间精力啊
咱这不是货真价实,名正言顺的“为人民服务”吗?!

CTO供述和辩解时说:

爬取的是公开信息,没有任何恶意去攻击网站和系统,只是为了提高查询效率。没有爬取个人信息,没有在市场上买卖或者和其他公司搞资源置换,没有通过查询某市居住证网站信息获利。软件是公司管理层开会决定开发的,由法定代表人交代技术部研发,系统里的查询和下载功能是程序员程序员负责开发的。程序员设定的是每周三次自动查询,后面怎么实施的我也不清楚,主要是程序员负责。

法院认为,二人违反国家规定,对计算机信息系统进行干扰,造成为5万以上用户提供服务的计算机信息系统不能正常运行累计1小时以上,属于后果特别严重,应以破坏计算机信息系统罪追究其刑事责任。

要学会保护自己额

3 个赞

robots.txt?

应对反爬最好的还是人工爬虫吧,阿里反爬技术在强也不怕,还安全不担心坐牢,曾经做过类似这样手工数据转录的事,当时不理解为什么不写自动化程序来爬。现在突然明白了 :joy:

这事真的可以坐牢的,而且盈利不是必要条件。

试过,没有的

何为人工爬虫?就是不需要程序猿也可以做的那种体力活?
咱对商业接触的极少,大多商领域都是小白

怀念牛顿,达芬奇,爱因斯坦他们,给我们分享那么宝贵的知识一分钱都没要

1 个赞

你这是为客户服务,不是为人民服务,高帽子可不敢瞎戴。

没有的话只要不爬崩应该就可以?

我指的是客户为人民服务啊
就好像借刀杀人不能怪刀啊。。。

一开始咱也是这样担心的,问了客户说这些“房地产/住宅用房”数据都是公开的,有类似的app(海豚选房),就让咱吃了颗定心丸

程序猿还是要的,但程序猿能力有限。我遇到过防反爬、防自动化机制极强的某大厂,能想的办法都想了,想不出办法了只能人工操作。

人工操作也要小心翼翼的,一不小心被系统判定你是机器人然后封号、封ip,封客户端等,重装客户端也无效,要重新刷机

问客户没雕用,你既然在盈利就应该找个正经律师问问才保险

老哥还是应该正经问问律师,极端一点的例子,一些间谍也都是通过分析一些公开数据来获取情报的。

1 个赞

细思极恐,咱主要是冲着玩/学技术去的,没想到有那么高的法律风险
客户说数据是全都公开的,但是也会提供一些其它收费服务,例如咨询

面向监狱编程,望三思。

不过我也觉得很多网站做得不方便。无用信息太多,有用的信息分散在不同的角落,需要你去点点点。我现在甚至觉得web的发展在倒退,虽然界面更好看了,但是获取信息更麻烦、更低效了。

我觉得更好的方式是网站开发者提供一套访问数据的接口,然后用户自行获取然后分析组合。用户只获取他感兴趣的东西,这么做对网站开发者似乎也有好处,起码消耗的流量更少了。