最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer):
但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个
关键是滑滚过去还会失败:
https://sf.taobao.com/item_list.htm
正在摸索,阿里主要是根据cookie来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒
更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么cookie),我要本地定时爬然后发到远程服务器~~
请问该如何道高一尺魔高一丈?
这个咱提前问了客户,他说这些数据都是公开的
确实,卖房难道还要保密? 确实有类似的网站/app,它就很好地怕了阿里这些数据,所以如果实在爬不了阿里的,就直接爬这个网页的:
https://www.yfbudong.com/
1 个赞
主要目的就是节省用户(主要是律师)的时间 /效率,现在他们要一时搜京东,一时搜阿里,白花了很多时间精力啊
咱这不是货真价实,名正言顺
的“为人民服务”吗?!
wsug
8
应对反爬最好的还是人工爬虫吧,阿里反爬技术在强也不怕,还安全不担心坐牢,曾经做过类似这样手工数据转录的事,当时不理解为什么不写自动化程序来爬。现在突然明白了
试过,没有的
何为人工爬虫?就是不需要程序猿也可以做的那种体力活?
咱对商业接触的极少,大多商领域都是小白
怀念牛顿,达芬奇,爱因斯坦他们,给我们分享那么宝贵的知识一分钱都没要
1 个赞
你这是为客户服务,不是为人民服务,高帽子可不敢瞎戴。
我指的是客户为人民服务啊
就好像借刀杀人不能怪刀啊。。。
一开始咱也是这样担心的,问了客户说这些“房地产/住宅用房”数据都是公开的,有类似的app(海豚选房),就让咱吃了颗定心丸
wsug
15
程序猿还是要的,但程序猿能力有限。我遇到过防反爬、防自动化机制极强的某大厂,能想的办法都想了,想不出办法了只能人工操作。
人工操作也要小心翼翼的,一不小心被系统判定你是机器人然后封号、封ip,封客户端等,重装客户端也无效,要重新刷机
LdBeth
16
问客户没雕用,你既然在盈利就应该找个正经律师问问才保险
yaoni
17
老哥还是应该正经问问律师,极端一点的例子,一些间谍也都是通过分析一些公开数据来获取情报的。
1 个赞
细思极恐,咱主要是冲着玩/学技术去的,没想到有那么高的法律风险
客户说数据是全都公开的,但是也会提供一些其它收费服务,例如咨询
schwaa
19
面向监狱编程,望三思。
不过我也觉得很多网站做得不方便。无用信息太多,有用的信息分散在不同的角落,需要你去点点点。我现在甚至觉得web的发展在倒退,虽然界面更好看了,但是获取信息更麻烦、更低效了。
我觉得更好的方式是网站开发者提供一套访问数据的接口,然后用户自行获取然后分析组合。用户只获取他感兴趣的东西,这么做对网站开发者似乎也有好处,起码消耗的流量更少了。