【阿里爬虫】如何应对反爬？

Soul-Clinic · 2022 年2 月 23 日 05:40

最近在做房产拍卖的爬虫，京东的很好爬，很容易就爬到需要的几千条记录（包括图片，附件，自动生成海报），自动生成数据库需要的数据 (node.js + puppeteer)：
但要爬淘宝的就难多了，时不时要求登陆或者验证（如果请求频繁），也会让你休息，看网上也有很多普通用户抱怨这个

关键是滑滚过去还会失败：

https://sf.taobao.com/item_list.htm

正在摸索，阿里主要是根据cookie来判别请求是否过于频繁，网上也说了每个请求最好相隔几秒

更可恶的是，在阿里自己的阿里云服务器根本就请求不到（无论是什么cookie），我要本地定时爬然后发到远程服务器~~

请问该如何道高一尺魔高一丈？

xiaorong61 · 2022 年2 月 23 日 06:06

反爬了还爬是违法的吧。

Soul-Clinic · 2022 年2 月 23 日 06:20

这个咱提前问了客户，他说这些数据都是公开的
确实，卖房难道还要保密？确实有类似的网站/app，它就很好地怕了阿里这些数据，所以如果实在爬不了阿里的，就直接爬这个网页的：
https://www.yfbudong.com/

twlz0ne · 2022 年2 月 23 日 06:32

公开并不意味着你可以爬来为己用。

Soul-Clinic · 2022 年2 月 23 日 06:36

主要目的就是节省用户（主要是律师）的时间 /效率，现在他们要一时搜京东，一时搜阿里，白花了很多时间精力啊
咱这不是货真价实，名正言顺的“为人民服务”吗？！

zsxh · 2022 年2 月 23 日 07:00

CTO供述和辩解时说：

爬取的是公开信息，没有任何恶意去攻击网站和系统，只是为了提高查询效率。没有爬取个人信息，没有在市场上买卖或者和其他公司搞资源置换，没有通过查询某市居住证网站信息获利。软件是公司管理层开会决定开发的，由法定代表人交代技术部研发，系统里的查询和下载功能是程序员程序员负责开发的。程序员设定的是每周三次自动查询，后面怎么实施的我也不清楚，主要是程序员负责。

法院认为，二人违反国家规定，对计算机信息系统进行干扰，造成为5万以上用户提供服务的计算机信息系统不能正常运行累计1小时以上，属于后果特别严重，应以破坏计算机信息系统罪追究其刑事责任。

要学会保护自己额

dcy · 2022 年2 月 23 日 07:49

robots.txt？

wsug · 2022 年2 月 23 日 08:05

应对反爬最好的还是人工爬虫吧，阿里反爬技术在强也不怕，还安全不担心坐牢，曾经做过类似这样手工数据转录的事，当时不理解为什么不写自动化程序来爬。现在突然明白了

DogLooksGood · 2022 年2 月 23 日 09:46

这事真的可以坐牢的，而且盈利不是必要条件。

Soul-Clinic · 2022 年2 月 23 日 10:16

试过，没有的

何为人工爬虫？就是不需要程序猿也可以做的那种体力活？
咱对商业接触的极少，大多商领域都是小白

怀念牛顿，达芬奇，爱因斯坦他们，给我们分享那么宝贵的知识一分钱都没要

suliveevil · 2022 年2 月 23 日 10:25

你这是为客户服务，不是为人民服务，高帽子可不敢瞎戴。

dcy · 2022 年2 月 23 日 10:32

没有的话只要不爬崩应该就可以？

Soul-Clinic · 2022 年2 月 23 日 10:34

我指的是客户为人民服务啊
就好像借刀杀人不能怪刀啊。。。

Soul-Clinic · 2022 年2 月 23 日 13:31

一开始咱也是这样担心的，问了客户说这些“房地产/住宅用房”数据都是公开的，有类似的app（海豚选房），就让咱吃了颗定心丸

wsug · 2022 年2 月 23 日 14:31

程序猿还是要的，但程序猿能力有限。我遇到过防反爬、防自动化机制极强的某大厂，能想的办法都想了，想不出办法了只能人工操作。

人工操作也要小心翼翼的，一不小心被系统判定你是机器人然后封号、封ip，封客户端等，重装客户端也无效，要重新刷机

LdBeth · 2022 年2 月 23 日 15:12

问客户没雕用，你既然在盈利就应该找个正经律师问问才保险

yaoni · 2022 年2 月 23 日 21:32

老哥还是应该正经问问律师，极端一点的例子，一些间谍也都是通过分析一些公开数据来获取情报的。

Soul-Clinic · 2022 年2 月 24 日 04:43

细思极恐，咱主要是冲着玩/学技术去的，没想到有那么高的法律风险
客户说数据是全都公开的，但是也会提供一些其它收费服务，例如咨询

schwaa · 2022 年2 月 25 日 08:30

面向监狱编程，望三思。

不过我也觉得很多网站做得不方便。无用信息太多，有用的信息分散在不同的角落，需要你去点点点。我现在甚至觉得web的发展在倒退，虽然界面更好看了，但是获取信息更麻烦、更低效了。

我觉得更好的方式是网站开发者提供一套访问数据的接口，然后用户自行获取然后分析组合。用户只获取他感兴趣的东西，这么做对网站开发者似乎也有好处，起码消耗的流量更少了。