问下手机app爬虫的开发:这个app的请求怎么截获不了

学爬虫有段时间了,这周打算开发一个爬虫去爬取一个手机app上的涩图。
我想爬虫都是去爬取一个又一个url,这样是不是说只要我能拦截到手机发出的http请求,我就能把请求复制一份,自己发出去,能自己接收response


首先设置我的小米路由器,在 常用设置里,安全中心设置控制模式为白名单模式,(这龟儿子的模式让局域网内主机不能互通)


到后来截获请求的时候发现一个问题,这个app发出的请求居然找不到,
我换了bilibili试试,可以截获,但是这个app不按常理出牌,wireshark找不到他的请求,有没有哪个小伙伴知道怎么回事

首先,写一个简单的爬虫是比较简单的。例如 scrapy 这个工具 就非常棒,可以短平快地造一个工具。

接下的问题会变得非常复杂:

  1. 网站有认证怎么办?
  2. 网站要注册怎么办?
  3. 网站限流怎么办?
  4. 网站反爬虫怎么解决?

针对手机app爬虫,首先要确定它的消息协议,然后就是常规操作了。如果没开放api的 话,比较通用的方式是模拟浏览器请求,这也是大部分爬虫所要实现的。


手机app如果是Android的话,可以直接反编译看里面的调用逻辑。你说wireshark看 不到它的请求,在路由器上肯定可以看到的。猜测可能的原因是wireshark filter expression 没匹配到,建议抓全量的包再过滤。

用selenium来写爬虫,就像在本地浏览器注入JS插件一样,这样就可以直接跳过无聊的后台攻防。

可以看看我的文章:https://manateelazycat.github.io/linux/2019/11/25/breaking-captcha.html

我一直认为自己写一个简单的浏览器,是对抗所有爬虫攻防最佳的手段,因为防御方会认为你就是在浏览器中正常操作。

你确定能爬手机app吗