Macos 上有没有好用的图形化采集工具/爬虫

临时需要爬点东西,python 懂得很少很少,因为不怎么用到爬虫之类的

临时需要爬取点东西,直接就是保存当前页面源码为 html 格式到本地就行

我看火车头没有 mac 版本,后羿那玩意也得需要 py 还要钱,我的量比较大

大概百万以上

有么有大佬推荐下

相关文章

26 thoughts on “Macos 上有没有好用的图形化采集工具/爬虫

  1. @neoblackcap 我不懂这个价格,你说,我自己瞎写了个 py 脚本,但是没多线程啥的 速度太慢了

  2. 上百万的数据,不知道用不用代-理,用代-理还要买。八爪鱼和弓箭手都有网页版的,就是你写规则,他来跑采集,量小貌似免费。

  3. 诶,没注意到还要多线程?
    那就 aria2c –max-concurrent-downloads=10 –input-file=download-list.txt 这样?

    如果还要套代理的话,买个隧道代理,自动切换多省心~

  4. @also24 不是 我是自己瞎写了个 py 爬虫脚本,就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了 我不会弄那个什么多线程啥的

  5. @c0py7hat #19
    重点在于:
    1 、是否需要配置大量的请求参数
    2 、是否存在限制 IP 、链接时效性之类的

    如果没有太多限制的话,可以自己只写拆 URL 出来的那部分,然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务,多线程的部分就交给 aria2c 来处理。

    如果确实涉及到比较多的流程需要敲代码来搞下载部分,那建议碰一下 aiohttp 这个库:
    https://docs.aiohttp.org/en/stable/

发表评论

电子邮件地址不会被公开。 必填项已用*标注