使用 Filebeat 作为客户端访问 GitHub API有哪些必须理解的知识?
• 认证用户每小时的请求发送总配额是 5000 次;对于比较流行的项目而言,issue或 pull request 两类的数据量比较多,很可能会用尽配额,建议使用 since 参数先拉取近期的数据分析,然后逐步拉取旧数据;
• 企业版用户的配额高一些,每个用户,每小时的配额是 15000 次;
• 未认证用户,每小时限制在 60 次请求;
• 建议在采集数据之前,先在 GitHub 上对目标项目进行大概的了解,预估 overall,contributors,releases,languages,tags,issues 和 pull request 等数据的条数和可能需要的请求次数,然后分步骤采集各类数据;
• 可以用加大 page size 参数【per_page 参数的最大值为 100】的方式降低需要发出的请求次数。page size 越小,采集的项目数据量越大,越可能碰到被限流的情况。
以上内容摘自《Elastic(中国)产品应用实战》电子书,点击https://developer.aliyun.com/ebook/download/7771可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。