开发者社区 > 大数据与机器学习 > 检索分析服务 Elasticsearch版 > 正文

使用 Filebeat 作为客户端访问 GitHub API有哪些必须理解的知识?

已解决

使用 Filebeat 作为客户端访问 GitHub API有哪些必须理解的知识?

展开
收起
甜甜的嘻嘻嘻 2022-09-08 14:48:19 771 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    • 认证用户每小时的请求发送总配额是 5000 次;对于比较流行的项目而言,issue或 pull request 两类的数据量比较多,很可能会用尽配额,建议使用 since 参数先拉取近期的数据分析,然后逐步拉取旧数据;

    • 企业版用户的配额高一些,每个用户,每小时的配额是 15000 次;

    • 未认证用户,每小时限制在 60 次请求;

    • 建议在采集数据之前,先在 GitHub 上对目标项目进行大概的了解,预估 overall,contributors,releases,languages,tags,issues 和 pull request 等数据的条数和可能需要的请求次数,然后分步骤采集各类数据;

    • 可以用加大 page size 参数【per_page 参数的最大值为 100】的方式降低需要发出的请求次数。page size 越小,采集的项目数据量越大,越可能碰到被限流的情况。

    以上内容摘自《Elastic(中国)产品应用实战》电子书,点击https://developer.aliyun.com/ebook/download/7771可下载完整版

    2022-09-08 14:58:00
    赞同 展开评论 打赏

阿里云检索分析服务Elasticsearch版兼容开源ELK功能,免运维全托管,提升企业数据检索与运维分析能力。

热门讨论

热门文章

相关电子书

更多
Spring Boot2.0实战Redis分布式缓存 立即下载
CUDA MATH API 立即下载
API PLAYBOOK 立即下载