我做课题研究需要分析ai相关的专利数据,请问怎么采集,比如谷歌专利?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
我理解专利数据应该是律师会用到,比如AI技术相关的专利,采集起来其实并不容易。
各大专利数据库对于爬虫采集防范措施很严,会采用JavaScript 动态渲染、 CAPTCHA验证、IP封锁、浏览器指纹检测等方法去阻止自动化采集程序,所以难度是非常高的。
最重要的一点是,得确保数据采集的安全性,这些专利数据是公开数据,原则上没问题,但数据采集过程不能干扰到网站的正常运行,还得符合不同国家的合规性要求。
可以尝试Python结合亮数据的网页解锁API去采集数据,实现起来最简单。
亮数据会把把应对拦截机制的技术封装到一个API里,比如代理ip池、解锁器、动态处理、cookies管理等,它支持通过python、javascript等编程语言去调用,这样就大大降低了数据采集难度,可以集中精力去开发系统和分析数据。