SparkSQL在机器学习场景中应用模型从批量到实时面临的问题
- SparkSQL 转换成实时执行成本高
- 离线特征和在线特征保持一致困难
- 离线效果与在线效果差距大
我们是如何解决这些问题
相对传统实现方式我们优势
SparkSQL实时上线demo
王太泽
第四范式特征工程数据库负责人
曾在百度担任资深研发工程师
一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。