【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战。


477800562f0bc86b35e3636f262da982ec2e02dc

2c54e1e73437c43e1e2f7a12b5bf56a0d6e98e04

392f64f778c0727fd7b572ec9b0775d31209b033

de98b84ef7cd3a36b0359af7a495d561436de6b5

53d85e8ea939a552034c3d017d34c57795eb594b

5d2d4d72fdf9f4fe12938433191c0eba52637d10

c1e631c3746bbabe0b6fb67853b2d347dca6616f

e1bfd21d851a8fce73bcd7cdb2a1ff8da6bcb1d4

82b697d6b49b015146a28698b4be4c9719e99bf0

4b6c804103f7adce768d1d5f3c74441f4c16b525

10ff08e0ad4168b38666bf07012bcdbfba7d06c0

a742efd5c7de774c2b5b1dfd6fa9dcb54ba32a9e

5d5e15a0534533dadfc9ea6c2a5e66f41da50bc0

daead6d0f5aec050eb33c2e644d141a12efde1aa

f94f77a79244cd01cd91484c4b9ad76c1913d616

a61dc958fd4066a3fcbd547ad108b30fc765903a

c6ec119a088c754637ce73ebf4cf61563d25353c

b359d9bb63a31f827af460f1b693fc61feab6dad

b459134f7b15bb9d5c2dc740096ee12def1e7bd2

ff01a7ad224e4610aa29fa76a84297b726528193

30d83dd7ff2dbdda476c261a55970821f0eaece1

9a25fa699b326279de435c56894f3e12a83b63c6

200be4594fc27de9d9c7279e5989322f7fbcdbd0

f660c7746d5809ed75c664184208bc4f02d25306

eb9a3eee8708ea493578e423724ea586986d60a0

447b102d845ce55cf9f3f1fbcd3114620eea4c9b

facb0a3b2d372030a2259d2d1b2edf4237723c93

17ab958e7745cee028f636f71320b5385d47d89e

0cfe4ffb53d04cd93624fcc0b714955c743153a3

7709c93745f209849761a0a40159d547868de64c

515d3eae2241adb2b8f58955d624eb47743dc85c

40791c27891001e8ea68dd902b4b703f934d2d14

64dd0587a6aa36063797602d6930b6d835af313d

953c38bb0c54e1442549db70dc5cdaedac9f766e

521966bb269ed1386b6bdbcbee864c55fa6d3472

eae3191ef06c649f5490927516d05535ec1b8194

d602ee7464879fa3e4c5995d9fc6c644c6b287a6

6d10135cdcaa15edc7f71b3ad63506cf4e6a36c8

842f687b52eb275ce8eafe5815a69e9610632ee7

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
机器学习/深度学习 算法 大数据
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
|
5月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
305 0
|
6月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
8月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
394 79
|
4月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
222 0
|
10月前
|
传感器 人工智能 大数据
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
|
9月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
752 58
|
10月前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
9月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
1059 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

热门文章

最新文章

下一篇
oss云网关配置