【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战。


477800562f0bc86b35e3636f262da982ec2e02dc

2c54e1e73437c43e1e2f7a12b5bf56a0d6e98e04

392f64f778c0727fd7b572ec9b0775d31209b033

de98b84ef7cd3a36b0359af7a495d561436de6b5

53d85e8ea939a552034c3d017d34c57795eb594b

5d2d4d72fdf9f4fe12938433191c0eba52637d10

c1e631c3746bbabe0b6fb67853b2d347dca6616f

e1bfd21d851a8fce73bcd7cdb2a1ff8da6bcb1d4

82b697d6b49b015146a28698b4be4c9719e99bf0

4b6c804103f7adce768d1d5f3c74441f4c16b525

10ff08e0ad4168b38666bf07012bcdbfba7d06c0

a742efd5c7de774c2b5b1dfd6fa9dcb54ba32a9e

5d5e15a0534533dadfc9ea6c2a5e66f41da50bc0

daead6d0f5aec050eb33c2e644d141a12efde1aa

f94f77a79244cd01cd91484c4b9ad76c1913d616

a61dc958fd4066a3fcbd547ad108b30fc765903a

c6ec119a088c754637ce73ebf4cf61563d25353c

b359d9bb63a31f827af460f1b693fc61feab6dad

b459134f7b15bb9d5c2dc740096ee12def1e7bd2

ff01a7ad224e4610aa29fa76a84297b726528193

30d83dd7ff2dbdda476c261a55970821f0eaece1

9a25fa699b326279de435c56894f3e12a83b63c6

200be4594fc27de9d9c7279e5989322f7fbcdbd0

f660c7746d5809ed75c664184208bc4f02d25306

eb9a3eee8708ea493578e423724ea586986d60a0

447b102d845ce55cf9f3f1fbcd3114620eea4c9b

facb0a3b2d372030a2259d2d1b2edf4237723c93

17ab958e7745cee028f636f71320b5385d47d89e

0cfe4ffb53d04cd93624fcc0b714955c743153a3

7709c93745f209849761a0a40159d547868de64c

515d3eae2241adb2b8f58955d624eb47743dc85c

40791c27891001e8ea68dd902b4b703f934d2d14

64dd0587a6aa36063797602d6930b6d835af313d

953c38bb0c54e1442549db70dc5cdaedac9f766e

521966bb269ed1386b6bdbcbee864c55fa6d3472

eae3191ef06c649f5490927516d05535ec1b8194

d602ee7464879fa3e4c5995d9fc6c644c6b287a6

6d10135cdcaa15edc7f71b3ad63506cf4e6a36c8

842f687b52eb275ce8eafe5815a69e9610632ee7

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
|
24天前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
26天前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
27天前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
2月前
|
存储 机器学习/深度学习 大数据
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。
159 12
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
|
1月前
|
SQL 监控 大数据
"解锁实时大数据处理新境界:Google Dataflow——构建高效、可扩展的实时数据管道实践"
【8月更文挑战第10天】随着大数据时代的发展,企业急需高效处理数据以实现即时响应。Google Dataflow作为Google Cloud Platform的强大服务,提供了一个完全托管的流处理与批处理方案。它采用Apache Beam编程模型,支持自动扩展、高可用性,并能与GCP服务无缝集成。例如,电商平台可通过Dataflow实时分析用户行为日志:首先利用Pub/Sub收集数据;接着构建管道处理并分析这些日志;最后将结果输出至BigQuery。Dataflow因此成为构建实时数据处理系统的理想选择,助力企业快速响应业务需求。
88 6
|
1月前
|
存储 分布式计算 数据处理
面向业务增长的数据平台构建策略
【8月更文第13天】为了构建一个能够支持企业业务增长的数据平台,我们需要考虑几个关键的方面:数据的收集与整合(数据集成)、存储、处理和分析。本文将详细介绍这些步骤,并提供具体的代码示例来帮助理解。
28 1
|
24天前
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
2月前
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。
|
2月前
|
分布式计算 安全 大数据
HAS插件式Kerberos认证框架:构建安全可靠的大数据生态系统
在教育和科研领域,研究人员需要共享大量数据以促进合作。HAS框架可以提供一个安全的数据共享平台,确保数据的安全性和合规性。