murmurhash3 学习笔记
## 背景
由于项目中有报文排重需求,所以会将报文字符串作为分布式锁key。
考虑到报文不定长并且散列性不太好,如其作为锁key,特别是当key值过大时,使用redis进行读写都会有相对的性能下降。
```
参考文献里测试对比:
长度为10:写平均耗时0.053ms,读0.040ms
长度为20000:写平均耗时0.352ms,读0.084ms
```
一种简单的方案是
如何优雅地过滤敏感词
敏感词过滤功能在很多地方都会用到,理论上在Web应用中,只要涉及用户输入的地方,都需要进行文本校验,如:XSS校验、SQL注入检验、敏感词过滤等。今天着重讲讲如何优雅高效地实现敏感词过滤。
Apache Flink 漫谈系列(04) - State
实际问题
在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。
INTERSPEECH 2017系列 | 语音唤醒技术
目前市场上推出了各式各样的音箱,机器人,车载等语音交互产品,语音识别是交互的入口,而语音唤醒成为了踏进这一入口的第一步,如何高效、准确地对用户指令给出反应成为这一技术的最重要目标。本主题将介绍语音唤醒技术的基础知识,基本技术架构以及INTERSPEECH2017上的最新研究成果。
实时优化算法实现智能物流平台
本文PPT来自阿里巴巴集团朱胜火于10月14日在2016年杭州云栖大会上发表的演讲,分享主题为《物流平台的实时优化算法》。
sklearn:Python语言开发的通用机器学习库
深入理解机器学习并完全看懂sklearn文档,需要较深厚的理论基础。但是,要将sklearn应用于实际的项目中,只需要对机器学习理论有一个基本的掌握,就可以直接调用其API来完成各种机器学习问题。本文选自《全栈数据之门》,将向你介绍通过三个步骤来解决具体的机器学习问题。
城市大脑入选国家新一代人工智能开放创新平台,阿里iDST副院长华先胜技术解读
马云的达摩院再次展示了阿里“NASA”计划的雄心,而阿里云城市大脑已经开始改变城市管理的方式,新智元AI WORLD2017 世界人工智能大会,阿里巴巴Distinguished Engineer/VP、阿里iDST研究院副院长华先胜分享了《城市大脑 - 超级人工智能应用和创新平台》,结合在杭州的应用实例,从整个城市的数据,到数据的感知,尤其是视觉信息的感知、认知,再到决策、优化、搜索、挖掘、预测和干预,一条链路下来,系统展示了城市大脑是什么、要做什么,未来要成为什么,以及其价值体现。