• 关于

    99shuffle函数

    的搜索结果
  • 机器学习常用函数解析

    机器学习常用函数解析 逻辑回归 from sklearn.preprocessing import StandardScaler 1. StandardScaler(copy=True, with_mean=True, with_std=True) 使用: scaler =...

    文章 megachen 2018-08-29 687浏览量

  • Spark 数据倾斜及其解决方案

    作者简介: 郑志彬,毕业于华南理工大学计算机科学与技术(双语班)。先后从事过电子商务、开放平台、移动浏览器、推荐广告和大数据、人工智能等相关开发和架构。目前在vivo智能平台中心从事 AI中台建设以及广告推荐业务。擅长各种业务形态的业务架构、平台化以及各种业务解决方案。 原文链接 转载自公众号:...

    文章 开源大数据EMR 2019-12-30 1458浏览量

  • Spark性能优化:数据倾斜调优

    前言继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优 调优概述有的时候,我们可能...

    文章 citibank 2018-07-19 1671浏览量

  • 前端面试题:高效地随机选取数组中的元素

    有前端题目大概是这样的:考虑到性能问题,如何快速从一个巨大的数组中随机获取部分元素。 比如有个数组有100K个元素,从中不重复随机选取10K个元素。 为了演示方便我们将数据简化,先给出方案最后再用大点的数据来测试性能的对比。 常规解法 常规做法倒也不难,生成一个0到数组长度减1的随机数,这个数也就...

    文章 刘哇勇 2014-05-03 790浏览量

  • 春蔚专访--MaxCompute 与 Calcite 的技术和故事

    摘要:2019大数据技术公开课第一季《技术人生专访》,来自阿里云计算平台事业部高级开发工程师雷春蔚向大家讲述了MaxCompute 与 Calcite 的技术和故事。 具体内容包括: 1) 什么是查询优化器;2)MaxCompute查询优化器的具体实践;3)MaxCompute后续计划;4)从校招...

    文章 晋恒 2019-07-25 2171浏览量

  • python之标准库

    Python的标准安装包括一组模块,称为标准库。 10.1 模块 >>>emport math >>>math.sin(0) 0.0 10.1.1 模块是程序 任何python程序都可以作为模块导入。 #hello.py print "hello,world...

    文章 技术小胖子 2017-11-10 891浏览量

  • 神经网络基础知识笔记

    神经网络表示 神经元模型 神经网络从大脑的工作原理得到启发,可用于解决通用的学习问题。神经网络的基本组成单元是神经元(neuron)。每个神经元具有一个轴突和多个树突。每个连接到本神经元的树突都是一个输入,当所有输入树突的兴奋水平之和超过某一阈值,神经元就会被激活。激活的神经元会沿着其轴突发射信号...

    文章 墨航 2017-05-16 3755浏览量

  • Spark Release 2.0.0发版概序

    Spark2.0在2016年7月26日发布,因为工作中经常用到,所以对它关注比较多,正好今天”提前”下班,所以抽空翻译一下spark2.0发版概述,简单的介绍一下spark2.0的新特性和新变化。好吧,现在就让村长带领大家一起走进spark2.0的神秘殿堂。同时也希望更多的人参入进来,知识因为共享...

    文章 青衫无名 2017-05-18 1811浏览量

  • Apache Spark源码走读(六)Task运行期之函数调用关系分析 &存储子系统分析

    <一>Task运行期之函数调用关系分析 概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。 准备 spark已经安装完毕 spark运行在local mode或loc...

    文章 许鹏 2016-09-14 2311浏览量

  • Apache Spark on ACK

    Apache Spark是一个大规模数据处理的统一分析引擎,是当今最流行的大数据框架之一。Spark常用于进行分布式、大数据处理,相比MapReduce,Spark提供了更高级的编程接口和更好的性能。同时Spark提供了对流式计算、机器学习的支持。 Kubernetes(k8s)是一个开源的容器集...

    文章 煜空 2020-11-06 240浏览量

  • 关于深度学习:大神Yoshua Bengio提供了26条经验

    雷锋网按:本文译者刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。 1、分布式表示(distributed representations)的需要 在Yoshua Bengio开始的讲座上,他说“这是我重点讲述的幻灯片”。下图就是这张幻灯片: 假设你有一个分类器,需要分类人们是男性还...

    文章 青衫无名 2017-08-01 1019浏览量

  • 剑桥大学研究院总结:26条深度学习经验

    【编者按】8月初的蒙特利尔深度学习暑期班,由Yoshua Bengio、 Leon Bottou等大神组成的讲师团奉献了10天精彩的讲座,剑桥大学自然语言处理与信息检索研究组副研究员Marek Rei参加了本次课程,在本文中,他精炼地总结了学到的26个有代表性的知识点,包括分布式表示,tricks...

    文章 小旋风柴进 2017-05-02 1091浏览量

  • tf.flags与tf.app.flags

    在看了众多关于flags与app.flags的文献后,理解程度还是有点迷茫。   1. import tensorflow  as tf   2. FLAGS=tf.app.flags.FLAGS   3. tf.app.flags.DEFINE_float(   4.     'flag...

    文章 隐士2018 2018-01-17 9496浏览量

  • Keras搭建深度神经网络解决多分类问题

    Keras介绍  Keras是一个开源的高层神经网络API,由纯Python编写而成,其后端可以基于Tensorflow、Theano、MXNet以及CNTK。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果。Keras适用的Python版本是:Python 2.7-3.6。  K...

    文章 技术小能手 2019-01-02 1910浏览量

  • 《Visual C++ 2012 开发权威指南》——2.3 Visual C++2012的语言新特性(3)

    本节书摘来自异步社区出版社《Visual C++ 2012 开发权威指南》一书中的第2章,第2.3节,作者: 尹成 , 朱景尧 , 孙明龙 , 胡耀文,更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.3 Visual C++2012的语言新特性(3) 在VC12(Visual C++20...

    文章 异步社区 2017-05-02 1097浏览量

  • 带你读《TensorFlow自然语言处理》之二:理解TensorFlow

    点击查看第一章点击查看第三章 第2章 理解TensorFlow在本章中,你将深入了解TensorFlow。这是一个开源分布式数值计算框架,它将成为我们实现所有练习的主要平台。我们通过定义一个简单的计算并用TensorFlow实现它来作为TensorFlow的入门。在成功完成此操作后,我们将探讨Te...

    文章 温柔的养猫人 2019-11-11 521浏览量

  • 基于 Python 使用 CNN 实现身份证汉字和数字识别

    背景与目标 光学字符识别 ( Optical Character Recognition, OCR ) 是将图像中的手写或打印文本转换为机器编码文本,以获取图像中文字及版面信息的过程。其目的是将图片中的文字识别出来,以便进一步对文字进行处理。 最早的 OCR技术可追溯到 1914 年,Emanue...

    文章 yijun2018 2018-03-17 14947浏览量

  • EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus

    作者:陆路,花名世仪,阿里巴巴计算平台事业部EMR团队高级开发工程师,大数据领域技术爱好者,对Spark、Hive等有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。 背景介绍 TPC-DS 测试集采用星型和雪花型等多维数据模型,包含 7 张事实表和 17 张维度表,以 ...

    文章 开源大数据EMR 2020-05-11 1821浏览量

  • [转载]聊聊Greenplum的那些事

    原文   http://dbaplus.cn/news-21-341-1.html 聊聊Greenplum的那些事 李巍 2016-04-01 14:15:00 1024   开卷有益——作者的话    有时候真的感叹人生岁月匆匆,特别是当一个IT人沉浸于某个技术领域十来年后,蓦然回首,...

    文章 德哥 2016-07-11 6881浏览量

  • 深度学习高能干货:手把手教你搭建MXNet框架

    导读:相信很多程序员在学习一门新的编程语言或者框架时,都会先了解下该语言或者该框架涉及的数据结构,毕竟当你清晰地了解了数据结构之后才能更加优雅地编写代码,MXNet同样也是如此。 在MXNet框架中你至少需要了解这三驾马车:NDArray、Symbol和Module。这三者将会是你今后在使用MXN...

    文章 初商 2019-09-21 1353浏览量

  • Flink 靠什么征服饿了么工程师?

    平台现状 下面是目前饿了么平台现状架构图: 来源于多个数据源的数据写到kafka里,计算引擎主要是Storm,Spark和Flink,计算引擎出来的结果数据再落地到各种存储上。 目前Storm任务大概有100多个,Spark任务有50个左右,Flink暂时还比较少。 目前我们集群规模每天数据量有...

    文章 技术小能手 2018-08-13 8836浏览量

  • Flink在饿了么的应用与实践

    本文作者:易伟平(饿了么)整理:姬平(阿里巴巴实时计算部) 本文将为大家展示饿了么大数据平台在实时计算方面所做的工作,以及计算引擎的演变之路,你可以借此了解Storm、Spark、Flink的优缺点。如何选择一个合适的实时计算引擎?Flink凭借何种优势成为饿了么首选?本文将带你一一解开谜题。 平...

    文章 Ververica 2019-04-25 836浏览量

  • Flink 靠什么征服饿了么工程师?(Flink在饿了么实时计算平台的应用)

    title:Flink 靠什么征服饿了么工程师?(Flink在饿了么实时计算平台的应用)author: 易伟平time: 2018/07/26order: 6comment: 本文将为大家展示饿了么大数据平台在实时计算方面所做的工作,以及计算引擎的演变之路,你可以借此了解Storm、Spark、F...

    文章 赵慧 2018-10-15 1564浏览量

  • 深入理解Spark:核心思想与源码分析

    大数据技术丛书 深入理解Spark:核心思想与源码分析 耿嘉安 著 图书在版编目(CIP)数据 深入理解Spark:核心思想与源码分析/耿嘉安著. —北京:机械工业出版社,2015.12 (大数据技术丛书) ISBN 978-7-111-52234-8 I. 深… II.耿… III.数...

    文章 华章计算机 2017-05-02 4039浏览量

  • Tensorflow快餐教程(1) - 30行代码搞定手写识别

    去年买了几本讲tensorflow的书,结果今年看的时候发现有些样例代码所用的API已经过时了。看来自己维护一个保持更新的Tensorflow的教程还是有意义的。这是写这一系列的初心。快餐教程系列希望能够尽可能降低门槛,少讲,讲透。为了让大家在一开始就看到一个美好的场景,而不是停留在漫长的基础知识...

    文章 lusing 2018-04-16 3818浏览量

  • Hologres+Flink流批一体首次落地4982亿背后的营销分析大屏

    概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本篇将重点介绍Hologres在阿里巴巴淘宝营销活动分析场景...

    文章 May-Hologres 2020-11-27 3413浏览量

  • 详解如何用 LSTM 自动识别验证码

    这是去年博主心血来潮实现的一个小模型,现在把它总结一下。由于楼主比较懒,网上许多方法都需要切割图片,但是楼主思索了一下感觉让模型有多个输出就可以了呀,没必要一定要切割的吧?切不好还需要损失信息啊!本文比较简单,只基于传统的验证码。 Part 0 模型概览 从图片到序列实际上就是Image2tex...

    文章 玄学酱 2017-08-02 3089浏览量

  • 帮助企业做好MaxCompute大数据平台成本优化的最佳实践

    阿里云大数据计算服务MaxCompute通过灵活性、简单性和创新为您企业的业务环境带来了变革,但是您企业是否通过其实现了原本预期的节省成本的目标呢?本文中,我们将为广大读者诸君介绍优化您企业MaxCompute开销的一些关键性的策略。    自从MaxCompute于2010年进入市场以来,计算...

    文章 隐林 2017-11-20 4666浏览量

  • 仅1年GitHub Star数翻倍,Flink 做了什么?

    作者|莫问 Flink:最活跃 Apache 项目之一 首先,简单总结一下 Flink 社区的发展情况。自 2014 年 Flink 贡献给开源社区之后,其发展非常迅速。目前,Flink 可以称之为 Apache 基金会中最为活跃的项目之一,在 GitHub 上其访问量在 Apache 项目中位居...

    文章 檸,铮 2019-12-19 88浏览量

  • 《大数据架构和算法实现之路:电商系统的技术实战》——1.6 案例实践

    本节书摘来自华章计算机《大数据架构和算法实现之路:电商系统的技术实战》一书中的第1章,第1.6节,作者 黄 申,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.6 案例实践 1.6.1 实验环境设置 帮助读者熟悉理论知识并不是本书的最终目的。为了展示分类任务的常规实现,我们会实践一个假...

    文章 华章计算机 2017-05-02 2567浏览量

1 2 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务