阿里云大数据Al技术
GBDT+FM 模型是由 Gbdt+LR 延伸出来的模型。该模型利用GBDT自动进行特征筛选和组合,进而生成新的离散特征向量,再把该特征向量当做 FM 模型的输入,来产生最后的预测结果。该模型能够综合利用用户、物品和上下文等多种不同的特征,生成较为全面的推荐,在CTR点击率预估场景下使用较为广泛。
ALS (Alternating Lease Square)交替最小二乘法是一种model based的协同过滤算法, 用于对评分矩阵进行因子分解,然后预测user对item的评分。 它通过观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品。
Alink 提供了对大规模数据的高效统计,能提供数量、缺失值、最大最小值、分位数、分布直方图等各种统计指标,用户可以探索数据特征,并为特征工程提供辅助。Alink 还能无缝结合 TensorFlow Data Validation,提供数据 schema 推断、数据偏移检测等功能。
在人工智能广泛应用的今天,深度学习技术已经在各行各业起到了重要的作用。在计算机视觉领域,深度学习技术在大多数场景已经替代了传统视觉方法。如果说深度学习是一项重要的生产工具,那么数据就是不可或缺的生产资料,巧妇难为无米之炊,数据对于视觉模型生产起到了至关重要的作用。
Jupyter Notebook除了能够执行Python代码之外,还提供一些魔术命令(Magic Command)方便用户简洁地解决标准数据分析中的各种常见问题,本文介绍几个常见的魔术命令使用技巧。
阿里云AI技术分享会第五期《流批一体机器学习算法平台Alink介绍及应用》将在2022年10月12日晚18:00开启直播,精彩不容错过!
JupyterNotebook是一个用于编写Jupyter Notebook的Python环境。本文介绍Jupyter Notebook的常用使用技巧,包括shell命令,测试运行时间等使用方法。
PAI-DSW是一款云端机器学习开发IDE,为您提供交互式编程环境,适用于不同水平的开发者。本文为您介绍PAI-DSW的功能特点以及界面的基础使用。
针对在线推理场景,PAI平台提供了在线预测服务PAI-EAS(Elastic Algorithm Service),支持基于异构硬件(CPU和GPU)的模型加载和数据请求的实时响应。通过PAI-EAS,您可以将模型快速部署为RESTful API,再通过HTTP请求的方式调用该服务。您可以使用EAS提供的命令工具eascmd,来管理PAI-EAS服务。
针对在线推理场景,PAI平台提供了在线预测服务PAI-EAS(Elastic Algorithm Service),支持基于异构硬件(CPU和GPU)的模型加载和数据请求的实时响应。通过PAI-EAS,您可以将模型快速部署为RESTful API,再通过HTTP请求的方式调用该服务。您可以使用EAS提供的Python SDK,来管理PAI-EAS服务。
PAI DSW提供Python SDK来封装DSW的OpenAPI,使得用户可以用Python代码来管理DSW实例,包括创建、停止、保存、删除、列举等功能。本文也会介绍如何在独占资源组中创建实例。
介绍DSW实例如何与用户的VPC进行网络打通,支持跨VPC访问用户的数据和服务,方便和用户VPC中的系统进行集成。
大数据&AI产品技术月刊(2022年9月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
介绍DSW中如何使用官方镜像、自定义镜像、第三方镜像地址来启动服务。DSW环境进行定制修改之后还可以选择停机保存环境或者保存镜像到ACR镜像仓库。
DSW Gallery提供了AI研发场景下丰富的案例和解决方案,内容涵盖如: Jupyter, 数据分析,机器学习,深度学习,PAI产品说明, SDK使用说明,以及行业解决方案),支持一键在DSW中启动和运行,帮助您快速了解云原生下AI研发流程,熟练使用PAI的各种工具,提升开发效率和质量。
DSW采用计算和存储分离的架构,DSW本身提供算力资源和非持久的本地存储,用户可以将NAS盘、CPFS盘或者OSS Bucket挂载到DSW的指定路径下,从而获得更高的安全性和更高的数据存储容量,并且可以在多个实例间方便的共享数据。
您可以通过Python SDK的方式提交PAI-DLC任务,本文介绍如何通过Python SDK提交使用公共DLC资源组或专有DLC资源组的训练任务,核心步骤包括下载Python SDK、安装Python SDK及创建并提交任务。
本文基于TensorFlow 1.x版本,实现了一个自编码器。自编码器是一个应用比较广泛的神经网络。他可以用来做非监督的异常检测,也可以用在特征工程之中,衡量feature之间的高阶非线性关系等等。
本文基于TensorFlow2版本,构建了一个CNN网络,然后基于Mnist手写体数据集进行手写体的识别。本文从模型的定义,数据的加载,处理,模型的训练到最后的结果的分析以及可视化等方面提供了一个端到端的sample。用户可以基于本文了解使用TensorFlow2进行模型开发的整个流程。
本文介绍了如何使用 HybridBackend 在 GPU 上加速一个示例推荐模型的训练。HybridBackend 是阿里巴巴提供的一个工业级稀疏模型训练框架,可以帮助用户轻松提升GPU上的稀疏模型训练的计算吞吐。
本⽂简要介绍我们在电商下对CLIP模型的优化,以及上述模型在公开数据集上的评测结果。最后,我们介绍如何在EasyNLP框架中调用上述电商CLIP模型。
本⽂将提供对MacBERT模型的技术解读,以及如何在EasyNLP框架中使⽤MacBERT及其他预训练语言模型,进行中英文机器阅读理解任务的训练与预测。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以多模态图文检索为例,为您介绍如何在PAI-DSW中基于EasyNLP快速使用CLIP进行跨模态图文检索任务的训练、评估、预测。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以中文文本匹配为例,为您介绍如何在PAI-DSW中基于EasyNLP快速使用RoBERTa进行文本匹配模型的训练、推理。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以序列标注(命名实体识别)为例,为您介绍如何在PAI-DSW中使用EasyNLP。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以中文新闻标题生成为例,为您介绍如何在PAI-DSW中使用EasyNLP。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以英文文本摘要为例,为您介绍如何在PAI-DSW中使用EasyNLP。
近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。
GPT模型能较好的处理NLP各个应用领域的任务,比如文本分类,推理,对话,问答,完形填空,阅读理解,摘要,生成等等。百亿/千亿参数量级的GPT大模型作用在这些应用领域虽然效果很好,但是训练成本非常高。
本⽂将提供关于PEGASUS的技术解读,以及如何在EasyNLP框架中使⽤与PEGASUS相关的文本摘要(新闻标题)生成模型。
近期FastConvMAE工作在EasyCV框架内首次对外开源,本文将重点介绍ConvMAE和FastConvMAE的主要工作,以及对应的代码实现,最后提供详细的教程示例如何进行FastConvMAE的预训练和下游任务的finetune。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以文本分类为例,为您介绍如何在PAI-DSW中基于EasyNLP快速使用RoBERTa进行中文文本多分类模型的训练、评估、预测。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以机器阅读理解任务为例,为您介绍如何在PAI-DSW中基于EasyNLP快速使用MacBERT进行中文机器阅读理解模型的训练、推理。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以机器阅读理解为例,为您介绍如何在PAI-DSW中基于EasyNLP快速使用BERT进行英文机器阅读理解模型的训练、推理。
EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文以文本分类为例,为您介绍如何在PAI-DSW中基于EasyNLP快速使用BERT进行文本分类模型的训练、推理。
EasyCV是基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具,并包含图像分类,度量学习,目标检测,姿态识别等视觉任务的SOTA算法。本文以YOLOX模型图像检测为例,为您介绍如何在PAI-DSW中使用EasyCV。
EasyCV是基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具,并包含图像分类,度量学习,目标检测,姿态识别等视觉任务的SOTA算法。本文以图像分类为例,为您介绍如何在PAI-DSW中使用EasyCV。
XGBoost作为机器学习领域的一款经典的Boosting算法,深受学界和工业界的推崇。其中很重要的一点就是它具有优秀的鲁棒性,并且在工程实现上面进行了大量的优化,在模型的复杂度和性能之间取得了很好的平衡。
本文以KNN模型为例子,介绍了如何使用sklearn中的方法进行模型的训练,超参数的自动化调优以及如何对数据进行降维等等。
Numpy是数值计算中使用非常广泛的一个工具包,可以进行高纬度空间内部的矩阵运算。本文以CNN为例子,使用Numpy来实现CNN网络的前向传递和反向传递逻辑。对于了解CNN网络的细节以及学习如何使用Numpy都很有帮助。
阿里云OSS是一款海量、安全、低成本、高可靠的云存储服务。您可以使用阿里云提供的API、SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS。
PAIIO是针对TensorFlow任务读取ODPS Table数据专门开发的模块,提供了TableRecordDataset dataset。
COMMON_IO模块提供了TableReader和TableWriter两个接口,使用TableReader可以读取ODPS Table中的数据,使用TableWriter可以将数据写入ODPS Table。
特征平台是专门用来存储,共享,管理机器学习模型特征的存储库。特征平台可以方便的向多人、多团队共享特征,提供安全,高效且统一的存储,保证离线在线的一致性。
DSW提供完善的实例管理、资源管理、权限管理等功能,助力企业或团队,完成多人协作的开发工作。
PAI-DSW产品针对用户的不同场景提供灵活的计费方式,目前支持个人版按量付费和预付费专有资源组包年包月两种计费方式,本文详细介绍这两种计费方式,用户可以根据业务的特点进行选择。
PAI-DSW是一款云端机器学习开发IDE,为您提供交互式编程环境,适用于不同水平的开发者。本文介绍在控制台如何管理使用DSW实例,包括如何创建,停止,启动,以及设置定时关机等操作。
EasyCV是基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具,并包含图像分类,度量学习,目标检测,姿态识别等视觉任务的SOTA算法。本文以图像分类为例,为您介绍如何在PAI-DSW中使用EasyCV。
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合JupyterLab Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
Hugging Face是一个流行的预训练模型库,包括NLP、CV、Audio等模型,在国内外广为流传。本文介绍如何在DSW中使用Hugging Face Python SDK完成基本的任务,包括使用pipeline对象做预测,以及用Model对象实现FineTune。特别的,我们选取中英文翻译预训练模型来演示,让大家有更加直观的印象。