0关注
0粉丝
暂时未有相关云产品技术能力~
CSDN博客专家,华为云云享专家,阿里云专家博主,51CTO专家博主,现为推荐算法工程师,研究领域为AI推荐算法、NLP、图神经网络等,发表EI会议论文一篇,CSDN博客访问量破100万。 CSDN博客id:山顶夕景 微信公众号:古道西风瘦码 知识星球:AI算法乐园
练习一:行转列 假设有如下比赛结果
假设:x xx表示标量;X XX表示m×n维的矩阵;求导的因变量用y yy表示标量;Y YY表示p × q p×qp×q维矩阵
一、中文分词 中文词语之间不像英语一样,没有空格进行分割,NLP一般以词为最小处理单位,需要对中文分词处理。
栗子:torch.nn只支持小批量处理 (mini-batches)。整个 torch.nn 包只支持小批量样本的输入,不支持单个样本的输入。比如,nn.Conv2d 接受一个4维的张量,即nSamples x nChannels x Height x Width,如果是一个单独的样本,只需要使用input.unsqueeze(0) 来添加一个“假的”批大小维度。
练习一:行转列 假设 A B C 三位小朋友期末考试成绩如下所示:
上次对word2vec开了个头,也说了为了优化训练速度,可以用SGD,即Stochastic gradient descent 随机梯度下降。迭代地在每个滑动窗口为SGD取梯度;由于每个窗口只有 2m+1 个单词,所以该向量会很稀疏:
NLTK提供了多种语料库(Corpora)和词典(Lexicon)资源,如WordNet等,以及常用工具集,如分句、标记解析(Tokenization)、词干提取(Stemming)、词性标注(POS Taggin)和句法分析(Syntactic Parsing)等,用于英文文本数据处理。 关于nltk的下载还是很多坑的,如果直接import nltk和nltk.download()下载失败,可参考:
(1)观看视频,笔记输出,要有自己的思考; (2)完成课后的quiz(不多,共8个,大概10道选择题);
然后将每个求导的值排成一个向量表示。类似的结论也存在于标量对向量的求导,向量对向量的求导,向量对矩阵的求导,矩阵对向量的求导,以及矩阵对矩阵的求导等。
在/home/coggle目录下在你英文昵称(中间不要有空格哦)的文件夹中创建一个sleep.py文件,该文件需要完成以下功能:程序一直运行每10秒输出当前时间
在目录下创建py文件,并进行运行任务要点:python的os和sys系统接口,文件接口
集合在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行。
机器学习中常见的矩阵分解有特征分解和奇异值分解。 先提一下矩阵的特征值和特征向量的定义
在目录下下载文件、阅读文件任务要点:下载文件、移动文件、阅读文件 步骤1
记录阿里天池 NLP 入门赛:赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。
A/B测试时流量不够用,需要排队进行自己的测试,拖慢实验的新思路和迭代优化模型的进度。 如何选择这么多种离线评估和在线评估测试方法。
从表中选取数据时需要使用SELECT语句,也就是只从表中选出(SELECT)必要数据的意思。通过SELECT语句查询并选取出必要数据的过程称为匹配查询或查询(query)。
数据库是将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。
【LeetCode142】环形链表 II 快慢指针,其实和【环形链表 I】差不多,那个是判断是否有环,现在这题是找出开始入环的第一个结点。同样适用快慢指针,由下图分析
0 <= n <= 1000 -10000 <= Node.val <= 10000 Node.random 为空(null)或指向链表中的节点。
课程名字:“The Creation and Growth of Technological Enterprises” (Fall 2021) 慕课网址:https://mooc.global/tsinghua/the-creation-and-growth-of-technological-enterprises-fall-2021/
哨兵节点在树和链表中被广泛用作伪头、伪尾等,通常不保留任何数据。通常使用伪头来简化插入和删除。所以下面也用了伪头结点,所以注意题目中找第index个结点,还是从0号节点开始计算的,这里注意题目说的“假设链表中所有节点都是0-index的”,这里的0并非包括伪头节点。。就是说伪头节点的index并非是0,尤其注意这种边界问题。 如下图的栗子:
1)torch.argmax(input, dim=None, keepdim=False)返回指定维度最大值的序号; (2)dim给定的定义是:the demention to reduce.也就是把dim这个维度的,变成这个维度的最大值的index。
消息函数:接受一个参数 edges,这是一个 dgl.EdgeBatch 的实例, 在消息传递时,它被DGL在内部生成以表示一批边。edges有三个成员属性:src、dst和data,分别用于访问源节点、目标节点和边的特征。
“独立同分布”的数据能让人很快地发觉数据之间的关系,因为不会出现像过拟合等问题。
比如如下的一棵树,红框标示的有两个符合要求的结构,答案就是2:
现在有n个物品,每一个物品都有一个价值,现在想将这些物品分给两个人,要求这两个人每一个人分到的物品的价值总和相同(个数可以不同,总价值相同即可),剩下的物品就需要扔掉,现在想知道最少需要扔多少价值的物品才能满足要求分给两个人。
Transformer 的架构已被证明能够支持具有足够参数的大规模训练数据集。许多工作表明,Transformer 具有比 CNN 和 RNN 更大的容量
ffline部分主要是基于前面存储好的物料画像和用户画像进行离线计算, 为每个用户提供一个热门页列表和推荐页列表并进行缓存, 方便online服务的列表获取。 本次task主要是梳理这两个列表的生成以及缓存到redis的流程。
从循环(RNN)到基于注意力的 NLP 模型 介绍 Transformer 模型
解决方法 (1)首先很多博客说是jupyter的版本过低了,但是卸载再重装也不行:
下面主要展现的是项目的整体部分,主要分为推荐页,热门页以及新闻详情页。 (因为审*核问题,下图打了点码hhh)
如果用jupyter notebook跑代码时,当分了很多点,想看到对应的目录,对总体有个概览时,会发现notebook木有自动生成目录的栏目。
一、问题描述 (1)首先写了一个简单的登录账号密码的页面:
HTTP,Hypertext Transfer Protocol,超文本传输协议 HTTP URL实例:http://www.bit.edu.cn
Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架。与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。
在python体系下的云端全栈的架构图如下,在我们的新闻推荐系统中使用的后端web框架是flask。
Matcha:手写公式,直接转 latex 代码 http://mathcha.io http://detexify.kirelabs.org/classify.html LaTex数学公式语法参考:
1)构造新闻的画像:通过爬虫获得物料,并且需要对爬取的数据进行处理,即构造新闻的画像。 (2)对于用户侧的画像则是需要每天将新注册的用户添加到用户画像库中,对于在系统中产生了行为的用户,我们还需要定期的更新用户的画像(长短期)。
一、Scrapy的简介与安装 python环境的安装: python 环境,使用minicon
(2)神经网络结构:sequence to sequence:机器翻译是seq2seq的一个主要应用。
在Python中,目前可以通过一个redis模块来实现操控Redis,下面我们简单的介绍一下关于使用redis模块。
Karate club是一个社交网络,包括34个成员,并在俱乐部外互动的成员之间建立成对链接。 俱乐部随后分为两个社区,由教员(节点0)和俱乐部主席(节点33)领导。 网络以如下方式可视化,并带有表示社区的颜色(如下图)。
Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。由于是内存数据库,读写非常高速,可达10w/s的评率,所以一般应用于数据变化快、实时通讯、缓存等。但内存数据库通常要考虑机器的内存大小。Redis 是完全开源免费的,遵守 BSD 协议,是一个灵活的高性能 key-value 数据结构存储,可以用来作为数据库、缓存和消息队列。相比于其他的 key-value 缓存产品有以下三个特点:
本文属于新闻推荐实战—数据层—构建物料池之MongoDB。MongoDB数据库在该项目中会用来存储画像数据(用户画像、新闻画像),使用MongoDB存储画像的一个主要原因就是方便扩展,因为画像内容可能会随着产品的不断发展而不断的更新。作为算法工程师需要了解常用的MongoDB语法(比如增删改查,排序等),因为在实际的工作可能会从MongoDB中获取用户、新闻画像来构造相关特征。
本文属于新闻推荐实战—数据层—构建物料池之MySQL。MySQL数据库在该项目中会用来存储结构化的数据(用户、新闻特征),作为算法工程师需要了解常用的MySQL语法(比如增删改查,排序等),因为在实际的工作经常会用来统计相关数据或者抽取相关特征。
一、标量函数的雅克比函数 标量函数f ( x ) f(\mathbf{x})f(x),其中x = [ x 1 , . . . . , x m ] T x = [x_1,....,x_m]^Tx=[x 1 ,....,x m ] T ∈ \in∈ R m R^mR m ,即向量x xx的m个元素(x 1 , . . . . , x m x_1,....,x_mx 1 ,....,x m )视作m个变量。根据式子:
各类深度学习的优化算法的演变过程:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的历程。 优化算法的框架:
一、DGL简介和安装 DGL支持深度学习框架Pytorch、MXNet、tensorflow等,如果使用Pytorch则需要1.5.0版本以上。
回顾之前学习王喆老师的《深度学习推荐系统》的sparrow recsys电影推荐系统,大家都会很着急地了解最新的推荐架构中的神经网络模型,如下图的经典推荐模型。整个深度学习推荐模型的演化过程