暂时未有相关云产品技术能力~
LLM/LLMOps,公众号:吃果冻不吐果冻皮,LLM教程:https://github.com/liguodongiot/llm-action
之前,在我的另一篇博客:简述智能对话系统 里面概述了对话系统的分类、应用场景及产生的社会价值。今天,来简单讲述一下对话系统的主要模块与核心技术。
简述 DVC的开发者为iterative.ai,成立于2017年。它是一款开源的,针对机器学习项目的版本控制系统,同时也提供企业服务。起初,DVC从数据版本化管理概念切入,之后,提供对机器学习全方位的支持。
简述MySQL索引 索引是一个单独的、存储在磁盘上的数据库结构,它们包含着对数据表里所有记录的引用指针。使用索引用于快速找出在某个或多个列中有一特定值的行,所有MySQL列类型都可以被索引,对相关列使用索引是提高查询操作速度的最佳途径。
简介 MD5(Message-Digest Algorithm,对应的中文名为消息摘要算法)是计算机安全领域广泛使用的散列函数(又称哈希算法、摘要算法),可以产生出一个128位(16字节)的散列值(hash value),主要用来确保信息(message)传输完整和一致。常见的应用场景有密码保护、下载文件校验等。
简述 Maven 是一个项目管理工具,可以对 Java 项目进行构建、依赖管理。Maven 也可被用于构建和管理其它各种项目,例如:C#,Ruby,Scala和其它语言编写的项目。
数据科学(和机器学习)所面临的挑战 毫无疑问,这个时代属于人工智能(AI),这导致机器学习在几乎每个领域的使用,试图解决医疗保健、商业领域和技术领域的不同类型的问题,可以说机器学习无处不在。 同时,开源软件(OSS)和基于云的分布式计算也促使了许多工具、技术和算法的出现,而开发机器学习模型来解决问题并不是挑战,真正的挑战在于如何管理这些模型及大规模数据。
很多时候,我们需要复现人家的工程。因此,需要了解人家的网络结构。但不同框架之间可视化网络层方法不一样,这样给研究人员造成了很大的困扰。模型可视化工具Netron很好的解决了上述问题。Netron是微软小哥lutzroeder的一个广受好评的开源项目。目前,Netron支持各种主流机器学习、深度学习框架的模型结构可视化工作。
在我们日常工作中,通常由于某种原因,需要更新历史提交的commit信息。一般会有如下几种场景: 修改当前分支最新 commit 的提交信息 修改当前分支某历史commit的提交信息 修改当前分支所有提交的commit信息
DML语句规范 【推荐】写完SQL先explain查看执行计划 日常开发写 SQL 的时候,尽量养成这个好习惯呀:写完 SQL 后,用 explain 分析一下,尤其注意走不走索引。
Jaccard相似系数 jaccard_score函数计算标签集对之间的 Jaccard 相似系数的平均值,也称为 Jaccard 指数。 第 i 个样本的 Jaccard 相似系数,具有真实标签集yiy_iyi和预测标签集y^i\hat{y}_iy^i,其公式定义为:
在我们日常工作中,经常需要与上下游交互,特别是当我们做一些基础服务时,需要提供个其他部门使用,因此,需要编写相应的SDK上传至公司私服,供其他部门使用。今天,果冻就来和大家一起实现一个简单的Python SDK,并进行私服的上传和下载。
Pandas简介 Pandas是基于NumPy的一个数据处理工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
简述 直观地说,精确率是指分类器不将负样本标记为正样本的能力,召回率是指分类器查找所有正样本的能力。 而F值(F1F_1F1和FβF_{\beta}Fβ值)则可以解释为精确率和召回率的加权调和平均值。 FβF_{\beta}Fβ值的取值范围为[0,1],在1处表示模型效果最好,在0处表示模型效果最差。
混淆矩阵 confusion_matrix函数通过计算每一行对应于真实类别的混淆矩阵来评估分类准确率。 根据定义,混淆矩阵中的条目[i,j]是实际上在类 i 中,但预测在类 j 中的数量。
人工智能系统的目的 提供更加高效的编程语言、框架和工具。 更具表达能力和简洁的神经网络计算原语和编程语言 更直观的编辑、调试和实验工具
什么人工智能和人工智能系统 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。1956年由约翰.麦卡锡首次提出,当时的定义为“制造智能机器的科学与工程”。人工智能的目的就是让机器能够像人一样思考,让机器拥有智能。 人工智能是计算机科学的一个分支。时至今日,人工智能已经扩展为一门交叉学科。
什么人工智能和人工智能系统 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。1956年由约翰.麦卡锡首次提出,当时的定义为“制造智能机器的科学与工程”。人工智能的目的就是让机器能够像人一样思考,让机器拥有智能。 人工智能是计算机科学的一个分支。时至今日,人工智能已经扩展为一门交叉学科。
accuracy_score函数计算准确率分数,即预测正确的分数(默认)或计数(当normalize=False时)。 在多标签分类中,该函数返回子集准确率(subset accuracy)。 如果样本的整个预测标签集与真实标签集严格匹配,则子集准确率为 1.0; 否则为 0.0。
MySQL数据库优化通常有如下四个维度:硬件、系统配置、数据库表结构、SQL及索引。
异常信息 ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm) 问题原因
create 根据文件或标准输入(stdin)创建资源。
create 根据文件或标准输入(stdin)创建资源。
什么是离散化? 离散化就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
什么是离散化? 离散化就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
在sklearn中,sklearn.metrics 模块下实现了一些损失、评分和实用函数来衡量分类性能。某些指标可能需要正类(positive class)、置信度值(confidence values)或二元决策值(binary decisions values)的概率估计。并且大多数函数都实现了允许每个样本通过 sample_weight 参数提供对总分的加权贡献。 下面我们就来简单介绍下sklearn针对不同分类场景实现的模型评估指标函数。
使用机器学习时,会存在不同的特征类型:连续型特征和离散型特征。 针对连续性特征,我们通常将其线性缩放到[-1, 1]区间或者缩放到均值为0,方差为1的范围。 但是,特征并不总是连续值,而有可能是分类值、离散值。因此,我们也需要对离散值进行特征编码数据预处理。
Elasticsearch 是一款流行的分布式开源搜索和数据分析引擎,具备高性能、易扩展、容错性强等特点。它强化了 Apache Lucene 的搜索能力,把掌控海量数据索引和查询的方式提升到一个新的层次。 本文将根据ElasticSearch的特点和日常开发中的经验,整理了在日常使用ElasticSearch进行开发的一些最佳实践。
Elasticsearch 是一款流行的分布式开源搜索和数据分析引擎,具备高性能、易扩展、容错性强等特点。它强化了 Apache Lucene 的搜索能力,把掌控海量数据索引和查询的方式提升到一个新的层次。 本文将根据ElasticSearch的特点和日常开发中的经验,整理了在日常使用ElasticSearch进行开发的一些最佳实践。
为什么需要Pipeline? 在日常机器学习项目开发中,可能会经过数据缩放、特征组合以及模型学习拟合等过程;并且,当问题更为复杂时,所应用到的算法以及模型则较为繁杂。
在实际开发中会面临的缓存异常可能会出现三个问题,分别是缓存雪崩、缓存击穿和缓存穿透。这三个问题会导致大量请求从缓存转移到数据库,如果请求的并发量很大的话,就会导致数据库崩溃。那么,我们应该如何来应对呢? 下面就针对每种情况,提供相应的解决方案
数据处理 过采样 由于样本比例不均衡,在条件允许的情况下,可以尝试主动获取占比少的类型的样本数据。 也可以通过使用重复、自举或合成少数类]等方法(SMOTE)来生成新的稀有样品。
为什么进程之间需要通信? 1.数据传输 一个进程需要将它的数据发送给另一个进程; 2.资源共享 多个进程之间共享同样的资源;
进程 进程是指在系统中正在运行的一个应用程序,是CPU的最小工作单元。 进程有就绪、运行、阻塞、创建和退出五种状态。其中,运行中的三种状态:就绪、运行、阻塞。创建和退出是描述产生和释放的状态。
进程 进程是指在系统中正在运行的一个应用程序,是CPU的最小工作单元。 进程有就绪、运行、阻塞、创建和退出五种状态。其中,运行中的三种状态:就绪、运行、阻塞。创建和退出是描述产生和释放的状态。
CPU密集型 CPU密集型也叫计算密集型,指的是系统的硬盘、内存性能相对CPU要好很多,此时,系统运作CPU读写IO(硬盘/内存)时,IO可以在很短的时间内完成,而CPU还有许多运算要处理,因此,CPU负载很高。
在现实场景中,我们往往收集不到太多的数据,那么为了扩大数据集,可以采用数据增强手段来增加样本,那么平常我们应该怎么做数据增强的呢? 什么是数据增强 数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值。
MRv1 存在的缺点 JobTracker容易存在单点故障 JobTracker负担重,既要负责资源管理,又要进行作业调度;当需处理太多任务时,会造成过多的资源消耗。
副本放置策略的基本思想是: 第一个block副本放在和client所在的node里(如果client不在集群范围内,则这第一个node是随机选取的,当然系统会尝试不选择哪些太满或者太忙的node)。 第二个副本放置在与第一个节点不同的机架中的node中(随机选择)。 第三个副本和第二个在同一个机架,随机放在不同的node中。
作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如电商、金融等行业。Hive在企业云计算平台发挥的作用和影响愈来愈大。因此,如何优化提速已经显得至关重要。
基本概念 一致性(C,Consistency) :在分布式系统中的所有数据备份,在同一时刻,是否同样的值。 可用性(A,Availability) :在集群中,一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性) 分区容忍性(P,Partition tolerance) :在遇到任何网络分区故障的时候,仍然能够保证对外提供满足一致性和可用性的服务,除非是整个网络环境都发生了故障。(即在节点间通信失败时,保证系统不受影响)
JDK1.5以前,创建线程是通过继承Thread,但是继承Thread存在如下弊端: 每次new Thread的时候都需要新建一个线程,性能差 线程缺乏统一管理,可能无限制的新建线程,相互竞争,有可能占用过多系统资源导致死机或者OOM Thread类缺少更多功能,比如更多的执行、定期执行、线程中断。
在sklearn中,提供了多种在多标签分类场景下的模型评估方法,本文将讲述sklearn中常见的多标签分类模型评估指标。在多标签分类中我们可以将模型评估指标分为两大类,分别为不考虑样本部分正确的模型评估方法和考虑样本部分正确的模型评估方法。 首先,我们提供真实数据与预测值结果示例,后续所有示例都基于该数据,
指标在机器学习或深度学习领域扮演着相当重要的角色。我们从根据问题选择指标开始,以了解特定模型的基线分数。 在本博客中,我们研究了多标签分类的最佳和最常用的指标,以及它们的不同之处。 接下来,让我们深入了解什么是多标签分类,以防万一您需要它。 如果我们有关于狗的特征的数据,我们可以预测它属于哪个品种和宠物类别。 在物体检测的情况下,多标签分类为我们提供了图像中所有对象的列表,如下图所示。我们可以看到,分类器检测到图像中的 3 个对象。 如果训练对象的总数为 4 个,则可以将其表示成如下列表[1 0 1 1](对应的对象为[狗、人、自行车、卡车])。这种分类被称为多标签分类。
什么是 Dockerfile? Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。使用docker build命令,用户可以创建基于基础镜像的自定义镜像。
什么是 Dockerfile? Dockerfile 是一个用来构建镜像的文本文件,文本内容包含了一条条构建镜像所需的指令和说明。使用docker build命令,用户可以创建基于基础镜像的自定义镜像。
run 创建一个新的容器。
run 创建一个新的容器。
让别人帮助你做你并不关心的事情,叫代理模式,样例:透过Spring AOP来深入理解代理模式 为让自己的能力增强,使得增强后的自己能够使用更多的方法,拓展在自己基础之上的功能的,叫装饰器模式,样例:装饰器模式(Java)
UML 状态模式是策略模式的孪生兄弟,是因为它们的UML图是一样的。但意图却完全不一样,策略模式是让用户指定更换的策略算法,而状态模式是状态在满足一定条件下的自动更换,用户无法指定状态,最多只能设置初始状态。
由于需要通过自动化脚本在k8s上面部署eck和es。由于部署es的时候会对elastic用户随机生成密码,无法提前知道密码。因此,通过bin/elasticsearch-setup-passwords更改密码,在k8s pod显然不太适用,我们需要提前内置自己的用户和密码。 部署ECK