人工智能平台PAI产品使用合集之在使用DSSM负采样时,不知道label_fields的配置方法如何解决

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

问题一:机器学习PAI我配置了负采样表,但是不知道在训练样本里label_fields该怎么设置?

机器学习PAI我们场景里,目前只有用户的搜索的指定类型的数据,没有负样本,所以我们的训练样本标签都为1,预备从负采样表中采样负样本作为0。我配置了负采样表,但是不知道在训练样本里label_fields该怎么设置?



参考答案:

都设置为1.就是表中 “标签都为1的” 那一列的列名



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/573252



问题二:请教一下机器学习PAI,如果使用DSSM负采样版本,我们的label_fields应该怎么配置?

请教一下机器学习PAI,如果使用DSSM负采样版本,训练数据只有正样本,我们的label_fields应该怎么配置?这个项目直接置空吗?



参考答案:

你框里面的是指的训练的模型的目标字段名称,和负采样没有关系了。负采样相关的配置只限制在 negative_sampler{} 里面



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/573250



问题三:机器学习PAI这里的model_path应该填哪个path呢?

机器学习PAIexport过程优先使用ckpt_path,ckpt_path没有就使用model_path,但是没有model_path会报错:



参考答案:

在 tensorflow 的接口里面,model_dir 和 checkpoint_path 一般不等价,model_dir 里面除了 checkpoint path, 还会有计算图和其它元数据,所以一般不能用 checkpoint_path 来代替 model_dir 。

这个地方的 Dconfig 应该使用你 model_dir 里面的那个 pipeline.config, 这个 pipeline.config 里面有 model_dir 这个信息,这样的话你可以直接按文档来:https://easyrec.readthedocs.io/en/latest/export.html

如果你的 config 没有 model_dir 的信息,没有的话就需要手动指定一下参数 Dmodel_dir, 原因是虽然同时有 model_dir 和 checkpoint_path 的时候我们会用 checkpoint_path 来加载 checkpoint (见代码:https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/main.py#L772), 但是在加载 checkpoint 之前会有一个建立 estimator 的操作 (见代码:https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/main.py#L763),这个操作复用了 tensorflow 的 api, 里面会要求传入 config.model_dir, 然后如果为空的话 tensorflow 的这个接口会报错 (见代码:https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/main.py#L137)。

所以最后总结,最好直接用 model_dir 里面的 pipeline_config, 可以直接按文档来:https://easyrec.readthedocs.io/en/latest/export.html ,如果你的 config 里面没有的话最好在 config 里面写上 model_dir 或者指定 Dmodel_dir 。然后在 tensorflow 里面认为 model_dir 和 checkpoint_path 不等价,整个导出的过程不只是有加载 checkpoint 这一个操作,还会有别的操作需要用到 model_dir 。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/573249



问题四:机器学习PAI不拆塔获取的结果和拆塔获取的结果应该是一样的吧?

机器学习PAI双塔DSSM我们想获取item emebdding和user embedding,不拆塔获取的结果和拆塔获取的结果应该是一样的吧?不拆塔,item侧填随机数



参考答案:

在机器学习 PAI 中,对于双塔 DSSM 模型获取 item embedding 和 user embedding 的情况,拆塔和不拆塔获取的结果是有所不同的。

  1. 拆塔获取结果:在拆塔的情况下,通过分别训练 item 塔和 user 塔,我们可以得到分别用于表示 item 和 user 的 embedding。这些 embedding 是在训练过程中学习到的,能够捕捉到 item 和 user 的语义信息。因此,item embedding 和 user embedding 是分别独立学习的,它们在数值上可能存在差异。
  2. 不拆塔获取结果:在不拆塔的情况下,将 item 和 user 作为一个整体输入模型,并一起进行训练。在这种情况下,item embedding 和 user embedding 是共享参数的,即它们会被同时调整以最小化损失函数。由于共享参数,item 和 user 在嵌入空间中具有相似的表示,因此 embedding 在数值上可能更加接近。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/573248



问题五:提一个机器学习PAI问题:在ODPS使用训练好的DSSM负采样版本,请问这个的主要原因是什么呢?

提一个机器学习PAI问题:在ODPS使用训练好的DSSM负采样版本,(指定保存好的.pb模型文件的路径)对比( 指定保存好的.pb模型文件 + 指定checkpoint_path )在同样的数据集上进行evaluate,效果差别非常大,请问这个的主要原因是什么呢?



参考答案:

你加不加评估的不是同一个模型,优先使用checkpoint_path,没有checkpoint_path才使用model_dir

说错了,export是可以用checkpoint_path的

checkpoint_path 优先级 比 model_dir 高

代码在这里,也可以参考代码里面看一下:

https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/main.py#L387

https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/main.py#L674

https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/main.py#L718



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/573245

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
9月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何配置DSSM模型负采样item表的schema
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
9月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之负采样版本DSSM双塔模型训练好之后,怎么分别获取user tower的embedding和item tower的embedding
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
9月前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
30天前
|
机器学习/深度学习 数据采集 人工智能
人工智能在变更管理中的应用:变革的智能化之路
人工智能在变更管理中的应用:变革的智能化之路
56 13
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在客服领域有哪些应用?
人工智能正在彻底改变着传统客服行业,它不仅拓展了业务边界,还推动着整个行业向更高效、更人性化方向迈进。
85 7
|
1月前
|
机器学习/深度学习 人工智能 运维
人工智能在事件管理中的应用
人工智能在事件管理中的应用
94 21
|
2月前
|
机器学习/深度学习 数据采集 人工智能
人工智能在农业中的应用:智慧农业的未来
人工智能在农业中的应用:智慧农业的未来
116 11
|
2月前
|
数据采集 人工智能 移动开发
盘点人工智能在医疗诊断领域的应用
人工智能在医疗诊断领域的应用广泛,包括医学影像诊断、疾病预测与风险评估、病理诊断、药物研发、医疗机器人、远程医疗诊断和智能辅助诊断系统等。这些应用提高了诊断的准确性和效率,改善了患者的治疗效果和生活质量。然而,数据质量和安全性、AI系统的透明度等问题仍需关注和解决。
342 10
|
2月前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
2月前
|
机器学习/深度学习 人工智能 算法
探索人工智能在医疗诊断中的应用
本文深入探讨了人工智能(AI)技术在医疗诊断领域的革新性应用,通过分析AI如何助力提高诊断准确性、效率以及个性化治疗方案的制定,揭示了AI技术为现代医学带来的巨大潜力和挑战。文章还展望了AI在未来医疗中的发展趋势,强调了跨学科合作的重要性。 ###
162 14

热门文章

最新文章

相关产品

  • 人工智能平台 PAI