机器学习常用工具

简介: 机器学习常用工具jieba分词器jieba.cut(content): 返回一个生成器, 迭代可以返回文本jieba.lcut(content): 直接返回文本jieba.cut_for_search(content): 搜索引擎模式jieba.

机器学习常用工具

  • jieba分词器
    • jieba.cut(content): 返回一个生成器, 迭代可以返回文本
    • jieba.lcut(content): 直接返回文本
    • jieba.cut_for_search(content): 搜索引擎模式
    • jieba.analyse
      • extract_tags(content, topK=, withWeight=)
  • wordcloud
    • 使用步骤:
      • wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",max_font_size=100)
      • word_frequence = {x[0]:x[1] for x in words_count.head(100).values}
      • wordcloud=wordcloud.fit_words(word_frequence)
      • plt.imshow()
  • matplotlib
    • rcParams: 动态配置参数, 主要配置图像的分辨率与像素
      • matplotlib.rcParams[‘figure.figsize’]# 图片像素
      • matplotlib.rcParams[‘savefig.dpi’]# 分辨率
      • plt.savefig(‘plot123_2.png’, dpi=200)# 指定分辨率
  • pandas
    • DataFrame的对象
      • set_index(): 指明最左列是什么, 默认是id号, 从0开始, 使用df.loc[0]等选择行的
      • reset_index(): 重置到id号的index
      • groupby(by=): 将行按照某一类合并在一起, 方便求和, 均值等
      • df[['col1', 'col2']].agg(['sum', 'mean'])
      • groupby与agg常常联合使用: df.groupby(by'col1')['col1'].agg(['sum', 'std', 'mean']) 方便:-)
      • apply: 传入一个函数参数, 对df中指定的列的每一个元素执行该函数
      • sort_values: 根据指定的列进行排序
      • sort_index: 根据index进行排序, 有set_index指定, 默认为id号, 从0开始
      • iloc: 只能参数int类型, index是从当前开始计算的
      • loc: 可以是bool类型和int类型, index是从原始数据得到的
    • read_table
    • read_csv
  • collections
    • defaultdict(func): 设置一个🈶默认值的dict, 为func的返回值. 如: lambda :1, list, int, str
  • gensim
    • 从宏观来看,gensim提供了一个发现文档语义结构的工具,通过检查词出现的频率。gensim读取一段语料,输出一个向量,表示文档中的一个词。
    • 使用的前提是有一个单词字典
    • doc2bow将字符串转为真正需要的向量, 该函数返回的值与corpora.Dictionary返回的对象经常一起作为lda, lsi和tfidf算法对象的参数传入(在gensim库中, 在jieba.analyse.extrag_tags不需要)
    • copy from others:
      • 如果要对文档的隐含结构进行推断,就需要一种数学上能处理的文档表示方法。一种方法是把每个文档表达为一个向量。有很多种表示方法,一种常见的方法是bag-of-words模型。在词袋模型中,每篇文档表示被表示成一个向量,代表字典中每个词出现的次数。例如,给定一个包含[‘coffee’,’milk’,’sugar’,’spoon’]的字典,一个包含[‘coffee milk coffee’]字符串的文档可以表示成向量[2,1,0,0]。向量各个元素的位置和字典的顺序相对应,向量的长度就是字典的长度。词袋模型的一个重要特点是,它完全忽略的单词在句子中出现的顺序,这也就是“词袋”这个名字的由来
    • 语料库corpus是一个多维度的向量, 有(id, count)组合
  • 数据处理小伎俩
    • 如果li = ['I', 'am', '?'], 使用''.join(li)转为字符串
    • 要让一组数据的每一个元素关联一组ID, 可以使用corpora.Dictionary创建字典, key为key, val为ID号, 一般用于python的文本数据分析处理
    • 划分X与y, X = data[:, data.columns != y_label], y = data[:, data.columns == y_label]
目录
相关文章
|
8月前
|
数据可视化 Rust 机器学习/深度学习
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
473 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
370 1
|
机器学习/深度学习 Python
机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况
本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况,而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例,展示了如何计算和使用这两种工具来评估模型。
657 8
|
机器学习/深度学习 人工智能 PyTorch
《人工智能专栏》专栏介绍 & 专栏目录 & Python与Python | 机器学习 | 深度学习 | 目标检测 | YOLOv5及其改进 | YOLOv8及其改进 | 关键知识点 | 各种工具教程
《人工智能专栏》专栏介绍 & 专栏目录 & Python与Python | 机器学习 | 深度学习 | 目标检测 | YOLOv5及其改进 | YOLOv8及其改进 | 关键知识点 | 各种工具教程
427 1
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
345 2
|
机器学习/深度学习 JSON 自然语言处理
阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源!
随着深度学习大语言模型的不断发展,其模型结构和量级在快速演化,依托大模型技术的应用更是层出不穷。对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将大模型消耗的算力发挥出来,还要应对大模型的持续迭代。开发简单易用的大模型训练工具就成了应对以上问题广受关注的技术方向,让开发者专注于大模型解决方案的开发,降低大模型训练加速性能优化和训练/推理全流程搭建的人力开发成本。阿里云机器学习平台PAI开源了业内较早投入业务应用的大模型训练工具Pai-Megatron-Patch,本文将详解Pai-Megatron-Patch的设计原理和应用。
|
机器学习/深度学习 边缘计算 TensorFlow
Python机器学习工具与库的现状,并展望其未来的发展趋势
【6月更文挑战第13天】本文探讨了Python在机器学习中的核心地位,重点介绍了Scikit-learn、TensorFlow、PyTorch等主流库的现状。未来发展趋势包括自动化、智能化的工具,增强可解释性和可信赖性的模型,跨领域融合创新,以及云端与边缘计算的结合。这些进展将降低机器学习门槛,推动技术在各领域的广泛应用。
244 3
|
机器学习/深度学习 XML 计算机视觉
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
|
存储 机器学习/深度学习 人工智能
基于Megatron-Core的稀疏大模型训练工具:阿里云MoE大模型最佳实践
随着大模型技术的不断发展,模型结构和参数量级快速演化。大模型技术的应用层出不穷。大模型展现惊人效果,但训练和推理成本高,一直是巨大挑战。模型稀疏化能降低计算和存储消耗。近期以Mixtral为代表的MoE(多专家混合)大模型证明了稀疏MoE技术能大幅降低计算量、提升推理速度,模型效果甚至超过同规模稠密模型。阿里云PAI和NVIDIA团队深入合作,基于Megatron-Core MoE框架,解决了MoE大模型训练落地时会遇到的可拓展性、易用性、功能性以及收敛精度等核心问题,在下游任务上取得了很好的模型效果。
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。
161 0

热门文章

最新文章