(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么?
numpy是Python中科学计算的基础包。
它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。
Numpy能做什么?
numpy的部分功能如下:
ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组
用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
线性代数、随机数生成以及傅里叶变换功能。
用于集成由C、C++
《从踩坑到精通:边缘网关在物联网场景下的实践与优化指南》
本文以智慧园区物联网项目为背景,聚焦非电商/金融场景下边缘网关的开发实践与优化。针对传统中心化网关存在的延迟高、单点故障、吞吐量不足等问题,团队重构架构引入边缘计算,部署分布式网关集群。文章详细阐述从硬件选型(工业级处理器设备)到软件分层设计(驱动适配、数据处理、协同控制层)的全流程,重点解析协议适配难题(私有协议反向工程、串口通信纠错)、数据预处理策略(过滤、聚合、脱敏)、高可用设计(硬件冗余、故障转移、本地缓存)及性能优化(动态线程池、对象池技术)。
NumPy广播:12个技巧替代循环,让数组计算快40倍
摆脱Python数据处理中的低效for循环!掌握NumPy广播机制,实现向量化计算,让代码更简洁、运行更快。从数据标准化到距离矩阵、独热编码,12个实战案例教你用形状思维替代循环思维,显著降低CPU负载,提升程序性能。
116_大规模预训练数据管理与质量控制机制
在2025年的大语言模型(LLM)训练领域,数据管理和质量控制已成为决定模型性能上限的关键因素。随着模型规模的不断扩大(从早期的数十亿参数到如今的数千亿参数),对训练数据的数量、多样性和质量要求也呈指数级增长。一个高效的数据管理系统和严格的质量控制机制,不仅能够确保训练过程的稳定性,还能显著提升最终模型的性能和安全性。
110_微调数据集标注:众包与自动化
在大语言模型(LLM)的微调过程中,高质量的标注数据是模型性能提升的关键因素。随着模型规模的不断扩大和应用场景的日益多样化,如何高效、准确地创建大规模标注数据集成为了研究者和工程师面临的重要挑战。众包与自动化标注技术的结合,为解决这一挑战提供了可行的方案。