python将矩阵存为lmdb文件

简介: python将矩阵存为lmdb文件

由于工作需要,将C++生成的矩阵存入LMDB再用caffe进行处理,输出的矩阵失去了它原本的shape,因此只能记录下来:

矩阵X(n*ell):


-372302407
1319544887
-223830618
-184109131
-328009648
-182855917
749988319
-1387505086
-1967883425
1022949309
1680638116
1541327498


矩阵Y(r*n):


1
0
0
0
11
-34
-280
109
151
-205
-105
156
-152
-151
27
199
-202
-125
-95
# 向lmdb数据库存入两个矩阵X和y,大小分别为n*ell、r*n
import numpy as np
import lmdb
# X:r*n
# Y:n*ell
r = 4
n = 32
ell = 30
X_path = './X.txt'
Y_path = './Y.txt'
def write_lmdb(filename):
    print('Write lmdb')
    lmdb_env = lmdb.open(filename, map_size=int(1e9))
    n_samples= 1
    # 读入X
    with open(X_path, 'r') as f:
        # 读取图像文件的二进制格式数据
        X_temp = f.read()
        X_temp = X_temp.split('\n')
        del (X_temp[-1])
        X = [int(i) for i in X_temp]
        X = np.array(X).astype(np.int64)
        # print(X)
    # 读入Y
    with open(Y_path, 'r') as f:
        # 读取图像文件的二进制格式数据
        Y_temp = f.read()
        Y_temp = Y_temp.split('\n')
        del (Y_temp[-1])
        y = [int(i) for i in Y_temp]
        y = np.array(y).astype(np.int64)
        # print(y)
    # 写入LMDB
    for i in range(n_samples):
        with lmdb_env.begin(write=True) as lmdb_txn:
            lmdb_txn.put(str('X_'+str(i)).encode(), X)
            lmdb_txn.put(str('y_'+str(i)).encode(), y)
            print('X:',X)
            print('y:',y)
def read_lmdb(filename):
    print('Read lmdb')
    lmdb_env = lmdb.open(filename)
    lmdb_txn = lmdb_env.begin()
    lmdb_cursor = lmdb_txn.cursor()
    n_samples=1
    read_array = []
    with lmdb_env.begin() as lmdb_txn:
        with lmdb_txn.cursor() as lmdb_cursor:
            for key, value in lmdb_cursor:
                if('X'.encode() in key):
                    read_temp = np.frombuffer(value, dtype=np.int64)
                    read_array.append(read_temp)
                if('y'.encode() in key):
                    read_temp = np.frombuffer(value, dtype=np.int64)
                    read_array.append(read_temp)
                n_samples = n_samples + 1
    x_read_temp = read_array[0]
    x_read = []
    x_read_line = []
    print("X: ")
    for i in range(x_read_temp.size):
        x_read_line.append(x_read_temp[i])
        if len(x_read_line) == (n+r)*ell: # 列数
            x_read.append(x_read_line.copy())
            x_read_line.clear()
    print(x_read)
    y_read_temp = read_array[1]
    y_read = []
    y_read_line = []
    print("Y: ")
    for i in range(y_read_temp.size):
        y_read_line.append(y_read_temp[i])
        if len(y_read_line) == n+r: # 列数
            y_read.append(y_read_line.copy())
            y_read_line.clear()
    print(y_read)
    print('n_samples',n_samples)
write_lmdb('temp.db')
read_lmdb('temp.db')


输出如下:


Write lmdb
X: [-372302407 1319544887 -223830618 ... 1998175905 -616375716 -132621858]
y: [   1    0    0    0   11  -34 -280  109  151 -205 -105    3  156 -152
 -151   27  199 -202 -125  -95  318  -88 -173  273  262 -127 -152 -322
  -18  198  110   65   14 -310  192  103    0    1    0    0 -215 -217
    0  -65 -123 -110  171   39  -78  -21   24  -61   23  -44  113  184
  169 -240 -157  -16  136  182 -331  156   26  112 -188 -175  244 -195
   30 -228    0    0    1    0  -55  -15  -62  -41  -24 -140  -94  198
 -130   -4  -33 -206  256 -230 -406 -170   84  -45 -283 -136   38  -39
   64  -84   85  -85   41 -241  -42 -107  -19 -135    0    0    0    1
  124    5 -235 -121   49 -115  242  -61 -353  106  353 -210 -194  219
 -228  183  -80  110  218 -243   10 -190 -338  -75   11 -177   31 -208
  176  -66   97 -134]


Read lmdb(由于数据太长,省略了后面的)
X: 
[[-372302407, 1319544887, -223830618, -184109131, ...], ...]
Y: 
[[1, 0, 0, 0, 11, -34, -280, 109, 151, -205, ...], ...]
相关文章
|
2月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
2月前
|
编译器 Python
如何利用Python批量重命名文件
本文介绍了如何使用Python和PyCharm对文件进行批量重命名,包括文件名前后互换、按特定字符调整顺序等实用技巧,并提供了完整代码示例。同时推荐了第三方工具Bulk Rename Utility,便于无需编程实现高效重命名。适用于需要处理大量文件命名的场景,提升工作效率。
|
3月前
|
编解码 Prometheus Java
当Python同时操作1000个文件时,为什么你的CPU只用了10%?
本文介绍如何构建一个高效的文件处理系统,解决单线程效率低、多线程易崩溃的矛盾。通过异步队列与多线程池结合,实现任务调度优化,提升I/O密集型操作的性能。
65 4
|
3月前
|
人工智能 索引 Python
[oeasy]python094_使用python控制音符列表_midi_文件制作
本文介绍了如何使用Python控制音符列表制作MIDI文件。首先回顾了列表下标索引(正数和负数)的用法,接着通过`mido`库实现MIDI文件生成。以《两只老虎》为例,详细解析了代码逻辑:定义音高映射、构建旋律列表、创建MIDI文件框架,并将音符插入音轨。还探讨了音符时值与八度扩展的实现方法。最终生成的MIDI文件可通过不同平台播放或编辑。总结中提到,此技术可用于随机生成符合调性的旋律,同时引发对列表其他实际应用的思考。
87 5
|
2月前
|
数据采集 监控 算法
Python文件与目录比较全攻略:从基础操作到性能优化
文件比较的核心在于数据指纹校验,通过逐字节比对生成唯一标识,确保内容一致性。从标准库的os与filecmp到高性能第三方库如pydiffx,再到分布式与量子加密技术的未来趋势,文件比较广泛应用于数据备份、代码审查与系统监控等领域,是保障数据完整性的关键技术手段。
73 0
|
5月前
|
Python
使用Python实现multipart/form-data文件接收的http服务器
至此,使用Python实现一个可以接收 'multipart/form-data' 文件的HTTP服务器的步骤就讲解完毕了。希望通过我的讲解,你可以更好地理解其中的逻辑,另外,你也可以尝试在实际项目中运用这方面的知识。
248 69
|
3月前
|
数据采集 存储 API
Python爬虫结合API接口批量获取PDF文件
Python爬虫结合API接口批量获取PDF文件
|
3月前
|
数据采集 运维 BI
Python 文件操作进阶|使用 shutil 实现高效文件复制
在开发和运维中,处理大量文件是常见需求,如备份配置、归档日志或构建部署包。手动复制粘贴已无法满足高效需求!Python 的 `shutil` 模块提供了强大的文件操作功能,支持单文件复制、目录树迁移及自动化任务构建。本文详解 `shutil.copy()` 基础用法与进阶技巧,如批量复制、自动路径检测、时间戳命名备份等,助你实现高效自动化。结合实战案例(如自动备份系统),让你的代码更专业!学习后,欢迎交流心得,一起精进 Python 技能。关注我,获取更多编程技巧与源码分享!
|
5月前
|
Shell 开发者 Docker
Python文件打包:一站式指南
本文深入探讨Python文件打包的各种方法,从基础的zip和tar工具到高级的setuptools、PyInstaller、cx_Freeze等,涵盖Docker镜像、虚拟环境及自包含可执行文件的打包方式。通过示例代码与详细解析,帮助开发者根据项目需求选择合适的打包方案,提升代码分发与部署效率。内容全面,适合各水平读者学习参考。
388 7
|
6月前
|
存储 算法 文件存储
探秘文件共享服务之哈希表助力 Python 算法实现
在数字化时代,文件共享服务不可或缺。哈希表(散列表)通过键值对存储数据,利用哈希函数将键映射到特定位置,极大提升文件上传、下载和搜索效率。例如,在大型文件共享平台中,文件名等信息作为键,物理地址作为值存入哈希表,用户检索时快速定位文件,减少遍历时间。此外,哈希表还用于文件一致性校验,确保传输文件未被篡改。以Python代码示例展示基于哈希表的文件索引实现,模拟文件共享服务的文件索引构建与检索功能。哈希表及其分布式变体如一致性哈希算法,保障文件均匀分布和负载均衡,持续优化文件共享服务性能。

热门文章

最新文章

推荐镜像

更多