备案控制台

开发者社区问答正文

无法在python中处理整个数据集

我有一个大约2100个相同格式文件的数据集，我正在从中抓取一些数据。我运行了以下代码来获取scanfile函数生成的字典，并将其写入csv文件

def createtable():
    x = os.listdir('./dataset')

    with open('data.csv', mode='w') as csv_file:
        fieldnames = ['name', 'Error', 'val1', 'val2']
        writer = csv.DictWriter(csv_file, fieldnames=fieldnames)

        writer.writeheader()
        for i in range(1400, 1500):
            writer.writerow(scanFile(x[i]))

当我这样做的范围小于300，我创建了我想要的csv文件成功，但当我试图做整个事情，我得到这个错误…

(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 3131: invalid start byte

我如何解决这个问题?我真的不知道如何开始修复它，因为它适用于小的测试用例，但是在更大的范围内失败了。问题来源StackOverflow 地址：/questions/59383176/unable-to-process-entire-dataset-in-python

展开

收起

kun坤 2019-12-27 11:20:25 577 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

def saveobject(obj):

save=(obj.field1, obj.field2, obj.field3)

con = sqlite3.connect('test.db')

with con:
    cur = con.cursor() 
    cur.execute("CREATE TABLE IF NOT EXISTS Users(field1 TEXT, field2 INT, field3 INT)")   
    allrows = cur.fetchall()
    print allrows
    if(len(allrows)==0):
        cur.execute("INSERT INTO Users VALUES(?,?,?)", save)
    else:
        for row in allrows: 
            if(obj.field1==row[0]):
                if(obj.field2==row[1]):
                    print 'Object already Present'
                    break
                else:
                    print 'Object field2 updated'
                    cur.execute("UPDATE Users set field2=(?) where field1=(?)", (obj.field2, obj.field1))
                   break
            else:
                cur.execute("INSERT INTO Users VALUES(?,?,?)", save)   
                print 'User added'

    print 'after ', cur.fetchall()

2019-12-27 16:22:46

赞同展开评论

问答分类：

编解码测试技术 Python

问答标签：

Python数据集

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

在ModelScope中，用python sdk下载的数据集文件名称全是乱码？

359

3

0

nginx配置了正式ssl证书，python加载数据集也是ssl通信失败。openssl检查有自签名

102

0

0

如果用python微调的话，ModelScope数据集是不是得注册？

75

0

0

ModelScope llm微调用python的时候，怎么使用自己的数据集？

92

0

0

获取开源数据集，在AI Earth平台上先进行波段合并之后再下载。这个过程能否用Python代码？

76

1

0

老师们好，请问做text2sql，想用Python读取mysql数据库组装本地数据集，如何用pipl

497

1

0

Python机器学习中在对鸢尾花数据集进行聚类时，出现与真值相比预测结果全部都是判断错误是为什么？

731

1

0

Python机器学习中该怎么对鸢尾花数据集进行聚类呢？

656

1

0

怎么用python机器学习的KNN算法实现对鸢尾花数据集的分类？求详细代码

773

1

0

python里面怎么样能使用fit方法对数据集进行训练呀？

832

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云双十一优惠活动开始了？2025年的是这个吗？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

阿里云PAI是什么？怎么用？

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

阿里云2核2G3M适合搭建个人博客或小型项目吗？

相关文章

Python因果分析选哪个？六个贝叶斯推断库实测对比（含代码示例）

Dify vs Coze：谁是最终的AI工作流解决方案？

Playwright不稳定的原因揭晓：经历12个坑后的深刻领悟！

单位电脑监控软件的 Node.js 哈希表日志去重算法

氛围编程走远，规格驱动开发降临

还有其他疑问?