python脚本系列-两列数据互相转化

简介: python脚本系列-两列数据互相转化

python脚本系列-两列数据互相转化


数据分析中常常会有这样的转换需求

image.png

脚本如下:

import sys
infile = open(sys.argv[1],'r')
res = open(sys.argv[2],'w')
result = {}
for line in infile:
    line = line.strip().split('\t')
    if len(line) < 2: continue
    accession = line[0]
    go = line[1]
    result.setdefault(accession,set()).add(go) #这样好处是不会有重复值
    #这里可以换成列表的形式acc2go.setdefault(accession,[]).append(go)
for acc,goi in acc2go.items():
#增添第二列为重复的数量
    res.write("%s\t%d\t%s\n"%(acc,len(goi),",".join(goi)))
res.close()

image.png

另一种

import sys
num = {}
old = open(sys.argv[1], 'r')
for line in old:
    line = line.strip().split('   ')
    if line[0] not in num:
        num[line[0]] = line[1]
    else:
        num[line[0]] += f',{line[1]}'
old.close()
new = open(sys.argv[2], 'w')
for key,value in num.items():
    print(f'{key}\t{value}', file = new)
new.close()

OK,换个思路,此时我们想把数据从右边的格式转换为左边的格式怎么做呢?

image.png

第一种

import sys
def Trans_file(f1,f2):
    for i in f1.readlines():
        j = i.split('   ')
        for k in j[1].split(','):
            m = j[0] + '\t' + k
            if(m[-1] != '\n'):
                m = m + '\n'
            print(m)
            f2.write(m)
f1 = open(sys.argv[1],'r')
f2 = open(sys.argv[2],'w')
Trans_file(f1,f2)
f1.close()
f2.close()

第二种

import sys
dict = {}
final = open(sys.argv[2],'w')
with open(sys.argv[1],'r') as p:
    for line in p:
        line = line.strip().split('   ')
        gene = line[0]
        dict[gene] = line[1]
for key,value in dict.items():
    for i in value.split(','):
        print(f'{key}\t{i}',file=final)
final.close()

嗯,大功告成~~

另外,第一种情况有时候我们想要进行重复值求和时用python实现一下,稍微改动下语句即可(虽然这种处理在R中有一堆的函数可以处理):

num = {}
old = open(sys.argv[1], 'r')
for line in old:
    line = line.strip().split('   ')
    if line[0] not in num:
        num[line[0]] = float(line[1])
    else:
        num[line[0]] += float(line[1])
old.close()
new = open(sys.argv[2], 'w')
for key,value in num.items():
    print(f'{key}\t{value}', file = new)
new.close()


相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
305 10
|
2月前
|
Python
自动化微信朋友圈:Python脚本实现自动发布动态
本文介绍如何使用Python脚本自动化发布微信朋友圈动态,节省手动输入的时间。主要依赖`pyautogui`、`time`、`pyperclip`等库,通过模拟鼠标和键盘操作实现自动发布。代码涵盖打开微信、定位朋友圈、准备输入框、模拟打字等功能。虽然该方法能提高效率,但需注意可能违反微信使用条款,存在风险。定期更新脚本以适应微信界面变化也很重要。
213 61
|
6天前
|
数据采集 数据安全/隐私保护 Python
从零开始:用Python爬取网站的汽车品牌和价格数据
在现代化办公室中,工程师小李和产品经理小张讨论如何获取懂车帝网站的汽车品牌和价格数据。小李提出使用Python编写爬虫,并通过亿牛云爬虫代理避免被封禁。代码实现包括设置代理、请求头、解析网页内容、多线程爬取等步骤,确保高效且稳定地抓取数据。小张表示理解并准备按照指导操作。
从零开始:用Python爬取网站的汽车品牌和价格数据
|
1天前
|
算法 Serverless 数据处理
从集思录可转债数据探秘:Python与C++实现的移动平均算法应用
本文探讨了如何利用移动平均算法分析集思录提供的可转债数据,帮助投资者把握价格趋势。通过Python和C++两种编程语言实现简单移动平均(SMA),展示了数据处理的具体方法。Python代码借助`pandas`库轻松计算5日SMA,而C++代码则通过高效的数据处理展示了SMA的计算过程。集思录平台提供了详尽且及时的可转债数据,助力投资者结合算法与社区讨论,做出更明智的投资决策。掌握这些工具和技术,有助于在复杂多变的金融市场中挖掘更多价值。
22 12
|
25天前
|
安全 Linux 网络安全
利用Python脚本自动备份网络设备配置
通过本文的介绍,我们了解了如何利用Python脚本自动备份网络设备配置。该脚本使用 `paramiko`库通过SSH连接到设备,获取并保存配置文件。通过定时任务调度,可以实现定期自动备份,确保网络设备配置的安全和可用。希望这些内容能够帮助你在实际工作中实现网络设备的自动化备份。
51 14
|
1月前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
2月前
|
数据采集 存储 监控
21个Python脚本自动执行日常任务(2)
21个Python脚本自动执行日常任务(2)
129 7
21个Python脚本自动执行日常任务(2)
|
2月前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
2月前
|
数据挖掘 vr&ar C++
让UE自动运行Python脚本:实现与实例解析
本文介绍如何配置Unreal Engine(UE)以自动运行Python脚本,提高开发效率。通过安装Python、配置UE环境及使用第三方插件,实现Python与UE的集成。结合蓝图和C++示例,展示自动化任务处理、关卡生成及数据分析等应用场景。
178 5
|
2月前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。

热门文章

最新文章

推荐镜像

更多