文章/答案/技术大牛

发布

社区首页 >问答首页 >使用BioPython将FASTA seq_ID替换为来自dict的新ID

问使用BioPython将FASTA seq_ID替换为来自dict的新ID
EN

Stack Overflow用户

提问于 2018-08-14 07:32:34

回答 1查看 392关注 0票数 0

我有一个很大的文件，里面有很多FASTA序列。其中一些需要重命名--我正在尝试将FASTA序列ID替换为它们的更新版本。我将信息存储在字典中，这样旧ID就是键，新ID就是值。无论我做什么，我似乎既不能替换I，也不能正确地写一个新的fasta文件。我正在使用SeqIO读取我的fasta文件。下面是我的一些代码：

这会产生记录ID的浅层替换，因为它们准确地打印在这里，但实际上并没有在文件本身中更改：

rename_fastas = {'446_was_445_cDNA_v01VT':'446_cDNA_v01VT', '446_was_445_cDNA_v03VT': '446_cDNA_v03VT', 
             '428PBMC_2_V3': '428_PBMC_2_V3', '428PBMC_3_V3': '428_PBMC_3_V3', '428PBMC_4_V3': '428_PBMC_4_V3', '428PBMC_5_V3': '428_PBMC_5_V3'}

with open('fasta.fsa') as f:
    for seq_record in SeqIO.parse(f, 'fasta'):
        for k,v in rename_fastas.items():
            if seq_record.id == k:
                seq_record.id = seq_record.description = seq_record.id.replace(k,v)
                print(seq_record.id)

这让我在新文件中有了太多的条目：

with open('fasta.fsa') as original, 
open('fasta2.fsa', 'w') as corrected:
    records = SeqIO.parse(original, 'fasta')
    for record in records:
        for k, v in rename_fastas.items():
            if record.id == k:
                record.id = record.description.replace(k, v)
            else: 
                record.id = record.id
            SeqIO.write(record, corrected, 'fasta')

这也不起作用，我不确定为什么：

with open('fasta.fsa') as f:
    for seq_record in SeqIO.parse(f, 'fasta'):
        seq_record.id = seq_record.description = seq_record.id.replace('428PBMC','428_PBMC')
        seq_record.id = seq_record.description = seq_record.id.replace('446_was_445','446')
        yield seq_record

任何帮助都将不胜感激！

fasta

python-3.x

dictionary

replace

biopython

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-14 18:14:48

试试那个：

rename_fastas = {'446_was_445_cDNA_v01VT':'446_cDNA_v01VT', '446_was_445_cDNA_v03VT': '446_cDNA_v03VT', '428PBMC_2_V3': '428_PBMC_2_V3', '428PBMC_3_V3': '428_PBMC_3_V3', '428PBMC_4_V3': '428_PBMC_4_V3', '428PBMC_5_V3': '428_PBMC_5_V3'}

with open('fasta.fsa') as original, open('fasta2.fsa', 'w') as corrected:
    for seq_record in SeqIO.parse(original, 'fasta'):
        if seq_record.id in rename_fastas:
            seq_record.id = seq_record.description = rename_fastas[seq_record.id]
        SeqIO.write(seq_record, corrected, 'fasta')

您可以打开文件进行输入和输出。你有一个带有正确密钥的字典，所以不需要每次都遍历它，只需要让字典做它的工作，并通过它的密钥访问它。如果该键存在于dict中，则用该ID的整个值替换dict中的值。最后，将更正后的记录写入输出文件。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51831862

复制

相似问题

问使用BioPython将FASTA seq_ID替换为来自dict的新ID
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用BioPython将FASTA seq_ID替换为来自dict的新IDEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用BioPython将FASTA seq_ID替换为来自dict的新ID
EN