我试图在行中更改以>开头的长名称,以便只保留该部分直到Stage_V_sporulation_protein...
>tr_A0A024P1W8_A0A024P1W8_9BACI_Stage_V_sporulation_protein_AE_OS=Halobacillus_karajensis_OX=195088_GN=BN983_00096_PE=4_SV=1
MTFLWAFLVGGGICVIGQILLDVFKLTPAHVMSSFVVAGAVLDAFDLYDNLIRFAGGGATVPITSFGHSLLHGAMEQADEHGVIGVAIGIFELTSAGIASAILFGFIVAVIFKPKG
>tr_A0A060LWV2_A0A060LWV2_9BACI_SpoIVAD_sporulation_protein_AEB_OS=Alkalihalobacillus_lehensis_G1_OX=1246626_GN=BleG1_2089_PE=4_SV=1
MIFLWAFLVGGVICVIGQLLMDVVKLTPAHTMSTLVVSGAVLAGFGLYEPLVDFAGAGATVPITSFGNSLVQGAMEEANQVGLIGIITGIFEITSAGISAAIIFGFIAALIFKPKG我正在做一个循环:
cat file.txt | while read line; do
if [[ $line = \>* ]] ; then
cut -d_ -f1-4 $line;
fi;
done但是在地址文件中,而不是在文件中的行(我得到cut: >>tr_A0A024P1W8_A0A024P1W8_9BACI_Stage_V_sporulation_protein_AE_OS=Halobacillus_karajensis_OX=195088_GN=BN983_00096_PE=4_SV=1: No such file or directory)。
我想要的输出是:
>tr_A0A024P1W8_A0A024P1W8_9BACI
MTFLWAFLVGGGICVIGQILLDVFKLTPAHVMSSFVVAGAVLDAFDLYDNLIRFAGGGATVPITSFGHSLLHGAMEQADEHGVIGVAIGIFELTSAGIASAILFGFIVAVIFKPKG
>tr_A0A060LWV2_A0A060LWV2_9BACI
MIFLWAFLVGGVICVIGQLLMDVVKLTPAHTMSTLVVSGAVLAGFGLYEPLVDFAGAGATVPITSFGNSLVQGAMEEANQVGLIGIITGIFEITSAGISAAIIFGFIAALIFKPKG如何更改实际行?
发布于 2022-11-28 15:21:02
在目前的问题状态下,似乎最容易做到:
awk '/^>/ {print $1,$2,$3,$4; next}1' FS=_ OFS=_ file.txt在行的开头与>匹配的行只得到打印的前四个字段,由_ (OFS的值)分隔。不匹配的行打印不变。
发布于 2022-11-28 15:13:48
使用sed的一种方法
sed -E '/^>/s/(.*)_Stage_V_sporulation_protein/\1/' file发布于 2022-11-28 15:15:14
一条sed单线线将是:
sed '/^>/s/^\(\([^_]*_\)\{3\}[^_]*\).*/\1/' filehttps://stackoverflow.com/questions/74602571
复制相似问题