我在使用来自S3的iter_chunks()方法从boto3读取的字节块未压缩时遇到问题。逐块解压缩文件的策略起源于this issue。
代码如下:
dec = zlib.decompressobj(32 + zlib.MAX_WBITS)
for chunk in app.s3_client.get_object(Bucket=bucket, Key=key)["Body"].iter_chunks(2 ** 19):
data = dec.decompress(chunk)
print(len(chunk), len(data))
# 524288 65505
# 524288 0
# 524288 0
# ...这段代码最初打印出65505的值,然后在每次后续迭代中输出0。我的理解是,这段代码应该对每个压缩后的块进行ungzip,然后打印出未压缩版本的长度。
我是不是漏掉了什么?
发布于 2020-04-20 17:50:16
看起来你的输入文件是块gzip (bgzip http://www.htslib.org/doc/bgzip.html ),因为你有一个65k的数据块解码。
GZip文件可以连接在一起(参见https://www.gnu.org/software/gzip/manual/gzip.html#Advanced-usage),块GZip使用它来连接同一文件的块,因此通过使用关联索引,只需对包含感兴趣信息的特定块进行解码。
因此,要对块gzip文件进行流解码,您需要使用一个块中的剩余数据来启动新的块。例如。
# source is a block gzip file see http://www.htslib.org/doc/bgzip.html
dec = zlib.decompressobj(32+zlib.MAX_WBITS)
for chunk in raw:
# decompress this chunk of data
data = dec.decompress(chunk)
# bgzip is a concatenation of gzip files
# if there is stuff in this chunk beyond the current block
# it needs to be processed
while len(dec.unused_data):
# end of one block
leftovers = dec.unused_data
# create a new decompressor
dec = zlib.decompressobj(32+zlib.MAX_WBITS)
#decompress the leftovers
data = data+dec.decompress(leftovers)
# TODO handle datahttps://stackoverflow.com/questions/61048597
复制相似问题