大家早上好。我有一个GCS桶,它有从我们的亚马逊S3桶中传输的文件。这些文件采用.gz.parquet格式。我正在尝试用传输功能设置一个从GSC桶到BigQuery的传输,但是我遇到了与拼花文件格式有关的问题。
当我创建一个传输并将文件格式指定为Parquet时,我会收到一个错误,说明数据不是以parquet格式显示的。当我尝试在CSV中指定文件时,奇怪的值会出现在我的表中,如图像链接中所示:

我尝试了以下URI:
有人知道我该怎么做吗?提前谢谢你!
发布于 2021-05-26 12:17:26
有一个专门的文档解释如何将Parquet数据从云存储桶复制到大型查询,如下所示。如果你还没有解决你的问题,你可以通过它来更新我们的信息吗?
https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-parquet
你好,安布。
发布于 2021-05-27 08:02:23
看到URI的外观,您要查找的页面是这一个,用于将已分区的蜂巢式拼花文件加载到BigQuery中。
您可以在Cloud中尝试如下所示:
bq load --source_format=PARQUET --autodetect \
--hive_partitioning_mode=STRINGS \
--hive_partitioning_source_uri_prefix=gs://bucket-name/folder-1/folder-2/ \
dataset.table `gcs_uris`https://stackoverflow.com/questions/67702149
复制相似问题