首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >亚马逊S3拼花文件-传输到GCP / BQ

亚马逊S3拼花文件-传输到GCP / BQ
EN

Stack Overflow用户
提问于 2021-05-26 09:27:17
回答 2查看 491关注 0票数 0

大家早上好。我有一个GCS桶,它有从我们的亚马逊S3桶中传输的文件。这些文件采用.gz.parquet格式。我正在尝试用传输功能设置一个从GSC桶到BigQuery的传输,但是我遇到了与拼花文件格式有关的问题。

当我创建一个传输并将文件格式指定为Parquet时,我会收到一个错误,说明数据不是以parquet格式显示的。当我尝试在CSV中指定文件时,奇怪的值会出现在我的表中,如图像链接中所示:

我尝试了以下URI:

  • bucket-name/folder-1/folder-2/dt={run_time|"%Y-%m-%d"}/b=1/geo/*.parquet.文件格式:拼花。结果:文件不采用拼花格式。
  • bucket-name/folder-1/folder-2/dt={run_time|"%Y-%m-%d"}/b=1/geo/*.gz.parquet.文件格式:拼花。结果:文件不采用拼花格式。
  • bucket-name/folder-1/folder-2/dt={run_time|"%Y-%m-%d"}/b=1/geo/*.gz.parquet.文件格式: CSV。结果:转移完成了,但值很奇怪。
  • bucket-name/folder-1/folder-2/dt={run_time|"%Y-%m-%d"}/b=1/geo/*.parquet.文件格式: CSV。结果:转移完成了,但值很奇怪。

有人知道我该怎么做吗?提前谢谢你!

EN

回答 2

Stack Overflow用户

发布于 2021-05-26 12:17:26

有一个专门的文档解释如何将Parquet数据从云存储桶复制到大型查询,如下所示。如果你还没有解决你的问题,你可以通过它来更新我们的信息吗?

https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-parquet

你好,安布。

票数 1
EN

Stack Overflow用户

发布于 2021-05-27 08:02:23

看到URI的外观,您要查找的页面是这一个,用于将已分区的蜂巢式拼花文件加载到BigQuery中。

您可以在Cloud中尝试如下所示:

代码语言:javascript
复制
bq load --source_format=PARQUET --autodetect \
--hive_partitioning_mode=STRINGS \
--hive_partitioning_source_uri_prefix=gs://bucket-name/folder-1/folder-2/ \
dataset.table `gcs_uris`
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67702149

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档