Google云数据流到云存储

Somasundaram Sekar 03/03/2017. 2 answers, 221 views
google-cloud-storage google-cloud-storage google-cloud-dataflow google-cloud-dataflow google-cloud-dataproc google-cloud-dataproc apache-beam

在此处输入图像描述 以上参考架构表明云数据流中存在云存储接收器,但是似乎是当前默认数据流API的Beam API没有列出云存储I / O连接器。

在此处输入图像描述

任何人都可以帮助澄清是否存在,如果不存在将数据从Dataflow引入云存储的替代方案。

2 Answers


Graham Polley 03/03/2017.

Beam确实支持从GCS写入/读取。 您只需使用TextIO类。

https://beam.apache.org/documentation/sdks/javadoc/0.2.0-incubating/org/apache/beam/sdk/io/TextIO.html

要从一个或多个文本文件中读取PCollection,请使用TextIO.Read。 您可以使用TextIO.Read.from(String)实例化转换,以指定要读取的文件的路径(例如,如果在本地运行,则为本地文件名或文件名模式,或者是Google Cloud Storage文件名或文件名模式形式“gs:///” )。


chamikara 03/03/2017.

您可以使用TextIO,AvroIO或任何其他读取/写入文件的连接器与GCS交互。 Beam将以“gs://”开头的任何文件路径标识为GCS。 Beam使用可插入的FileSystem [1]接口完成此操作。

[1] https://github.com/apache/beam/blob/master/sdks/java/io/google-cloud-platform/src/main/java/org/apache/beam/sdk/io/gcp/storage /GcsFileSystem.java

Related questions

Hot questions

Language

Popular Tags