至此,我们又纳入了一个成员: ✓ GitOps:Meltano https://gitlab.com/meltano/meltano ETL 工具 上面我们提到过组合 Singer 与 Meltano 安装 Meltano 使用 Meltano 的工作流是启动一个“meltano 项目”并开始将 E、L 和 T 添加到配置文件中。 touch .env meltano init <yourprojectname> 或者,用 Docker 容器安装 Meltano: docker pull meltano/meltano:latest docker run --rm meltano/meltano --version # init a project mkdir meltano_projects && cd meltano_projects /meltano init <yourprojectname> 除了知晓 meltano init 之外,最好掌握 Meltano 部分命令,例如 meltano etl 表示 ETL 的执行,meltano
Meltano https://meltano.com/ Meltano始于2018年GitLab的内部项目,服务于 GitLab 数据管理。2021年从GitLab独立出来成为一个初创公司。 Meltano是一款免费 DataOps 时代的ETL工具,旨在替代替代传统 ELT的工具,ELT是指数据提取、加载、转换操作的统称。 Meltano特点是开源、自托管、CLI(命令行)、可调试和可扩展。 Meltano创建管道即代码的概念,Meltano项目可进行版本控制、代码审查、持续集成和部署 (CI/CD )以及容器化等。
付费 SaaS 工具:Stitch、Fivetran 免费和开源替代品:Singer、Meltano、Airbyte 数据仓库 组织所有数据的结构化、非易失性、单一事实来源,我们可以在其中存储和查询所有数据
Airbyte、Meltano 这些新一代开源数据集成工具也可以一试,我们自己测试过Airbyte接Mongo和MySQL做初始全量同步,再接到Kafka,轻量级还不错,但在国内生态适配上还有点短板。
., LTD (“JiHu”) and Meltano, Inc., our majority owned subsidiary, that are consolidated in our financials
并且正在使用Kubernetes和OpenEBS等项目来交付: Etcd即服务 ElasticSearch即服务 PostgreSQL即服务 多种类型的ML流水线(一种很有前途的流水线是来自GitHub的MELTANO
其他技术如 HayStack、Meltano11 和 Cohere Coral12 也因其在该领域的独特贡献而受到关注。
dbt 不仅有许多集成的子项目,还能和像是 Meltano、Airflow、Amundsen、Superset 之类的优秀开源项目有机地结合,形成一整套现代的数据基础设施体系。
新兴的技术堆栈如FlowiseAI10、HayStack、Meltano11和CohereCoral12也因其独特贡献受到关注。传统的软件和云服务提供商也在扩大服务范围,包括以RAG为中心的服务。