COSMOS features a SQL-like query engine called SCOPE upon which U-SQL was built. U-SQL是在其上构建的。 这段话有点像黑话,我来翻译一下。微软有个内部大数据平台Cosmos,微软的很多部门都用它去存储和分析数据。Cosmos上有个分析引擎脚SCOPE,和SQL很像。 提供了一个叫做U-SQL的语言,是从SCOPE那借鉴来的。 有些读文章的人知道,我毕业的第一份工作,在微软一个叫Cosmos的队伍,做的是一个叫SCOPE的语言。 查询语言要摈弃SCOPE,改用更SQL的语言,也就是后来的U-SQL。为了确保他的战略能实施,Raghu在重组的时候也杀点鸡给猴子们看。 它的分析平台支持Hadoop的那一套,也支持一个全新的U-SQL。如果你想要同时读取在Datalake里面的数据和Datalake外面的数据做分析的话,那就只有U-SQL可以选了。
其主要支持的查询语言是U-SQL,一个结合了SQL与C#特点的独有语言。 百闻不如一见,我们还是直接动手尝试一下,使用ADLA来实现上面Athena的同样任务。 任务(Job)是ADLA中的核心概念,我们可以新建一个任务,配以一段U-SQL脚本来表达和前面Athena例子中SQL相同的语义:(ADLA没有交互式查询窗口,所以我们把结果落地存储到一个csv文件中) 可以看到U-SQL写起来很有意思,的确是结合了C#和SQL的语法与特点。与SQL类似,其核心处理对象为RowSet,即行的集合。 我们的脚本中没有使用外部表(U-SQL中外部表仅支持SQLServer系数据库)但通过Extractors.Csv方法达到了同样的目的。 事实上更复杂的U-SQL脚本还可以添加上C#类库引用和函数调用等功能,这样结合两种语言的优势来撰写脚本可发挥各自优势,使得ADLA具有十分强大的分析能力。
这个东西最后以U-SQL的方式发布了。 Raghu的如意算盘可能只有他最清楚了。但是基本上的想法还是HDInsight这个东西凑合着用,如果要完全发挥系统功能和性能,就要迁移到U-SQL上来。 我实在想不明白,谁愿意为了用Data Lake还专门要学个U-SQL呢? 平台是需要打通各种工具和这个平台的衔接,而不是通过卡死工具来卡死平台的使用方式和议价能力。
Data Lake Store为任何大小的文件提供了几乎无限的存储空间,并提供了广泛的安全选项,这使得它成为非常大规模的大数据解决方案的良好选择,这些解决方案需要对异构格式的数据进行集中存储 批处理 U-SQL U-SQL是Azure Data Lake Analytics使用的查询处理语言。它结合了SQL的声明性和c#的过程可扩展性,并利用并行性支持大规模数据的高效处理。 Hive。 这些活动可以在按需HDInsight集群中启动数据复制操作以及Hive、Pig、MapReduce或Spark作业;Azure数据湖分析中的U-SQL作业;以及Azure SQL数据仓库或Azure SQL
选项包括在Azure Data Lake Analytics中运行U-SQL作业,在HDInsight Hadoop集群中使用Hive、Pig或定制Map/Reduce作业,或者在HDInsight Spark 例如,Azure Data Lake Analytics中的U-SQL语言基于Transact-SQL和c#的组合。类似地,基于sql的api也可用于Hive、HBase和Spark。 技术成熟。 此外,Hive、U-SQL或SQL查询中使用的分区表可以显著提高查询性能。 应用读时模式语义。使用数据湖允许您以多种格式(结构化、半结构化或非结构化)组合文件存储。
Data Lake Analytics - 无限制的分析工作服务,为智能行动提供动力 第一个云分析服务,您可以使用U-SQL,R,Python和.Net轻松开发并运行庞大的平行数据转换和处理程序,并且可以在 通过对U-SQL,Apache Spark,Apache Hive和Apache Storm作业的可视化,您可以看到代码如何大规模运行,并识别性能瓶颈和成本优化,从而更容易调整查询。
Stream Analytics 数据湖存储 COS + Iceberg S3 OSS Data Lake Storage 核心优势 流批增量一体、秒级可见 生态完善、元数据管理强 联邦分析、湖仓一体 U-SQL
在本文中,我们将探索 Azure 数据湖分析并使用 U-SQL 查询数据。
计算引擎上,Azure提供了U-SQL、hadoop和Spark等多种处理引擎。 ? 图15. 1)开发工具的支持,与visual studio的深度集成;Azure推荐使用U-SQL作为数据湖分析应用的开发语言。 Visual studio为U-SQL提供了完备的开发环境;同时,为了降低分布式数据湖系统开发的复杂性,visual studio基于项目进行封装,在进行U-SQL开发时,可以创建“U-SQL database U-SQL支持Python、R进行扩展,满足定制开发需求。 2)多计算引擎的适配:SQL, Apache Hadoop和Apache Spark。 微软推荐U-SQL为数据湖的缺省开发工具,并提供各类转换工具,支持U-SQL脚本与Hive、Spark(HDSight&databricks)、Azure Data Factory data Flow之间的转化
值得注意的是,ADLA支持的查询语言是U-SQL,一种混合了C#与SQL语法的独特语言。 然而,也如前文所提到,ADLA还是存在一些固有局限,也并未在Azure中国区上线。
包括结构化和非结构化数据存储,并以其本机格式或接近该格式的方式存储它们,因此组织可以拥有多个数据模型和多个数据模式,并且能够灵活地从同一数据中问出新问题(用于Azure Data Lake查询的SQL变体称为U-SQL
开发工具的支持 与visual studio的深度集成;Azure推荐使用U-SQL作为数据湖分析应用的开发语言。 Visual studio为U-SQL提供了完备的开发环境;同时,为了降低分布式数据湖系统开发的复杂性,visual studio基于项目进行封装,在进行U-SQL开发时,可以创建“U-SQL database project”,在此类项目中,利用visual studio,可以很方便的进行编码与调试,同时,也提供向导,将开发好的U-SQL脚本发布到生成环境。 U-SQL支持Python、R进行扩展,满足定制开发需求。 多计算引擎的适配:SQL, Apache Hadoop和Apache Spark。 微软推荐U-SQL为数据湖的缺省开发工具,并提供各类转换工具,支持U-SQL脚本与Hive、Spark(HDSight&databricks)、Azure Data Factory data Flow之间的转化
开发工具的支持 与visual studio的深度集成;Azure推荐使用U-SQL作为数据湖分析应用的开发语言。 Visual studio为U-SQL提供了完备的开发环境;同时,为了降低分布式数据湖系统开发的复杂性,visual studio基于项目进行封装,在进行U-SQL开发时,可以创建“U-SQL database project”,在此类项目中,利用visual studio,可以很方便的进行编码与调试,同时,也提供向导,将开发好的U-SQL脚本发布到生成环境。 U-SQL支持Python、R进行扩展,满足定制开发需求。 多计算引擎的适配:SQL, Apache Hadoop和Apache Spark。 微软推荐U-SQL为数据湖的缺省开发工具,并提供各类转换工具,支持U-SQL脚本与Hive、Spark(HDSight&databricks)、Azure Data Factory data Flow之间的转化
开发工具的支持 与visual studio的深度集成;Azure推荐使用U-SQL作为数据湖分析应用的开发语言。 Visual studio为U-SQL提供了完备的开发环境;同时,为了降低分布式数据湖系统开发的复杂性,visual studio基于项目进行封装,在进行U-SQL开发时,可以创建“U-SQL database project”,在此类项目中,利用visual studio,可以很方便的进行编码与调试,同时,也提供向导,将开发好的U-SQL脚本发布到生成环境。 U-SQL支持Python、R进行扩展,满足定制开发需求。 多计算引擎的适配:SQL, Apache Hadoop和Apache Spark。 微软推荐U-SQL为数据湖的缺省开发工具,并提供各类转换工具,支持U-SQL脚本与Hive、Spark(HDSight&databricks)、Azure Data Factory data Flow之间的转化
选项包括在 Azure Data Lake Analytics 中运行 U-SQL 作业,在 HDInsight Hadoop 群集中使用 Hive、Pig 或自定义 Map/Reduce 作业,或者在