首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏钱塘大数据

    【钱塘号】一图简述大数据技术生态圈

    4、Cascading/Scalding   Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。   

    1.1K60发布于 2018-03-02
  • 来自专栏加米谷大数据

    Scala更适合用于大数据处理和机器学习

    由于Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序,所以Scala可以和大数据相关的基于JVM的系统很好的集成,比如基于JVM类库的框架Scalding(Cascading)、 Summingbird(Scalding和Storm)、Scrunch(Crunch)、Flink(Java编写并有Scala的API),本身使用Scale开发的系统Spark、Kafka。 而大多数的Scala数据框架都能够把Scala数据集合API和抽象数据类型相统一,比如Scalding中的TypedPipe与Spark中的RDD都有相同的方法,包括map、flatMap、filter

    1K10发布于 2018-07-25
  • 来自专栏钱塘大数据

    一图简述大数据技术生态圈

    4、ascading/Scalding   Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。

    1K80发布于 2018-03-02
  • 来自专栏about云

    大数据最新技术:快速了解分布式计算:Google Dataflow

    比较Cascading/Twitter Scalding: 1) 传统Map-reduce只能处理单一的流,而Dataflow可以构建整个pipeline,自动优化和调度,Dataflow乍一听感觉非常像 Hadoop上的Cascading(Java)/Scalding(Scala)。 Twitter Summingbird: 将批处理和流处理无缝连接的思想又听起来很像把Scalding和Strom无缝连接起来的twittersummingbird(Scala).

    2.7K90发布于 2018-03-27
  • 来自专栏大数据

    浅谈Scala在大数据处理方面的优势

    由于Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序,所以Scala可以和大数据相关的基于JVM的系统很好的集成,比如基于JVM类库的框架Scalding(Cascading)、 Summingbird(Scalding和Storm)、Scrunch(Crunch)、Flink(Java编写并有Scala的API),本身使用Scale开发的系统Spark、Kafka。 而大多数的Scala数据框架都能够把Scala数据集合API和抽象数据类型相统一,比如Scalding中的TypedPipe与Spark中的RDD都有相同的方法,包括map、flatMap、filter

    2.7K100发布于 2018-01-19
  • 来自专栏AILearning

    Apache Zeppelin 0.7.2 中文文档

    JDBC通用 解释器 Kylin 解释器 Lens 解释器 Livy 解释器 Markdown 解释器 Pig 解释器 PostgreSQL, HAWQ 解释器 Python 2&3解释器 R 解释器 Scalding

    2.1K80发布于 2018-01-05
  • 来自专栏CDA数据分析师

    史上最全!国外程序员整理的机器学习资源

    数据分析/数据可视化 MLlib in Apache Spark—Spark 下的分布式机器学习库 Scalding —CAscading 的 Scala 接口 Summing Bird—用 Scalding 通用机器学习 Conjecture—Scalding 下可扩展的机器学习框架 brushfire—scalding 下的决策树工具。 ganitha —基于 scalding 的机器学习程序库 adam—使用 Apache Avro, Apache Spark 和 Parquet 的基因组处理引擎,有专用的文件格式,Apache 2

    2.8K100发布于 2018-02-05
  • 来自专栏PPV课数据科学社区

    【学习】应该在什么时候使用Hadoop?

    另外,我推荐使用Scalding,不要使用Hive或Pig。Scalding支持使用Scala语言来编写Hadoop任务链,隐藏了其下的MapReduce。 作者:chszs

    1.7K50发布于 2018-04-23
  • 来自专栏java一日一条

    程序员如何提一个好问题

    Hadoop,Scalding,Hive,Impala,HDFS,zoolander,以及等等。我可能之前听说过Hadoop,但这些单词是什么意思我基本上是两眼一抹黑。 (不,它是一个分布式文件系统) Scalding使用Hadoop吗?(是) Hive使用Scalding吗?

    1K30发布于 2018-09-14
  • 来自专栏Java学习网

    程序员如何提一个好问题

    Hadoop,Scalding,Hive,Impala,HDFS,zoolander,以及等等。我可能之前听说过Hadoop,但这些单词是什么意思我基本上是两眼一抹黑。 (不,它是一个分布式文件系统) Scalding使用Hadoop吗?(是) Hive使用Scalding吗?

    1.2K50发布于 2018-02-28
  • 来自专栏Java学习网

    程序员如何提一个好问题

    Hadoop,Scalding,Hive,Impala,HDFS,zoolander,以及等等。我可能之前听说过Hadoop,但这些单词是什么意思我基本上是两眼一抹黑。 (不,它是一个分布式文件系统) Scalding使用Hadoop吗?(是) Hive使用Scalding吗?

    1.3K40发布于 2018-02-28
  • 来自专栏深度学习与python

    通过优化 S3 读取来提高效率和减少运行时间

    如果我们看下 MapReduce/Cascading/Scalding 作业的相关指标就很容易发现:mapper 速度远低于预期。 目前,我们把这项优化用在 MapReduce、Cascading 和 Scalding 作业中。不过,经过初步评估,将其应用于 Spark 和 Spark SQL 的结果也非常令人鼓舞。

    83530发布于 2021-11-19
  • Apache Spark:大数据领域的下一件大事?

    如果以类似于分布式集群的方式表示,实际上用到的接口会更小(像Scalding这样的一些项目实际上构建了这样的东西,代码看起来与Spark很相似)。 因此,从本质上讲,与纯粹的Hadoop相比,Spark的接口更小(将来可能会变得相似),但是Hadoop之上有很多项目(例如Twitter的Scalding),它们的表现力达到了类似的水平。

    50640发布于 2018-05-23
  • 来自专栏数据科学与人工智能

    【开源工具】国外程序员整理的机器学习资源大全

    数据分析/数据可视化 MLlib in Apache Spark—Spark下的分布式机器学习库 Scalding —CAscading的Scala接口 Summing Bird—用Scalding 和 通用机器学习 Conjecture—Scalding下可扩展的机器学习框架 brushfire—scalding下的决策树工具。 ganitha —基于scalding的机器学习程序库 adam—使用Apache Avro, Apache Spark 和 Parquet的基因组处理引擎,有专用的文件格式,Apache 2软件许可。

    2.3K91发布于 2018-02-27
  • 来自专栏架构师成长之路

    你的数据根本不够大,别老扯什么Hadoop了

    另外,我推荐使用Scalding,不要使用Hive或Pig。Scalding支持使用Scala语言来编写Hadoop任务链,隐藏了其下的MapReduce。

    77231编辑于 2022-04-15
  • 来自专栏深度学习与python

    弃用 Lambda,Twitter 启用 Kafka 和数据流新架构

    为了处理这些源和平台中的这些类型的数据,Twitter 数据平台团队已经构建了内部工具,如用于批处理的 Scalding,用于流的 Heron,用于批处理和实时处理的名为 TimeSeries AggregatoR 我们构建了几个 Scalding 管道,用于对原始日志进行预处理,并且将其作为离线来源摄入到 Summingbird 平台中。实时组件来源是 Kafka 主题。

    2.6K20编辑于 2022-03-22
  • 来自专栏PPV课数据科学社区

    【学习】切勿妄谈Hadoop,以及4个数据管道打造实践

    同时,Parquet和Thrift的组合使用还有另一个好处——方便Twitter Scalding框架的有效使用,它可以用作复杂的批处理。 下一个步骤则是“denormalization”:为了保持分析作业和查询的快速执行,我们经常会提前做join,在Scalding中,将新的数据集写入Thrift格式。 在许多情况下,这么做会导致嵌套结构模式,便于Scalding的处理以及Parquet的储存,然而却不便于Impala的查询。

    1.2K70发布于 2018-04-19
  • 来自专栏运维前线

    阿里&百度&腾讯&facebook&Microsoft&Google开源项目汇总

    GitHub主页:https://github.com/twitter/scalding Scalding是一个Scala库,简化了Hadoop MapReduce作业开发,基于Cascading构建 Scalding跟Pig类似,但提供更紧密的Scala集成。Scalding是用于Cascading的Scala API。

    2.4K91发布于 2018-01-02
  • 来自专栏华章科技

    那些年,追过的开源软件和技术

    Cascading/Scalding:Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。 Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。 把上面的Storm跟Scalding结合起来,所谓Lambda Architecture。跟这个相关组件是Algebird: 利用一些概率算法HyperLogLog来提高计算速度。

    1.2K21发布于 2018-08-16
  • 来自专栏Albert陈凯

    Scala难道会成为大数据世界的通用编程语言?

    Apache Kafka是为大数据而设计的新一代消息系统,它和Apache Samza(流处理框架)与Scalding(Cascading的ScalaAPI)一样,也是由Scala开发而成的。

    99930发布于 2018-04-04
领券