Apache Spark 是一个开源的分布式分析和处理系统,它通过提供统一的 API 来简化面向分析的应用程序的开发,支持数据传输、大规模转换和分布式处理。
DataFrame 是 Spark API 中一个重要且必不可少的组件。本教程将通过一个简单的客户数据示例,探讨一些 Spark DataFrame API。
从逻辑上讲,DataFrame 是一个不可变的记录集合,这些记录被组织成名为列。它与 RDBMS 中的表或 Java 中的 ResultSet 有相似之处。
作为 API,DataFrame 提供了统一的访问多个 Spark 库的方式,包括 Spark SQL、Spark Streaming、MLlib 和 GraphX。
大约 5 分钟