本文共 371 字,大约阅读时间需要 1 分钟。
一、概述
SparkSQL的元数据存储状态有两种主要模式:in-memory和Hive。in-memory状态下,元数据在SparkSQL运行结束后会被丢弃;而Hive状态下,元数据通过Hive存储系统持久化保存,存储位置取决于Hive的实际存储路径。
二、SparkSQL脚本的配置
默认情况下,当在SPARK-HOME/conf目录下未找到hive-site.xml文件时,SparkSQL会以in-memory状态运行。此时,元数据将存储在内存中,运行结束后会被清除。
若要将元数据存储至Hive,则需要在SPARK-HOME/conf目录中添加hive-site.xml配置文件。这样,SparkSQL会默认以Hive模式运行,元数据将与Hive存储系统同步,具体存储路径取决于Hive的配置。
此文中相关技术细节参考自相关官方文档。
转载地址:http://jxvfk.baihongyu.com/