hive on spark 怎么查看错误日志

原创

mob649e8160b585 2023-09-16 06:17:30 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e8160b585的原创作品，请联系作者获取转载授权，否则将追究法律责任

查看 Hive on Spark 错误日志

Hive on Spark 是一种在 Hadoop 上运行的 Apache Hive 引擎，它使用了 Apache Spark 作为计算引擎。在使用 Hive on Spark 进行数据处理时，有时会遇到错误。本文将介绍如何查看 Hive on Spark 的错误日志，并解决一个实际问题。

问题描述

假设我们有一个 Hive 表，其中包含了用户的订单数据，我们想要统计每个用户的订单总金额。我们使用 Hive on Spark 来处理这个任务：

SELECT user_id, sum(order_amount) as total_amount
FROM orders
GROUP BY user_id;

在运行以上查询时，我们遇到了一个错误。我们需要查看 Hive on Spark 的错误日志以了解错误的原因并解决问题。

查看错误日志的步骤

以下是查看 Hive on Spark 错误日志的步骤：

步骤 1：打开 Hive on Spark Web UI

在运行 Hive on Spark 任务的机器上，打开浏览器，并访问 Spark Web UI 的地址。默认情况下，地址为 http://<hostname>:4040。

步骤 2：找到对应的应用程序

在 Spark Web UI 的界面上，找到对应的应用程序。该应用程序的名称通常为 Hive on Spark，并且任务的提交时间与你运行查询的时间相匹配。

步骤 3：查看错误日志

在应用程序页面上，找到 "stderr" 的链接，点击它可以查看错误日志。错误日志中包含了导致任务失败的详细信息，包括调试信息和错误堆栈。

解决问题

根据上述步骤，我们可以查看 Hive on Spark 错误日志并找到导致查询失败的原因。假设我们查看错误日志后发现以下错误信息：

java.lang.NullPointerException
    at org.apache.spark.sql.hive.HiveExternalCatalog.getPartitionOption(HiveExternalCatalog.scala:673)
    at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$getTableOption$1.apply(HiveExternalCatalog.scala:627)
    at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$getTableOption$1.apply(HiveExternalCatalog.scala:627)
    at scala.Option.map(Option.scala:146)
    ...

根据错误日志，我们可以看到这是一个空指针异常 (NullPointerException)。错误发生在 HiveExternalCatalog 类中的 getPartitionOption 方法中。

为了解决这个问题，我们需要检查数据表的分区信息。我们可以使用以下 HiveQL 查询来查看表的分区信息：