Hive特殊函数的使用
终极管理员 知识笔记 114阅读
Hive特殊函数的使用 with ascastget_json_objectunix_timestampfrom_unixtime
with as

在Hive中WITH AS是一种子查询的用法用于在查询的开头定义一个临时表达式。它的语法结构如下:
WITH [表达式名称] AS (子查询表达式)
在这个结构中[表达式名称]是用于引用临时表达式结果的名称而子查询表达式则是一个有效的SELECT语句它会返回结果集作为临时表。

案例有一个名为orders的表包含订单号和订单金额两列。我们可以使用WITH AS来创建一个临时表达式计算每个订单的总金额然后在后续的查询中使用它
WITH order_totals AS (SELECT order_id, SUM(order_amount) AS total_amountFROM ordersGROUP BY order_id)SELECT order_id, total_amountFROM order_totalsWHERE total_amount > 1000;
在上述示例中我们首先定义了一个名为order_totals的临时表达式它使用了一个子查询来计算每个订单的总金额。然后我们在后续的SELECT语句中使用order_totals来获取总金额大于1000的订单。这样我们可以在一条查询语句中定义和引用临时表达式使查询更简洁和易于理解。
当需要多个子查询语句时每个语句之间可以使用逗号相连接示例如下
with a as (select name,age,sno from table_A), b as (select * from a where age > 12 and age <22), c as (select * from b where sno 0001)select * from c where name zs
cast 在Hive中CAST是一种类型转换函数用于将一个表达式或列转换为指定的数据类型。它的语法如下:
CAST(表达式 AS 数据类型)
在这个结构中表达式可以是一个具体的值、列名或者是一个函数的返回值。数据类型可以是Hive所支持的任何有效数据类型如INT、STRING、BOOLEAN等。
案例有一个名为orders的表包含了两个列order_id和order_amount其中order_amount的数据类型为字符串。我们可以使用CAST函数将order_amount转换为浮点数类型然后进行求和的计算:
SELECT SUM(CAST(order_amount AS FLOAT))FROM orders;
在上述示例中我们通过CAST函数将order_amount列从字符串类型转换为浮点数类型FLOAT然后使用SUM函数计算转换后的列的总和。
需要注意的是在进行类型转换时要确保目标数据类型与源数据类型是兼容的否则转换可能会失败或引发错误。另外强制类型转换也可能会导致数据精度丢失或截断所以要根据具体情况谨慎使用。
get_json_object用于从一个JSON字符串中提取特定的JSON对象的值。它将一个JSON字符串和一个JSON路径作为输入并返回与路径对应的JSON对象的值。JSON路径可以用来指定想要提取的JSON对象的位置可以是对象的字段名、数组的索引或通配符。通过使用该函数可以检索和操作JSON数据的特定部分方便进行数据提取和分析。
get_json_object(string json_string,string path)
案例现有一个json对象为log_information里面包含有timenameagebirth等字段
get_json_object(log_information,$.time) as time
unix_timestamp unix_timestamp是用来计算时间戳的。时间戳是一个表示特定时间的数字通常是自1970年1月1日以来经过的秒数。unix_timestamp函数可以将指定的日期和时间转换为对应的时间戳。
unix_timestamp(time,yyyyMMddHHmmss) as timestamp
from_unixtime from_unixtime函数是用来将时间戳转换为对应的日期和时间的。它接受一个时间戳作为参数并将其转换为具有特定格式的日期和时间字符串。这个函数可用于将unix时间戳转换为可读的日期和时间格式以便更好地理解和处理时间数据。
from_unixtime(timestamp,yyyy-MM-dd HH:mm:ss) as time
近期使用到的一些函数去处理一些数据后续用到新的函数或SQL还会继续更新