oracle实现将字段按逗号拼接/按逗号分行
- 一、拼接
- 1.普通拼接
- 2.进阶:限制拼接个数并去重
- 3.进阶:拼接除去当前值的其他值
- 4.函数说明
- LISTAGG
- 二、分行
- 1.普通分行方法1
- 2.进阶:去重及控制分行行数
- 3.函数说明
- PRIOR
- REGEXP_SUBSTR
- CONNECT BY
- 4.普通分行方法2
- 三、优化:CONNECT BY与WHERE
一、拼接
1.普通拼接
使用 LISTAGG 函数来实现:
SELECT B, LISTAGG(C, ',') WITHIN GROUP (ORDER BY C) AS C
FROM A
GROUP BY B;
这段代码会将表A中每个B对应的多个C值用逗号拼接起来,形成一个新的C列。
2.进阶:限制拼接个数并去重
如果限制拼接的字段个数及去重可以按如下代码:
SELECT B, LISTAGG(C, ',') WITHIN GROUP (ORDER BY C) AS C
FROM (
SELECT B, C,
ROW_NUMBER() OVER (PARTITION BY B ORDER BY C) AS rn
FROM (
SELECT DISTINCT B, C
FROM A
)
)
WHERE rn <= 100
GROUP BY B;
这段代码会在表A中选择B和C两个字段,并使用 DISTINCT 关键字去除重复的C值。然后使用 ROW_NUMBER 函数为每个B对应的C值进行编号,最后使用 LISTAGG 函数将每个B对应的前100个C值用逗号拼接起来,形成一个新的C列。
3.进阶:拼接除去当前值的其他值
SELECT t1.A, t1.B,
(SELECT LISTAGG(t2.B, ',') WITHIN GROUP (ORDER BY t2.B)
FROM T t2
WHERE t2.A = t1.A AND t2.B != t1.B) AS C
FROM T t1;
这段代码会使用LISTAGG函数将表T中同一个A下的除了当前的B其他值按逗号拼接为一个字符串,并作为C字段的值。
4.函数说明
LISTAGG
LISTAGG是Oracle中的一个聚合函数,用于将多行数据连接成一个字符串。它的语法为:
LISTAGG(measure_expression [, 'delimiter']) WITHIN GROUP (ORDER BY sort_expression)
measure_expression:要连接的表达式。
delimiter:可选参数,指定连接时使用的分隔符。默认值为空字符串。
sort_expression:指定连接顺序的表达式。
例如,在上面的示例代码中,LISTAGG(B, ‘,’) WITHIN GROUP (ORDER BY B)表示将B字段的值按照逗号分隔符连接起来,并按照B字段的值排序。
需要注意的是,LISTAGG函数只能在SELECT语句的GROUP BY子句中使用。
二、分行
1.普通分行方法1
SELECT
A,
REGEXP_SUBSTR(B,'[^,]+',1,LEVEL) B
FROM T1
CONNECT BY REGEXP_SUBSTR(B,'[^,]+',1,LEVEL) IS NOT NULL
AND PRIOD A = A
AND PRIOD SYS_GUID
该代码实现将字段B根据逗号分为多行
2.进阶:去重及控制分行行数
如果运行上面那段代码后出现了多条重复的记录,可能是因为表T中存在多条A字段值相同的记录。由于我们在代码中使用了PRIOR A = A这个条件来控制生成新行,所以如果表T中存在多条A字段值相同的记录,那么每条记录都会被分割成多行,从而导致结果中出现重复的记录。
为了避免这种情况,你可以在查询中添加一个DISTINCT关键字来去除重复的记录,例如
SELECT DISTINCT A, REGEXP_SUBSTR(B, '[^,]+', 1, LEVEL) AS B
FROM T
CONNECT BY REGEXP_SUBSTR(B, '[^,]+', 1, LEVEL) IS NOT NULL
AND PRIOR A = A
AND PRIOR SYS_GUID() IS NOT NULL;
如果运行上面那段代码后出现了无限循环重复的记录,可能是因为CONNECT BY子句中的条件没有正确设置。在使用CONNECT BY子句生成多行结果时,需要确保递归条件能够在某个时刻不再满足,从而终止递归。
在上面那段代码中,我们使用了REGEXP_SUBSTR(B, ‘[^,]+’, 1, LEVEL) IS NOT NULL作为递归条件。这个条件表示只要REGEXP_SUBSTR函数返回的结果不为空,就继续生成下一行。如果表T中的B字段包含无限个逗号分隔的子串,那么这个条件将永远成立,从而导致无限循环重复的记录。
为了避免这种情况,你可以在查询中添加一个限制条件来控制递归的深度,例如:
SELECT A, REGEXP_SUBSTR(B, '[^,]+', 1, LEVEL) AS B
FROM T
WHERE LEVEL <= 10 -- 控制递归深度
CONNECT BY REGEXP_SUBSTR(B, '[^,]+', 1, LEVEL) IS NOT NULL
AND PRIOR A = A
AND PRIOR SYS_GUID() IS NOT NULL;
在上面这段代码中,我们添加了一个WHERE LEVEL <= 10条件来控制递归的深度。这样,在使用CONNECT BY子句生成多行结果时,只会生成最多10行结果,从而避免了无限循环重复的记录。
3.函数说明
PRIOR
PRIOR是Oracle中用于层次查询的关键字。它用于在CONNECT BY子句中指定父行和子行之间的关系。例如,CONNECT BY PRIOR employee_id = manager_id表示父行的employee_id字段等于子行的manager_id字段。
在上面的示例代码中,PRIOR C = C表示父行和子行的C字段值相同,这样可以确保每个B字段值都与其对应的C字段值关联。而PRIOR SYS_GUID() IS NOT NULL是一个技巧,用于防止循环递归。
REGEXP_SUBSTR
REGEXP_SUBSTR是Oracle中的一个正则表达式函数,用于从字符串中提取匹配正则表达式的子字符串。它的语法为:
REGEXP_SUBSTR(source_string,
pattern [, position [, occurrence [, match_parameter [, sub_expression]]]])
source_string:要搜索的字符串。
pattern:正则表达式模式。
position:可选参数,指定开始搜索的位置。默认值为1。
occurrence:可选参数,指定返回第几个匹配项。默认值为1。
match_parameter:可选参数,指定匹配行为。例如,'i'表示不区分大小写。
sub_expression:可选参数,指定返回哪个子表达式。
例如,在上面的示例代码中,REGEXP_SUBSTR(B, ‘[^,]+’, 1, LEVEL)表示从B字段的第1个字符开始搜索,返回第LEVEL个匹配项,其中正则表达式模式为[^,]+,表示匹配一个或多个非逗号字符。
CONNECT BY
CONNECT BY是Oracle中用于层次查询的子句。它用于指定父行和子行之间的关系,以便从表中检索层次结构数据。
例如,假设你有一个员工表,其中包含员工ID和经理ID两个字段。你可以使用以下查询来检索员工的层次结构:
SELECT employee_id, manager_id
FROM employees
CONNECT BY PRIOR employee_id = manager_id;
这个查询会返回一个结果集,其中每一行都表示一个员工和其直接经理之间的关系。
你可以使用START WITH子句来指定层次结构的起始点,例如:
SELECT employee_id, manager_id
FROM employees
START WITH manager_id IS NULL
CONNECT BY PRIOR employee_id = manager_id;
这个查询会返回一个结果集,其中只包含那些没有经理(即顶级经理)的员工及其下属。
4.普通分行方法2
如果你不想使用递归来实现将字段分为多行,你可以使用Oracle的XMLTABLE函数来实现。例如:
SELECT A, COLUMN_VALUE AS B
FROM T,
XMLTABLE(('"' || REPLACE(B, ',', '","') || '"'))
这段代码使用了REPLACE函数来将B字段中的逗号替换为",",然后使用XMLTABLE函数来将替换后的字符串转换为多行结果。
例子:
假设我们有一个表T,其中包含两个字段A和B,如下所示:
A B
1 a,b,c
2 d,e,f
我们希望将B字段根据逗号分为多行,得到如下结果:
A B
1 a
1 b
1 c
2 d
2 e
2 f
为了实现这个需求,我们可以使用以下SQL语句:
SELECT A, COLUMN_VALUE AS B
FROM T,
XMLTABLE(('"' || REPLACE(B, ',', '","') || '"'))
这段代码首先使用REPLACE函数将B字段中的逗号替换为",“,例如将a,b,c替换为a”,“b”,“c。然后在替换后的字符串前后分别添加一个双引号,得到"a”,“b”,“c”。
接下来,使用XMLTABLE函数将替换后的字符串转换为多行结果。XMLTABLE函数会将输入的字符串解析为一个XML文档,并根据指定的XPath表达式来提取数据。在这个例子中,我们使用了默认的XPath表达式,即/ROWSET/ROW,来提取所有行。
最后,使用COLUMN_VALUE关键字来选择每一行的值,并将其作为B字段的值返回。
三、优化:CONNECT BY与WHERE
在Oracle中,CONNECT BY子句在应用WHERE条件之前应用。因此,WHERE约束不会帮助优化CONNECT BY。
例如,下面的查询可能会执行全表扫描(忽略dept_id的选择性):
SELECT * FROM employees
WHERE dept_id = 'SALE'
START WITH manager_id is null
CONNECT BY PRIOR employee_id = manager_id
有两种方法可以提高性能: 查询A:
SELECT * FROM employees
START WITH manager_id is null AND dept_id = 'SALE'
CONNECT BY PRIOR employee_id = manager_id
查询B:
SELECT * FROM (
SELECT * FROM employees WHERE dept_id = 'SALE'
)
START WITH manager_id is null
CONNECT BY PRIOR employee_id = manager_id
尽管这两个查询都比原始查询好得多,但在Oracle 10g Release 2上,查询B的性能比A好得多。
注:START WITH子句是可选的,它指定了层次查询的根行。如果省略此子句,则Oracle将表中的所有行用作根行。START WITH条件可以包含子查询,但不能包含标量子查询表达式1。
例如,下面的查询将从employee_id = 100的行开始,并返回层次结构中该行下的所有行:
SELECT employee_id, last_name, manager_id
FROM employees
START WITH employee_id = 100
CONNECT BY PRIOR employee_id = manager_id;