JSON Lines文本文件格式的文档


本页描述JSON Lines文本格式,也称为换行符分隔的JSON。JSON Lines是一种方便的格式,用于存储可以一次处理一条记录的结构化数据。它与Unix样式的文本处理工具和Shell管道一起很好地工作。这是日志文件的绝佳格式。这也是在协作流程之间传递消息的灵活格式。

JSON行格式具有三个要求:

1. UTF-8编码

JSON仅允许使用ASCII转义序列编码Unicode字符串,但是在文本编辑器中查看这些转义将很难阅读。JSON Lines文件的作者可以选择转义字符以使用纯ASCII文件。

解码为UTF-8时,除UTF-8以外的其他编码不太可能有效,因此意外误解 JSON Lines文件中的字符的可能性 很小。

2.每行都是有效的JSON值

最常见的值将是对象或数组,但允许使用任何JSON值。

有关JSON值的更多信息,请参见json.org。

3.线路分隔符为 '\n'

'\r\n'也得到支持,因为在解析JSON值时会忽略尾随空格。


文件中的最后一个字符可能是行分隔符,将与没有行分隔符一样对待。

建议惯例

JSON Lines文件可以使用文件扩展名保存.jsonl

建议使用流压缩器(例如gzip或)bzip2以节省空间,生成.jsonl.gz.jsonl.bz2文件。

文本编辑程序将文本文件的第一行称为“第1行”。JSON Lines文件中的第一个值也应称为“值1”。