2024-10-30 ,由惠州大学、上海交通大学、中国科学院深圳先进技术研究院等联合创建的StainDoc数据集,首次为文档去污任务提供了大规模、高分辨率的图像对,极大地推动了文档图像增强技术的发展,特别是在去除文档上的污渍方面。

数据集地址:StainDoc|文档污渍去除数据集|文档数字化数据集

一、研究背景

文档图像常常受到各种污渍的污染,严重影响其可读性,并阻碍了文档数字化和分析等下游应用的发展。传统的文档增强方法在处理复杂污渍残留时面临重大挑战,尤其是在污渍与文本或图像边缘重叠的情况下,往往难以精确识别和去除污渍。

目前遇到困难和挑战:

1、缺乏全面的污渍文档数据集:现有方法在去除污渍的同时保留细粒度信息方面效果有限。

2、传统方法的局限性:依赖预定义的图像特征或规则,在处理复杂污渍时表现不佳。

3、深度学习方法的挑战:需要大量的高质量训练数据,且在处理某些特定类型的污渍(如墨水和茶渍)时存在困难。

数据集地址:StainDoc|文档污渍去除数据集|文档数字化数据集

二、让我们来一起看一下StainDoc数据集

StainDoc是首个专为文档去污设计的大规模、高分辨率数据集。包含超过5,000对污渍和清洁文档图像,覆盖多种场景。包括多种污渍类型、严重程度和文档背景,促进文档去污算法的稳健训练和评估。

数据集构建:

文档准备:收集了约300份多语言文本和图形的文档。

污渍模拟:模拟了常见的污渍因素,如茶、红墨水和蓝墨水。

摄影条件:在一致的照明条件下拍摄不同降解水平的文档。

标准化分类:基于污渍类型和严重程度对文档进行标准化分类。

数据集特点:

1、高分辨率:2145×2245的图像分辨率。

3、多样性:涵盖多种文档类型和污渍,确保模型在多样化场景中的性能。

基准测试:

性能评估:在StainDoc数据集及其变体StainDoc_Mark和StainDoc_Seal上进行性能评估,建立文档去污的新基准。

StainDoc:首个专为文档去污设计的大规模、高分辨率数据集(包含 5000 多对具有不同污渍类型、严重程度和背景的染色和干净文档图像),推动文档图像增强技术发展。_数据集

数据集构建过程:(a) 染色应用和文档准备,(b) 受控条件下的摄影,(c) 后处理和标准化。

StainDoc:首个专为文档去污设计的大规模、高分辨率数据集(包含 5000 多对具有不同污渍类型、严重程度和背景的染色和干净文档图像),推动文档图像增强技术发展。_数据集_02

来自 Stain5K 数据集的示例图像对:(a) 是染色的文档图像,(b) 是干净的原始文档图像。补充材料中提供了更多数据集示例。

StainDoc:首个专为文档去污设计的大规模、高分辨率数据集(包含 5000 多对具有不同污渍类型、严重程度和背景的染色和干净文档图像),推动文档图像增强技术发展。_图像处理_03

拟议的 StainRestorer 的整体架构。个用于分层污渍表示的 DocMemory 模块和一个用于准确去除污渍的 Stain Removal Transformer 组成。DocMemory 模块捕获部件级、实例级和语义级染色特征,然后使用 ProtoMix 策略融合这些特征。SRTransformer 利用这些丰富的表示来执行精确污点除。同时保留文档内容

StainDoc:首个专为文档去污设计的大规模、高分辨率数据集(包含 5000 多对具有不同污渍类型、严重程度和背景的染色和干净文档图像),推动文档图像增强技术发展。_机器学习数据集_04

不同型号的去污性能的定性比较。第一行显示 StainDoc 数据集上的结果,第二行显示 StainDoc_Mark 数据集上的结果,第三行显示 StainDoc_Seal 数据集上的结果。

StainDoc:首个专为文档去污设计的大规模、高分辨率数据集(包含 5000 多对具有不同污渍类型、严重程度和背景的染色和干净文档图像),推动文档图像增强技术发展。_机器学习数据集_05

不同数据集上不同配置的模型预测的定性分析。每一行说明了烧蚀特定模型组件对生成输出的影响。第一行对应于 StainDoc 数据集,第二行对应于 StainDoc_Mark,第三行对应于 StainDoc_Seal。

三、让我们一起展望StainDoc数据集的应用

比如,我是一名图书馆的档案管理员

日常工作中,每当有珍贵的手稿需要数字化,我得亲自戴上白手套,小心翼翼地翻阅每一页。这些手稿年代久远,上面的字迹因为岁月的侵蚀而变得模糊,还有各种污渍,比如咖啡渍、墨水滴和尘土,这些都严重影响了文档的可读性。

我得用软刷子轻轻清扫每一页,对于顽固的污渍,还得用棉签蘸上一点特殊的清洁剂,一点一点地擦拭。这个过程既耗时又费力,有时候还会不小心把纸张擦破,心里那个急啊,生怕一不小心就毁了这些无价之宝。

清洁完毕后,我得用扫描仪一页一页地扫描这些文档,然后利用一些基本的图像处理软件尝试去除扫描图像上的污渍。但效果往往不尽人意,有时候污渍去掉了,但字迹也变得模糊,或者扫描图像的边缘出现了奇怪的锯齿状,让人头疼。

处理完所有文档后,我得花大量时间手动校正扫描图像中的文字,确保数字化后的文档内容准确无误。这个过程不仅效率低下,而且容易出错,让人感到非常沮丧。

现在有了StainDoc数据集训练的系统:

首先,我依旧得戴上白手套,小心翼翼地翻阅每一页手稿。但清洁工作就交给StainDoc训练的去污系统了。

我将手稿扫描成高分辨率的图像,然后上传到去污系统中。系统利用StainDoc数据集中的数千对污渍和清洁文档图像,学习如何识别和去除各种类型的污渍。处理后的图像清晰度显著提高,原本模糊的字迹变得清晰可辨,那些顽固的污渍也不见了。

我只需要坐在电脑前,看着系统自动处理每一页文档。处理速度非常快,而且效果出奇地好。系统不仅去除了污渍,还保留了文档的原始细节,甚至连那些微妙的纹理和图案都得到了很好的保护。

处理完毕后,我只需进行简单的质量检查,确保每一页文档都清晰可读。然后,我将这些数字化后的文档上传到图书馆的在线数据库中,供全球的研究者访问。这个过程不仅节省了我大量时间,还保护了这些脆弱的纸质文档不受进一步的损害。

现在,我有更多的时间去研究和整理其他珍贵的文献,而不是花费在繁琐的清洁和图像处理上。它不仅帮助保护和保存了历史文献,还使得这些文献对全世界的研究者更加开放和易于访问。这是一项真正意义上的技术革新,为文化遗产的保护和传承开辟了新的道路。


更多开源的数据集,请打开:遇见数据集


https://www.selectdataset.com/