这里整理了常见的关键信息抽取数据集,持续更新中,欢迎各位小伙伴贡献数据集~
数据简介:FUNSD数据集是一个用于表单理解的数据集,它包含199张真实的、完全标注的扫描版图片,类型包括市场报告、广告以及学术报告等,并分为149张训练集以及50张测试集。FUNSD数据集适用于多种类型的DocVQA任务,如字段级实体分类、字段级实体连接等。部分图像以及标注框可视化如下所示:
图中,橙色区域代表header
,淡蓝色区域代表question
, 绿色区域表answer
,粉红色代区域表other
。Ignore
类别),共标注了50000个文本框。其中训练集包含1267张图片,测试集包含472张图片。部分图像以及标注框可视化如下所示:注: 这里对于类别为Ignore
或者Others
的文本,没有进行可视化。