پایگاه دادهی Arena
۱٬۰۰۱ تصویر سند فارسیِ برچسبخورده برای تحلیل چیدمان سند.

این پایگاه داده (Arna) مجموعهای یکتا از ۱٬۰۰۱ تصویر سند فارسیِ برچسبخورده است که بهدقت در ۷ دستهی معناییِ چیدمان (متن، عنوان، تصویر، لوگو، فهرست، جدول و فرمول) دستهبندی شدهاند. این مجموعه برای تشخیص چیدمان سند، OCR، تشخیص جدول و فهرست، شناسایی لوگو و ارزیابی سامانههای تحلیل سند طراحی شده و شامل اسناد دستنویس و چاپی به سه زبان فارسی، عربی و انگلیسی است (برگرفته از مقاله، کاتالوگ، داستان، کتاب درسی، روزنامه و کتاب دانشگاهی). برچسبها در قالب Pascal VOC (فایلهای XML با کادرهای محصورکننده، ساختهشده با ابزار LabelImg) ارائه میشوند؛ برای کلاسهای متن، عنوان، جدول و فهرست، محتوای متنی نیز بهصورت دستی استخراج و در XML گنجانده شده است.
به این دادهها علاقه دارید؟
برای همکاری پژوهشی یا دسترسی به جزئیات بیشتر با تیم به نثر تماس بگیرید.
تماس با ما