🧩 چندمنظورهArena Dataset

پایگاه داده‌ی Arena

۱٬۰۰۱ تصویر سند فارسیِ برچسب‌خورده برای تحلیل چیدمان سند.

پژوهشگر:صالحی

درباره‌ی این پایگاه داده

این پایگاه داده (Arna) مجموعه‌ای یکتا از ۱٬۰۰۱ تصویر سند فارسیِ برچسب‌خورده است که به‌دقت در ۷ دسته‌ی معناییِ چیدمان (متن، عنوان، تصویر، لوگو، فهرست، جدول و فرمول) دسته‌بندی شده‌اند. این مجموعه برای تشخیص چیدمان سند، OCR، تشخیص جدول و فهرست، شناسایی لوگو و ارزیابی سامانه‌های تحلیل سند طراحی شده و شامل اسناد دست‌نویس و چاپی به سه زبان فارسی، عربی و انگلیسی است (برگرفته از مقاله، کاتالوگ، داستان، کتاب درسی، روزنامه و کتاب دانشگاهی). برچسب‌ها در قالب Pascal VOC (فایل‌های XML با کادرهای محصورکننده، ساخته‌شده با ابزار LabelImg) ارائه می‌شوند؛ برای کلاس‌های متن، عنوان، جدول و فهرست، محتوای متنی نیز به‌صورت دستی استخراج و در XML گنجانده شده است.

اطلاعات

دستهچندمنظوره

پژوهشگرصالحی

تعداد اسناد1,001

دسته‌های چیدمان7

قالب برچسبPascal VOC (XML)

گیت‌هابموجود ✓