🔤 تشخیص نویسه (OCR)IDPL-PFOD1

IDPL-PFOD۱ — متن چاپی فارسی

پایگاه داده‌ی تصاویر متن چاپی فارسی برای پژوهش‌های تشخیص نویسه (OCR).

پژوهشگر:فاطمه سادات حسینی

درباره‌ی این پایگاه داده

IDPL-PFOD۱ یک پایگاه داده‌ی بزرگ از تصاویر متن چاپی فارسی است که به‌صورت مصنوعی تولید شده و برای آموزش و ارزیابی مدل‌های تشخیص نویسه (OCR) فارسی طراحی شده است. این مجموعه شامل ۳۰٬۱۳۸ تصویر خط متن (با ابعاد ۷۰۰×۵۰ پیکسل و قالب TIF) و در مجموع ۴۵۲٬۰۷۰ واژه است. تصاویر با ۱۱ فونت فارسی، ۲ سبک، ۷ اندازه و ۱۲ الگوی بافت تولید شده‌اند. از نظر پس‌زمینه: حدود ۵۰٪ زمینه‌ی سفید ساده، ۴۰٪ زمینه‌ی نویزی و ۱۰٪ زمینه‌ی بافت‌دار هستند؛ همچنین حدود ۱۰٪ تصاویر دارای اعوجاج‌هایی مانند کجی، موج سینوسی و تاری‌اند تا به شرایط واقعیِ اسناد نزدیک‌تر باشند. برچسب‌ها در یک فایل CSV (هر سطر متناظر یک تصویر) نگه‌داری می‌شوند.

مقالات مرجع