استمداد از آشنایان به مباحث پردازش تصویر و OCR و ابزارهای مربوطه

yat تصویر زیر، بخشی از یک دستنویس پهلوی است. دقیقتر بخواهیم بگوییم، بخشی از یک متن دینی-اسطوره‌ای است به نام «بندهشن» که بیشتر در مورد بُن (=سرآغاز) دهش (=آفرینش) صحبت می‌کند و یکی از مهمترین منابع اسطوره‌شناسی اساطیر ایرانی است. این دستنویسِ بخصوص، توسط کسی به نام «تهمورث دینکرد» نوشته شده است و معروف است به نسخه‌ی TD2.

 TD2-Edit2

اینجای متن دارد تعریف می‌کند که چطور اهورامزدا به دل «جَهی» (یک ماده‌دیو) انداخت که عاشق یک مرد بشود.

خط پهلوی هم مانند خط فارسی و عربی و عبری (و کلا همه‌ی خط‌های دیگری که از آرامی ریشه گرفته‌اند)، از راست به چپ نوشته می‌شود. توی خط اول تصویر بالا، علامت‌های نارنجی که کشیده‌ام، مرزهای واژه‌ها را نشان می‌دهند. خط اول ۹ واژه دارد که واژه‌ی اول و ششم مثل هم هستند.

حالا قضیه‌ی استمداد چیست؟ قضیه این است که من نسخه‌ی اسکن‌شده‌ی بندهشن و چند دستنویس دیگر پهلوی را دارم و می‌خواهم هر تصویر را خرد کنم به کلمات تشکیل دهنده‌ی متن. یعنی مثلا می‌خواهم تصویر بالا را خرد کنم به چند تصویر کوچکتر، یکی pad ، یکی xrat بعد harwisp-agah و …

ترجیح هم می‌دهم که این کار خرد کردن را دستی انجام ندهم 😉 یعنی دنبال ابزاری می‌گردم که بتواند مرزهای واژه را تشخیص دهد و بر اساس آن یک مستطیل را از توی فایل اصلی ببُرد. قاعدتا این کار از نظر پردازشی کار پیچیده‌ای نیست و مطمئنم ابزارهایی وجود دارد که من نمی‌شناسم و منتظر راهنمایی یا حداقل سرنخ‌های دوستان هستم.

۱۶ Comments

  1. راهله ۱۴ دی ۱۳۹۱
  2. اكبر ۲۹ دی ۱۳۹۰
    • علی گنجه ای ۲۹ دی ۱۳۹۰
      • اكبر ۱ بهمن ۱۳۹۰
  3. ئاریا ۱ شهریور ۱۳۹۰
  4. mahsa ۵ اردیبهشت ۱۳۸۹
  5. مهسا ۲۶ فروردین ۱۳۸۹
  6. سمان ۲۸ اسفند ۱۳۸۸
  7. ashkan ۶ مرداد ۱۳۸۸
    • علی گنجه ای ۶ مرداد ۱۳۸۸
  8. پت ۲۳ مهر ۱۳۸۷
    • علی گنجه ای ۲۴ مهر ۱۳۸۷
      • پت ۲۴ مهر ۱۳۸۷
  9. مهران ۱۳ مهر ۱۳۸۷
  10. حسین ۶ مهر ۱۳۸۷
  11. منصور ۴ مهر ۱۳۸۷

Leave a Reply

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *