نوشته های بی خواننده

استمداد از آشنایان به مباحث پردازش تصویر و OCR و ابزارهای مربوطه

۱۵ دیدگاه

yat تصویر زیر، بخشی از یک دستنویس پهلوی است. دقیقتر بخواهیم بگوییم، بخشی از یک متن دینی-اسطوره‌ای است به نام «بندهشن» که بیشتر در مورد بُن (=سرآغاز) دهش (=آفرینش) صحبت می‌کند و یکی از مهمترین منابع اسطوره‌شناسی اساطیر ایرانی است. این دستنویسِ بخصوص، توسط کسی به نام «تهمورث دینکرد» نوشته شده است و معروف است به نسخه‌ی TD2.

 TD2-Edit2

اینجای متن دارد تعریف می‌کند که چطور اهورامزدا به دل «جَهی» (یک ماده‌دیو) انداخت که عاشق یک مرد بشود.

خط پهلوی هم مانند خط فارسی و عربی و عبری (و کلا همه‌ی خط‌های دیگری که از آرامی ریشه گرفته‌اند)، از راست به چپ نوشته می‌شود. توی خط اول تصویر بالا، علامت‌های نارنجی که کشیده‌ام، مرزهای واژه‌ها را نشان می‌دهند. خط اول ۹ واژه دارد که واژه‌ی اول و ششم مثل هم هستند.

حالا قضیه‌ی استمداد چیست؟ قضیه این است که من نسخه‌ی اسکن‌شده‌ی بندهشن و چند دستنویس دیگر پهلوی را دارم و می‌خواهم هر تصویر را خرد کنم به کلمات تشکیل دهنده‌ی متن. یعنی مثلا می‌خواهم تصویر بالا را خرد کنم به چند تصویر کوچکتر، یکی pad ، یکی xrat بعد harwisp-agah و …

ترجیح هم می‌دهم که این کار خرد کردن را دستی انجام ندهم ;) یعنی دنبال ابزاری می‌گردم که بتواند مرزهای واژه را تشخیص دهد و بر اساس آن یک مستطیل را از توی فایل اصلی ببُرد. قاعدتا این کار از نظر پردازشی کار پیچیده‌ای نیست و مطمئنم ابزارهایی وجود دارد که من نمی‌شناسم و منتظر راهنمایی یا حداقل سرنخ‌های دوستان هستم.

نوشته علی گنجه ای

۳ مهر ماه ۱۳۸۷ ساعت ۳:۰۵ ب.ظ

۱۵ دیدگاه درباره «استمداد از آشنایان به مباحث پردازش تصویر و OCR و ابزارهای مربوطه»

با آر.اس.اس مشترک نظرات شوید پیوند Trackback

  1. اکبر

    ۲۹ دی ۹۰ ساعت ۳:۴۸ ب.ظ

    با سلام من خیلی تحقیق کردم نتوانستم ریشه خط فارسی را پیداکنم که آیاخط فارسی برگرفته ازخط عربی است ویا برعکس .خیلی خوشحال میشوم اینرا بدانم

    • علی گنجه ای

      ۲۹ دی ۹۰ ساعت ۴:۱۳ ب.ظ

      قاعدتا فارسی باید از عربی پیروی کرده باشه.

      • اکبر

        ۱ بهمن ۹۰ ساعت ۱۰:۱۷ ب.ظ

        علت شک من مقایسه سابقه تمدن دوملت(ایران وعرب)درزمان ساسانیان است که اعراب ملتی نه چندان مطرح فقط درسرزمین حجاز بااقوامی بدوی که در واحه های دور از هم روزگار(بدون سبقه فرهنگی وتمدنی)میگذرانیدنندفرهنگ وتمدن غالب ازآن ایرانیان بوده.اینجاست که بنظرمنطقی نمیباشدکه رسم الخط ایرانیان برگرفته ازعربی باشد

  2. ئاریا

    ۱ شهریور ۹۰ ساعت ۱۰:۲۷ ق.ظ

    اگە میشە آموزش خط پلوی هم بذارین.

  3. mahsa

    ۵ اردیبهشت ۸۹ ساعت ۱۰:۱۴ ق.ظ

    vaghean ke hich kas be man komak nemikone in mailame plz vasam send konid
    mahsa_ghaderi_gh@yahoo.com

  4. مهسا

    ۲۶ فروردین ۸۹ ساعت ۸:۳۳ ب.ظ

    salam man ye pdf darbareye OCR
    mikham age mitunid komakam konid merc h

  5. سمان

    ۲۸ اسفند ۸۸ ساعت ۲:۵۴ ب.ظ

    سلام
    سپنتا یه کار ocr خیلی جالب کرده که می دونم برای فارسی خیلی دقیق تر از بقیه ی نرم افزارهایی بوده که من دیدم. ocr اش چند مرحله ایه و یه مرحله اش هم همین جداسازی سطور، کلمات و حروفه.
    http://www.srrf.net/ProductsandProjects/tabid/1067/Default.aspx
    البته من نمی دونم وضعیت فروشش چه شکلیه ولی اگه بهشون sample بدی احتمالا برات جواب رو مجانی می فرستن

  6. ashkan

    ۶ مرداد ۸۸ ساعت ۳:۰۹ ب.ظ

    Please contact me, if still not solved the problem.

    ashkan.my@gmail.com

    Regards

  7. پت

    ۲۳ مهر ۸۷ ساعت ۱۲:۲۳ ب.ظ

    اگر هنوز هم علاقه مند انجام این کار هستی، من پایه هستم

    • علی گنجه ای

      ۲۴ مهر ۸۷ ساعت ۷:۳۱ ب.ظ

      بله، هنوز هم دنبالش هستم و خیلی ممنون میشوم از کمکت

      • پت

        ۲۴ مهر ۸۷ ساعت ۱۰:۲۸ ب.ظ

        پس فکر کنم که باید کمی با هم صحبت کنیم چون اطلاعات من در مورد این خط و هدف شما خیلی ناقص است. voice چت یاهو یا skype برای شما مناسب هست؟

  8. مهران

    ۱۳ مهر ۸۷ ساعت ۴:۳۷ ب.ظ

    من یه برنامه داشتم تصویر به متن چون فارسی رو خوب کانورت نکرد استفاده نکردم می خوای برات بگردم دنبالش

  9. حسین

    ۶ مهر ۸۷ ساعت ۱۰:۲۰ ب.ظ

    بعضی برنامه های OCR امکان تعریف فونت دارن. یعنی شما به کمک یه نرم افزار فونت ساز فایل فونت TTF رو می سازی و به برنامه OCR ایمپورت می کنی.
    یکی از برنامه ها OCR شرکت هوش مصنوعی رایرورز
    ولی این فرایند خیلی هم ساده نیست، و احتمالا درصد خطای OCR زیاده.
    کلا OCR روی دستخط های غیر لاتین خیلی افتضاح جواب میده.

  10. منصور

    ۴ مهر ۸۷ ساعت ۱:۵۵ ب.ظ

    علی جان با من یه تماس بگیر. یه چیزایی داریم که فکر کنم کارت رو راه بندازه.
    مخلصم.

نظرتان را ثبت کنید