استمداد از آشنایان به مباحث پردازش تصویر و OCR و ابزارهای مربوطه

علی گنجه‌ای 24 سپتامبر 2008 بدون دسته‌بندی ۱۶ دیدگاه

yat تصویر زیر، بخشی از یک دستنویس پهلوی است. دقیقتر بخواهیم بگوییم، بخشی از یک متن دینی-اسطوره‌ای است به نام «بندهشن» که بیشتر در مورد بُن (=سرآغاز) دهش (=آفرینش) صحبت می‌کند و یکی از مهمترین منابع اسطوره‌شناسی اساطیر ایرانی است. این دستنویسِ بخصوص، توسط کسی به نام «تهمورث دینکرد» نوشته شده است و معروف است به نسخه‌ی TD2.

TD2-Edit2

اینجای متن دارد تعریف می‌کند که چطور اهورامزدا به دل «جَهی» (یک ماده‌دیو) انداخت که عاشق یک مرد بشود.

خط پهلوی هم مانند خط فارسی و عربی و عبری (و کلا همه‌ی خط‌های دیگری که از آرامی ریشه گرفته‌اند)، از راست به چپ نوشته می‌شود. توی خط اول تصویر بالا، علامت‌های نارنجی که کشیده‌ام، مرزهای واژه‌ها را نشان می‌دهند. خط اول 9 واژه دارد که واژه‌ی اول و ششم مثل هم هستند.

حالا قضیه‌ی استمداد چیست؟ قضیه این است که من نسخه‌ی اسکن‌شده‌ی بندهشن و چند دستنویس دیگر پهلوی را دارم و می‌خواهم هر تصویر را خرد کنم به کلمات تشکیل دهنده‌ی متن. یعنی مثلا می‌خواهم تصویر بالا را خرد کنم به چند تصویر کوچکتر، یکی ، یکی بعد و …

ترجیح هم می‌دهم که این کار خرد کردن را دستی انجام ندهم 😉 یعنی دنبال ابزاری می‌گردم که بتواند مرزهای واژه را تشخیص دهد و بر اساس آن یک مستطیل را از توی فایل اصلی ببُرد. قاعدتا این کار از نظر پردازشی کار پیچیده‌ای نیست و مطمئنم ابزارهایی وجود دارد که من نمی‌شناسم و منتظر راهنمایی یا حداقل سرنخ‌های دوستان هستم.

About The Author

علی گنجه‌ای

۱۶ Comments

راهله 03 ژانویه 2013

سلام
در مورد ریشه خط فارسی و عربی مطلبی دیده ام که لینکش اینه. http://zinati.eu/Persische_Schrift_oder_Arabisch.htm

پاسخ
اكبر 19 ژانویه 2012

با سلام من خيلي تحقيق كردم نتوانستم ريشه خط فارسي را پيداكنم كه آياخط فارسي برگرفته ازخط عربي است ويا برعكس .خيلي خوشحال ميشوم اينرا بدانم

پاسخ
- علی گنجه ای 19 ژانویه 2012
  
  قاعدتا فارسی باید از عربی پیروی کرده باشه.
  
  پاسخ
  - اكبر 21 ژانویه 2012
    
    علت شك من مقايسه سابقه تمدن دوملت(ايران وعرب)درزمان ساسانيان است كه اعراب ملتي نه چندان مطرح فقط درسرزمين حجاز بااقوامي بدوي كه در واحه هاي دور از هم روزگار(بدون سبقه فرهنگي وتمدني)ميگذرانيدنندفرهنگ وتمدن غالب ازآن ايرانيان بوده.اينجاست كه بنظرمنطقي نميباشدكه رسم الخط ايرانيان برگرفته ازعربي باشد
    
    پاسخ
ئاریا 23 آگوست 2011

اگە میشە آموزش خط پلوی هم بذارین.

پاسخ
mahsa 25 آوریل 2010

vaghean ke hich kas be man komak nemikone in mailame plz vasam send konid
[email protected]

پاسخ
مهسا 15 آوریل 2010

salam man ye pdf darbareye OCR
mikham age mitunid komakam konid merc h

پاسخ
سمان 19 مارس 2010

سلام
سپنتا یه کار ocr خیلی جالب کرده که می دونم برای فارسی خیلی دقیق تر از بقیه ی نرم افزارهایی بوده که من دیدم. ocr اش چند مرحله ایه و یه مرحله اش هم همین جداسازی سطور، کلمات و حروفه.
http://www.srrf.net/ProductsandProjects/tabid/1067/Default.aspx
البته من نمی دونم وضعیت فروشش چه شکلیه ولی اگه بهشون sample بدی احتمالا برات جواب رو مجانی می فرستن

پاسخ
ashkan 28 جولای 2009

Please contact me, if still not solved the problem.

[email protected]

Regards

پاسخ
- علی گنجه ای 28 جولای 2009
  
  ممنون از لطفت اشکان جان،
  راستش مشکل هنوز حل نشده ولی من هم به خاطر وقت، دیگه پیگیری نکردم.
  
  پاسخ
پت 14 اکتبر 2008

اگر هنوز هم علاقه مند انجام این کار هستی، من پایه هستم

پاسخ
- علی گنجه ای 15 اکتبر 2008
  
  بله، هنوز هم دنبالش هستم و خیلی ممنون میشوم از کمکت
  
  پاسخ
  - پت 15 اکتبر 2008
    
    پس فکر کنم که باید کمی با هم صحبت کنیم چون اطلاعات من در مورد این خط و هدف شما خیلی ناقص است. voice چت یاهو یا skype برای شما مناسب هست؟
    
    پاسخ
مهران 04 اکتبر 2008

من یه برنامه داشتم تصویر به متن چون فارسی رو خوب کانورت نکرد استفاده نکردم می خوای برات بگردم دنبالش

پاسخ
حسین 27 سپتامبر 2008

بعضی برنامه های OCR امکان تعریف فونت دارن. یعنی شما به کمک یه نرم افزار فونت ساز فایل فونت TTF رو می سازی و به برنامه OCR ایمپورت می کنی.
یکی از برنامه ها OCR شرکت هوش مصنوعی رایرورز
ولی این فرایند خیلی هم ساده نیست، و احتمالا درصد خطای OCR زیاده.
کلا OCR روی دستخط های غیر لاتین خیلی افتضاح جواب میده.

پاسخ
منصور 25 سپتامبر 2008

علی جان با من یه تماس بگیر. یه چیزایی داریم که فکر کنم کارت رو راه بندازه.
مخلصم.

پاسخ

Related Posts

About The Author

علی گنجه‌ای

۱۶ Comments

Leave a Reply Cancel Reply