تصویر زیر، بخشی از یک دستنویس پهلوی است. دقیقتر بخواهیم بگوییم، بخشی از یک متن دینی-اسطورهای است به نام «بندهشن» که بیشتر در مورد بُن (=سرآغاز) دهش (=آفرینش) صحبت میکند و یکی از مهمترین منابع اسطورهشناسی اساطیر ایرانی است. این دستنویسِ بخصوص، توسط کسی به نام «تهمورث دینکرد» نوشته شده است و معروف است به نسخهی TD2.
اینجای متن دارد تعریف میکند که چطور اهورامزدا به دل «جَهی» (یک مادهدیو) انداخت که عاشق یک مرد بشود.
خط پهلوی هم مانند خط فارسی و عربی و عبری (و کلا همهی خطهای دیگری که از آرامی ریشه گرفتهاند)، از راست به چپ نوشته میشود. توی خط اول تصویر بالا، علامتهای نارنجی که کشیدهام، مرزهای واژهها را نشان میدهند. خط اول ۹ واژه دارد که واژهی اول و ششم مثل هم هستند.
حالا قضیهی استمداد چیست؟ قضیه این است که من نسخهی اسکنشدهی بندهشن و چند دستنویس دیگر پهلوی را دارم و میخواهم هر تصویر را خرد کنم به کلمات تشکیل دهندهی متن. یعنی مثلا میخواهم تصویر بالا را خرد کنم به چند تصویر کوچکتر، یکی
، یکی
بعد
و …
ترجیح هم میدهم که این کار خرد کردن را دستی انجام ندهم
یعنی دنبال ابزاری میگردم که بتواند مرزهای واژه را تشخیص دهد و بر اساس آن یک مستطیل را از توی فایل اصلی ببُرد. قاعدتا این کار از نظر پردازشی کار پیچیدهای نیست و مطمئنم ابزارهایی وجود دارد که من نمیشناسم و منتظر راهنمایی یا حداقل سرنخهای دوستان هستم.
اکبر
۲۹ دی ۹۰ ساعت ۳:۴۸ ب.ظ
با سلام من خیلی تحقیق کردم نتوانستم ریشه خط فارسی را پیداکنم که آیاخط فارسی برگرفته ازخط عربی است ویا برعکس .خیلی خوشحال میشوم اینرا بدانم
علی گنجه ای
۲۹ دی ۹۰ ساعت ۴:۱۳ ب.ظ
قاعدتا فارسی باید از عربی پیروی کرده باشه.
اکبر
۱ بهمن ۹۰ ساعت ۱۰:۱۷ ب.ظ
علت شک من مقایسه سابقه تمدن دوملت(ایران وعرب)درزمان ساسانیان است که اعراب ملتی نه چندان مطرح فقط درسرزمین حجاز بااقوامی بدوی که در واحه های دور از هم روزگار(بدون سبقه فرهنگی وتمدنی)میگذرانیدنندفرهنگ وتمدن غالب ازآن ایرانیان بوده.اینجاست که بنظرمنطقی نمیباشدکه رسم الخط ایرانیان برگرفته ازعربی باشد
ئاریا
۱ شهریور ۹۰ ساعت ۱۰:۲۷ ق.ظ
اگە میشە آموزش خط پلوی هم بذارین.
mahsa
۵ اردیبهشت ۸۹ ساعت ۱۰:۱۴ ق.ظ
vaghean ke hich kas be man komak nemikone in mailame plz vasam send konid
mahsa_ghaderi_gh@yahoo.com
مهسا
۲۶ فروردین ۸۹ ساعت ۸:۳۳ ب.ظ
salam man ye pdf darbareye OCR
mikham age mitunid komakam konid merc h
سمان
۲۸ اسفند ۸۸ ساعت ۲:۵۴ ب.ظ
سلام
سپنتا یه کار ocr خیلی جالب کرده که می دونم برای فارسی خیلی دقیق تر از بقیه ی نرم افزارهایی بوده که من دیدم. ocr اش چند مرحله ایه و یه مرحله اش هم همین جداسازی سطور، کلمات و حروفه.
http://www.srrf.net/ProductsandProjects/tabid/1067/Default.aspx
البته من نمی دونم وضعیت فروشش چه شکلیه ولی اگه بهشون sample بدی احتمالا برات جواب رو مجانی می فرستن
ashkan
۶ مرداد ۸۸ ساعت ۳:۰۹ ب.ظ
Please contact me, if still not solved the problem.
ashkan.my@gmail.com
Regards
علی گنجه ای
۶ مرداد ۸۸ ساعت ۷:۳۲ ب.ظ
ممنون از لطفت اشکان جان،
راستش مشکل هنوز حل نشده ولی من هم به خاطر وقت، دیگه پیگیری نکردم.
پت
۲۳ مهر ۸۷ ساعت ۱۲:۲۳ ب.ظ
اگر هنوز هم علاقه مند انجام این کار هستی، من پایه هستم
علی گنجه ای
۲۴ مهر ۸۷ ساعت ۷:۳۱ ب.ظ
بله، هنوز هم دنبالش هستم و خیلی ممنون میشوم از کمکت
پت
۲۴ مهر ۸۷ ساعت ۱۰:۲۸ ب.ظ
پس فکر کنم که باید کمی با هم صحبت کنیم چون اطلاعات من در مورد این خط و هدف شما خیلی ناقص است. voice چت یاهو یا skype برای شما مناسب هست؟
مهران
۱۳ مهر ۸۷ ساعت ۴:۳۷ ب.ظ
من یه برنامه داشتم تصویر به متن چون فارسی رو خوب کانورت نکرد استفاده نکردم می خوای برات بگردم دنبالش
حسین
۶ مهر ۸۷ ساعت ۱۰:۲۰ ب.ظ
بعضی برنامه های OCR امکان تعریف فونت دارن. یعنی شما به کمک یه نرم افزار فونت ساز فایل فونت TTF رو می سازی و به برنامه OCR ایمپورت می کنی.
یکی از برنامه ها OCR شرکت هوش مصنوعی رایرورز
ولی این فرایند خیلی هم ساده نیست، و احتمالا درصد خطای OCR زیاده.
کلا OCR روی دستخط های غیر لاتین خیلی افتضاح جواب میده.
منصور
۴ مهر ۸۷ ساعت ۱:۵۵ ب.ظ
علی جان با من یه تماس بگیر. یه چیزایی داریم که فکر کنم کارت رو راه بندازه.
مخلصم.