راهنمای تهیه کتاب الکترونیکی
مترجم:
حمیدرضا موحد
امتیاز دهید
.
این کتابچه، به نحوه اسکن بهینه و استفاده از نرم افزار ScanKromsatorجهت تهیه کتاب الکترونیکی به فرمت pdf می پردازد.
بیشتر
این کتابچه، به نحوه اسکن بهینه و استفاده از نرم افزار ScanKromsatorجهت تهیه کتاب الکترونیکی به فرمت pdf می پردازد.
آپلود شده توسط:
sagaliga
1392/04/11
دیدگاههای کتاب الکترونیکی راهنمای تهیه کتاب الکترونیکی
کتاب شرح حال رجال ایران(6ج) تالیف مهدی بامداد کتاب بسیار ارزنده ایست، مخصوصا که از جمله منابع معتبریست که اکثر محققین و مورخین تاریخ معاصر به آن مراجعه می نمایند، حیف بود که اسکن نشود،ولی مشکل حجم بالای کتاب با وجود تصاویریست که در مجلدات آن وجود دارد. به هر روی جلد اول اسکن شد با کیفیت 300dpi که کل کتاب 28mb شده!!!
روش کار چنین بود:
بعد از اسکن با فرمت tiff محتوای اسکن شده را طبق دستور(کتاب) به نرم افزار ScanKromsator انتقال داده و خروجی را با تنظیماتی که در کتاب ذکر گردیده روی 600dpi قرار میدهم ولی همانگونه که دوستان می دانند با وجود تصاویر زیاد در صفحات حجم خروجی صفحات دارای تصویر حدود 1/72 مگابایت می شود که باز هم بسیار زیاد است!
دوستان توصیه کردن که با نرم افزار adobe در نهایت حجم این صفحات رو کم کنم ولی متاسفانه من تا الان به یکی دو نرم افزار از جمله adobe acrobate pro dc 2015 اینکار رو کردم ولی متاسفانه زمانی که قراره در خروجی نرم افزار پس از تبدیل آن به فرمتpdf حجم فایل رو کم کنم چنین گزینه ای که دوستان در زمان save فایل بهش اشاره کردن وجود نداره با این تفاسیر حجم کتاب بسیار زیاد خواهد شد!
به همین دلیل تا الان مجبور بودم با خود نرم افزار ScanKromsator کار خروجی گرفتن و تبدیل فایل های تصویری اسکن شده رو به pdf تبدیل نمایم چون این نرم افزار چنین توانایی داره و میتوان در آن حجم خروجی رو نیز کمتر نمود ولی مشکل دیگری که ایجاد میشه و به تازگی دوستان نیز طی پیام خصوصی بهش اشاره نمودن اندازه صفحات است که باید حتما برای مطالعه تنظیم (زوم) شود و از همه مهمتر اینکه متوجه شدم متاسفانه این نرم افزار صفحات کتاب رو به صورت فریم به فریم برای شما تبدیل به pdf می نماید در صورتی که نرم افزارهای دیگر همچون nitro pro pdf و adobe به شکل زنجیر وار و منصل به گونه ای که شما همزمان میتوانید هم صفحات بعد و قبل رو مشاهده نمایید در صورتی که در نرم افزار فوق اینگونه نیست وقتی به صفحه بعد کتاب میروید دیگر نمی توانید صفحه قبل رو مشاهده کنید بجز اینکه باز به صفحه قبل باز گردید.
حال ختم کلام، تکلیف چیست؟!
چند کتاب اسکن شده و ماندم چکار کنم، متاسفانه با یکی دو برنامه هم امتحان نمودم ولی باز حجم صفحات زیاد میشود. خواهشا دوستانی که کامنت رو میخوانند و نظر و ایده ای دارند ذکر بفرمایند.
باسپاس
از لحاظ دقت تشخیص کاراکترها بی نظیره. اما من به یک مشکل عجیب برخوردم. OCR گوگل درایو بعد از هر پنج یا شش خط را که پردازش می کند، یک خط را به طور کامل حذف می کند! برای شما هم پیش آمده؟ ضمناً قادر به تشخیص شروع پاراگراف جدید نیست و همۀ نوشته ها را پشت سر هم میاورد. بسیاری از نیم فاصله ها را هم رعایت نمی کند؟ دوستان تجربه شما چطور بود؟[/quote]
درود بر حمید گرامی
بستگی به کیفیت فایل اسکن شده داره و همچنین ساعات پرترافیک گوگل درایو. معمولا در ساعاتی که ترافیک بالاست، اصلا فایلی Text نمی کنه. برای صفحه های با حجم لغتی زیاد هم در بعضی موارد کلمه یا جمله ای جا می افته. OCR گوگل درایو با حروف "ک" "گ" "ژ" مشکل داره و دو مورد اول را به "ا" تبدیل می کنه، البته نه همیشه.
در کل ویرایش انسانی بر روی خروجی این برنامه و هرگونه خروجی برنامه مشابه، ضروریه. سرعت تایپ یه کتاب با استفاده از این قابلیت Google Drive، بسته به اینکه موارد مربوط به استاندارد فایل ورودی به درستی رعایت و اعمال شوند، بین 10 تا 20 برابر افزایش پیدا می کنه.
از لحاظ دقت تشخیص کاراکترها بی نظیره. اما من به یک مشکل عجیب برخوردم. OCR گوگل درایو بعد از هر پنج یا شش خط را که پردازش می کند، یک خط را به طور کامل حذف می کند! برای شما هم پیش آمده؟ ضمناً قادر به تشخیص شروع پاراگراف جدید نیست و همۀ نوشته ها را پشت سر هم میاورد. بسیاری از نیم فاصله ها را هم رعایت نمی کند؟ دوستان تجربه شما چطور بود؟
مثال دیگر برای بهتر روشن شدن این موضوع اینکه برای مثال کتابهای معروف اولوین تافلر، شوک آینده یا کتاب موج سوم اگر درست بخاطر داشته باشم ترجمه و چاپ اول آن در ایران سال 72 بود، این کتاب در چاپ اول 10 هزار نسخه چاپ گردید! دو سه ماه بعد حدود 20 هزار نسخه! یکی دوماه بعد10 هزار نسخه و به همین ترتیب، وقتی حساب کردم دیدم در ظرف یکسال حدود 50 هزار نسخه از این کتاب چاپ و منتشر گردیده. در سال 72 جمعیت ایران حدود 65 میلیون نفر بوده،آیا آمار سرانه مطالعه در این سال تابدین حد بیشتر از زمان حال بوده که یک کتاب با این تیراژ چاپ و منتشر می گردد؟ مطمئنا آمار مطالعه در 25 سال پیش بیار بیشتر از زمان حال بوده ولی به نسبت جمعیت و این تیراژ چاپ یک کتاب و مقایسه با زمان حال و افزایش جمعیت بعید به نظر میرسد که تنها دلیل پایین بودن تیراژ چاپ کتاب بوده باشد.(اکثر کتابها تیراژ چاپ آنها از 800 نسخه تا نهایت 2 هزار نسخه می باشد!)
در دهه های گذشته چیزی به نام مرکز پخش وجود نداشت،انتشارات کتاب رو پس از چاپ مستقیم به دست کتابفروش می رساند و کتابفروشی نیز یک سود مشخص آن را به مشتری می فروخت،ولی زمان حال با این وضعیت چاپ و نشر کتاب شاهدیم که ده ها مرکز پخش(واسطه،دلال) وجود دارد که میان انتشارات و خریدار قرار گرفته و به نوعی سهم دلالی خود را از هر نسخه کتاب بدست می آورند و نتیجتا یک کتابی 300 صفحه(قطع رقعی با جلد شومیز) که سه دهه پیش 1000تا1500 تومان قیمت داشت اکنون باید با کیفیت پایین تر با قیمت بالای 15 تا 20 هزارتومان خریداری گردد! آیا دلیل افزایش قیمت در صنعت چاپ تنها به تورم و بالا رفتن قیمت ارز بستگی داشته یا عوامل دیگری نیز در این موضوع دخیل بوده است؟!
در مورد تداخل رنگ صفحات کاغذ با مرکب چاپ دلیل اصلی آن بی کفیت بودن کاغذیست که در صحافی کتاب از آن استفاده میگردد. بهترین کاغذ صحافی معروف به کاغذ نخودی 80 گرمی ساخت آلمان است(رنگ نخودی صفحات کتاب برای این انتخاب می گردید تا به مرور زمان به دلیل رفلکس نور باعث ضعیف شدن و آسیب دیدگی چشم خواننده کتاب نگردد) این کاغذ مرغوب تا پیش از انقلاب وارد می گردید. با این وجود به دلیل قیمت بالای آن کمتر انتشاراتی از آن در چاپ کتابهای خود استفاده می نمود بجز انتشارات ترجمه و نشر ، انتشارات سینا ، انتشارات بنیاد فرهنگ و انتشارات امیر کبیر که گاها از این نوع کاغذ در چاپ کتابهای خود استفاده می نمودن (بخش اعظم کتابهای انتشارات ترجمه و نشر کتاب از این کاغذ با کیفیت بسیار بالا استفاده می گردید) به همین دلیل نیز با گذشت دهه ها نه کاغذ تُرد و شکننده می شد(به قول معروف آب کاغذ با گذشت زمان گرفته نمی شد) و نه مرکب چاپ بر روی کاغذ پخش می گردید.
اگر به کتاب تاریخ ایران باستان که چند روز پیش بر روی سایت بارگذاری گردید نگاه کنید (صفحات این کتاب نخودی رنگ) از همان جنس کاغذ اعلای 80 گرمی آلمانی می باشد. اگر بدانید چه مافیایی در صنعت چاپ کشور وجود دارد به کل دور مطالعه و خرید کتاب رو خط می کشیدید! برای مثال چند نمونه رو خدمتتون عرض میکنم.
درود. خیلی دوست دارم این OCR مربوط به Google Drive رو امتحان کنم. ...[/quote]
وارد حساب کاربری Gmailتون بشید و از آنجا به Google Drive و امکاناتش دسترسی خواهید داشت. تا مدتی پیش این کار براحتی انجام می گرفت ولی از قرار معلوم مدتیه که دسترسی به Google Drive مسدود شده و با اینکه پیام پیوندها را نشون نمی ده اما با استفاده از فیلتر شکن میشه واردش شد. در مورد فاصله و نیم فاصله Google Drive عملکرد خوبی نداره و باید خروجی کار حتما در Word یا هر نرم افزار مشابه دیگری، ویرایش شود. دو صفحه از جلد دوم سه تفنگدار را برایتان share کردم. به جیمیلتان مراجعه کنید. ورودی و خروجی صفحات پیداست و ذکر این مطلب ضروریست که بر روی خروجی هیچگونه تغییر ویرایشی انجام نگرفته است. دقت نتیجه کار را حتی از این هم بالاتر می توان برد.
"پاریس نیامدید که در اینجا تحصیل شغل و ثروت نمائید؟ دارتنیان گفت: بلی عالیجناب ریشلیو گفت: - آیا در این مسافرت بعد از ورود به مونک برای شما حادثه ای روی نداد؟ من درست نمیدانم این حادثه چیست؟ ولی بالاخره یک حادثه بود آیا چنین نمی باشد؟ - عالیجناب اگر اجازه بفرمائید عرض می کنم جریان این حادثه از این قرار بوده که در آن روز من... - به خود زحمت ندهید. - عالیجناب من تصور کردم که میل دارید از جریان این حادثه مستحضر باشید. ریشلیو با تبسمی که نشان می داد وی به خوبی از این واقعه مستحضر میباشد و احتیاج به توضیح دار تنیان ندارد گفت: من می دانم که شما با توصیه ای بر سر آقای تره وی به پاریس آمده بودید؟ دار تنیان گفت: - بلی عالیجناب ولی بر اثر حادثه ای که در مونک برای من پیش آمد... - لابد می خواهید بگوئید توصیه ای که پدر شما برای آقای تره وی نوشته بود
مفقود گردید؟ دارتنیان با حیرت زیاد گفت: بلی عالیجناب، این موضوع نزدیک بود به کلی مرا ناامید کند اما...
- اما... آقای تره وی که مردی قیافه شناس میباشد و بخصوص هم ولایتیهای خود را خوب میشناسد به محض اینکه شما را دید دانست که دروغ نمی گوئید و میتوان از وجود شما استفاده کرد و لذا شما را وارد سپاه اسار کرد و به شما وعده داد در صورتی که ابراز لیاقت نمائید ممکن است که وارد سپاه تفنگداران شوید. دار تن یان که بیش از پیش حیرت می کرد گفت: عالیجناب من میبینم که اطلاعات شما در این خصوص خیلی زیاد است. صدراعظم فرانسه گفت: وظیفه من این است که دربارهٔ اوضاع و افراد، دارای اطلاعات باشم. و از وقتی که شما وارد سپاه اسار شدید تا امروز وقایعی چند برای شما روی داد و از جمله روزی برای گردش به شارترو رفته بودید در صورتی که بهتر بود آن روز آنجا"
درود. خیلی دوست دارم این OCR مربوط به Google Drive رو امتحان کنم. ولی مشکلم اینه که نمیتونم Drive رو باز کنم. شما چطور وارد Drive میشین؟ 95% عالیه. باورم نمیشه. البته باید دید این دقت مثلاً شامل نیم فاصله ها هم میشه یا نه. یه نکته دیگه هم هست و اون مهارت استفاده از قابلیت Replace در World هست که خیلی کلیدیه و در تصحیح متون خروجی OCR کارایی زیادی داره. همین ابزاره که باعث میشه در برابر این دقت پایین OCRهای فارسی فعلی، دست بسته مطلق نباشیم. اگه کسی میدونه لطفا راهنماییم کنه چطور Drive رو باز کنم. از همه تون متشکرم.
در مورد OCR فعلاً باهات موافقم. ولی قول میدم تا چند سال دیگه نظرت تعدیل میشه. من چندین سال پیش، Readiris 11 رو امتحان کرده بودم که در مورد فارسی خیلی اسفناک بود. ولی Readiris 16 فعلی وضعیت بهتری داره، هر چند هنوز هم دقتش پایینه. باز هم مرسی[/quote]
سلام و عرض خسته نباشید خدمت sagaliga عزیز
در مورد OCR هیچکدام از برنامه های موجود، برای زبان فارسی عملکرد خوبی ندارند، اما Google Drive در این زمینه یک استثناست. برای مثال دقت خروجی OCR چند صفحه از کتاب سه تفنگدار که خودتان زحمت اسکنش را کشیده اید، بالای 95 درصد بود. بغیر از این مورد، مساله ویرایش چندنفریست که با گزینه Sharing گوگل درایو عملی شده است و براحتی می توان فرآیند تبدیل تصویر به متن را بصورت گروهی انجام داد تا عملیات با سرعت بیشتری و دقت بهتری پیش رود.
بله کریم خان. کتاب های با جلد شومیز مشکلاتی برای اسکن دارند. مشکل از هم پاشیدن شیرازه آنها وقتی حاد میشه که این کتاب ها قدیمی باشند و چسب اونها خیلی سفت شده باشه. همچنین کتاب های قدیمی دچار تیرگی صفحات میشن و کنتراست بین کلمات و رنگ پس زمینه پایین میاد و دقت استخراج متن از اونها هم پایین میاد. ولی یه کار میشه برای حفظ شیرازه اونها در هنگام اسکن کرد. باید موقع بلند کردن اونها از صفحه اسکنر، هر دو سمت چپ و راست کتاب رو بلند کنیم، نه اینکه اونها رو از یک سمت برداریم و معلق کنیم. این امر خیلی مهمه. حتی کیفیت کاغذ هم مهمه. کاغذهای خیلی کاهی، بافت خیلی غیرهمگنی هم دارند و این باعث خط ها و نقطه های اضافی در نتیجه نهایی میشه که حتی ممکنه وقتی به کتاب نگاه کنیم، اونها رو در خود کتاب هم نبینیم!
کتاب های شومیزی به نظرم فقط یک مزیت به گالینگوری ها دارند که خیلی هم مهمه: در مورد اسکنرهای A4 (که خیلی هم معمول هستند) کمتر کتاب گالینگوری هست که بشه هر دو صفحه اش رو همزمان روی اسکنر قرار داد و همین امر باعث میشه اسکن اونها تک صفحه ای انجام بشه و این یعنی دو برابر شدن زحمت اسکن در حالیکه شومیزی ها کمتر این مشکل رو دارند.
در مورد OCR فعلاً باهات موافقم. ولی قول میدم تا چند سال دیگه نظرت تعدیل میشه. من چندین سال پیش، Readiris 11 رو امتحان کرده بودم که در مورد فارسی خیلی اسفناک بود. ولی Readiris 16 فعلی وضعیت بهتری داره، هر چند هنوز هم دقتش پایینه. باز هم مرسی
خوب زیاد ناراحت نباشید دوست عزیز اینجا ایرانه!