تشخیص کاراکتر نوری (Optical Character Recognition) چیست؟
تشخیص کاراکتر نوری (OCR) فرآیندی است که یک تصویر از متن را به فرمت متنی قابل خواندن توسط ماشین تبدیل میکند. برای مثال، اگر یک فرم یا رسید را اسکن کنید، کامپیوتر شما اسکن را بهعنوان یک فایل تصویری ذخیره میکند. شما نمیتوانید از یک ویرایشگر متن برای ویرایش، جستجو یا شمارش کلمات در فایل تصویری استفاده کنید. با این حال، میتوانید از OCR برای تبدیل تصویر به یک سند متنی استفاده کنید که محتوای آن بهصورت دادههای متنی ذخیره شده است.
چرا OCR مهم است؟
بسیاری از جریانهای کاری کسبوکار شامل دریافت اطلاعات از رسانههای چاپی است. فرمهای کاغذی، فاکتورها، اسناد قانونی اسکنشده و قراردادهای چاپی همگی بخشی از فرآیندهای کسبوکار هستند. این حجم زیاد اسناد کاغذی زمان و فضای زیادی برای ذخیره و مدیریت نیاز دارند. اگرچه مدیریت اسناد بدون کاغذ راهحل ایدهآلی است، اسکن اسناد به تصاویر چالشهایی ایجاد میکند. این فرآیند نیازمند دخالت دستی است و میتواند خستهکننده و کند باشد.
علاوه بر این، دیجیتالی کردن محتوای این اسناد فایلهای تصویری ایجاد میکند که متن در آنها پنهان است. متن در تصاویر نمیتواند توسط نرمافزارهای پردازش کلمه به همان شیوه اسناد متنی پردازش شود. فناوری OCR این مشکل را با تبدیل تصاویر متنی به دادههای متنی که میتوانند توسط سایر نرمافزارهای کسبوکار تحلیل شوند، حل میکند. سپس میتوانید از این دادهها برای انجام تحلیلها، سادهسازی عملیات، خودکارسازی فرآیندها و بهبود بهرهوری استفاده کنید.
مزایای OCR چیست؟
مزایای اصلی فناوری OCR عبارتند از:
متن قابل جستجو
کسبوکارها میتوانند اسناد موجود و جدید خود را به یک آرشیو دانش قابل جستجو تبدیل کنند. همچنین میتوانند پایگاه داده متنی را بهصورت خودکار با استفاده از نرمافزارهای تحلیل داده برای پردازش دانش بیشتر پردازش کنند.
کارایی عملیاتی
میتوانید با استفاده از نرمافزار OCR برای یکپارچهسازی خودکار جریانهای کاری اسناد و جریانهای کاری دیجیتال در کسبوکار خود، کارایی را بهبود دهید. در اینجا چند نمونه از کارهایی که نرمافزار OCR میتواند انجام دهد آورده شده است:
- اسکن فرمهای پرشده دستی برای تأیید خودکار، بازبینی، ویرایش و تحلیل. این کار زمان مورد نیاز برای پردازش دستی اسناد و ورود دادهها را صرفهجویی میکند.
- یافتن اسناد مورد نیاز با جستجوی سریع یک اصطلاح در پایگاه داده، بهطوری که نیازی به مرتبسازی دستی فایلها در یک جعبه نباشد.
- تبدیل یادداشتهای دستنویس به متون و اسناد قابل ویرایش.
راهحلهای هوش مصنوعی
OCR اغلب بخشی از سایر راهحلهای هوش مصنوعی است که کسبوکارها ممکن است پیادهسازی کنند. برای مثال، شماره پلاکها و تابلوهای جادهای را در خودروهای خودران اسکن و میخواند، لوگوهای برند را در پستهای رسانههای اجتماعی تشخیص میدهد یا بستهبندی محصولات را در تصاویر تبلیغاتی شناسایی میکند. چنین فناوریهای هوش مصنوعی به کسبوکارها کمک میکند تصمیمات بازاریابی و عملیاتی بهتری بگیرند که هزینهها را کاهش داده و تجربه مشتری را بهبود میبخشد.
تاریخچه و تکامل OCR چیست؟
یکی از اولین پیشرفتهای شناختهشده در OCR، ماشین امانوئل گلدبرگ در دهه ۱۹۲۰ بود که میتوانست کاراکترها را خوانده و آنها را به کد تلگراف تبدیل کند. این کار پایهای برای ایده خواندن مبتنی بر ماشین ایجاد کرد.
پذیرش اولیه
در دهه ۱۹۵۰، OCR بهعنوان یک فناوری تجاری شکل گرفت. شرکتهایی مانند RCA سیستمهایی را توسعه دادند که میتوانستند فونتهای خاصی را برای کاربردهای بانکی و پستی بخوانند. این سیستمها برای خودکارسازی پردازش چک و مرتبسازی نامهها استفاده شدند—کاربردهایی محدود اما تأثیرگذار.
در دهه ۱۹۶۰، فونتهای OCR-A و OCR-B طراحی شدند تا بهراحتی توسط انسانها و ماشینها خوانده شوند. معرفی آنها به OCR امکان داد تا در امور مالی و دولتی سازگارتر شود.
گسترش
پیشرفت در اسکنرها و الگوریتمهای نرمافزاری به کاربردی شدن OCR برای استفاده روزمره در کسبوکارها کمک کرد. برنامههای اولیه میتوانستند اسناد کاغذی چاپشده را اسکن کرده و به متن قابل ویرایش تبدیل کنند، اگرچه دقت محدود بود.
در دهه ۲۰۰۰، شبکههای عصبی و فناوری یادگیری ماشینی اولیه به OCR امکان داد تا فراتر از فونتها و طرحبندیهای ثابت عمل کند. سیستمهای مدرن اکنون میتوانند متن دستنویس، اسکنهای با کیفیت پایین و طرحبندیهای پیچیده را با دقت بسیار بیشتری تفسیر کنند.
امروز
امروزه، OCR از یک ابزار خاص به یک فناوری بنیادی در تحول دیجیتال تبدیل شده است. این فناوری در همه چیز از برنامههای موبایل تا پلتفرمهای اتوماسیون سازمانی تعبیه شده است. از چندین زبان پشتیبانی میکند و ضبط تصویر در زمان واقعی را بهصورت آگاه از زمینه انجام میدهد. اکنون بخشی جداییناپذیر از اتوماسیون هوشمند است.
موارد استفاده مختلف OCR در پردازش اسناد چیست؟
OCR بخش جداییناپذیری از جریانهای کاری پردازش اسناد سازمانی است. موارد استفاده زیر را در نظر بگیرید:
جستجوی هوشمند آرشیو اسناد
فناوری OCR امکان ایجاد آرشیوهای دیجیتال قابل جستجو را با استخراج متن از اسناد مبتنی بر تصویر و PDF فراهم میکند. پس از شناسایی متن، میتوان آن را فهرستبندی کرد و در سیستمهای جستجوی مبتنی بر هوش مصنوعی استفاده کرد. کاربران میتوانند بهسرعت و با دقت فایلهای مرتبط را در حجمهای بزرگ فایل جستجو کنند، بدون نیاز به طبقهبندی اضافی اسناد. برای مثال، جستجوی یک نام مشتری خاص، تمام سفارشهای پرداخت، فاکتورها و فرمهایی که در اصل بهصورت کاغذی ارائه شدهاند را بازمیگرداند.
پردازش زبان طبیعی
OCR متن را در سطح کلمه، خط یا سلول جدول شناسایی و استخراج میکند و کنترل بیشتری بر نحوه آمادهسازی محتوا برای وظایف پردازش زبان طبیعی (NLP) مانند طبقهبندی اسناد، خلاصهسازی، تحلیل احساسات، مدلسازی موضوع، شناسایی موجودیت و غیره ارائه میدهد. برای مثال، خلاصهسازی نیازمند استخراج متن در پاراگرافها است، اما شناسایی موجودیت ممکن است استخراج متن در جفتهای کلید-مقدار، مانند یک فایل JSON، را ترجیح دهد.
استانداردسازی دادهها
جریانهای کاری اسناد اغلب شامل دادههای بدون ساختار از فرمتها و صنایع مختلف هستند. OCR با استخراج متن و جداول از انواع اسناد مختلف مانند صورتهای مالی، یادداشتهای بالینی و گزارشهای فنی، به استانداردسازی این دادهها کمک میکند. شما پردازش سریعتر و مدیریت دادههای سازگارتر در سیستمها به دست میآورید.
خودکارسازی پردازش فرمها
فناوری OCR نقش کلیدی در خودکارسازی پردازش فرمها ایفا میکند. میتواند فیلدها را شناسایی کرده و اطلاعات ساختاریافته را از انواع فرمهای مختلف استخراج کند، که به کسبوکارها امکان میدهد این دادهها را مستقیماً در پایگاههای داده بدون ورود دستی ادغام کنند.
ویژگی برنامه
قابلیتهای OCR میتوانند مستقیماً در برنامههای کسبوکار تعبیه شوند تا کاربران بتوانند استخراج متن در زمان واقعی را خودشان انجام دهند. این کار بار تحلیل را کاهش میدهد زیرا دادهها در منبع بهدرستی جمعآوری میشوند.
OCR چگونه در صنایع مختلف استفاده میشود؟
موارد استفاده رایج OCR در صنایع مختلف عبارتند از:
بانکداری
صنعت بانکداری از OCR برای پردازش و تأیید اسناد کاغذی برای اسناد وام، چکهای سپرده و سایر معاملات مالی استفاده میکند. این تأیید پیشگیری از تقلب را بهبود بخشیده و امنیت معاملات را افزایش داده است. برای مثال، BlueVine یک شرکت فناوری مالی است که به کسبوکارهای کوچک و متوسطارائه میدهد. این شرکت از Amazon Textract، یک سرویس OCR مبتنی بر ابر، برای توسعه محصولی استفاده کرد که به کسبوکارهای کوچک در ایالات متحده امکان دسترسی سریع به وامهای برنامه حفاظت از چکهای حقوقی (PPP) را بهعنوان بخشی از بسته محرک امداد COVID-19 فراهم کرد. Amazon Textract بهصورت خودکار دهها هزار فرم PPP را در روز پردازش و تحلیل کرد تا BlueVine بتواند به چندین هزار کسبوکار کمک کند تا بودجه دریافت کنند و بیش از ۴۰۰,۰۰۰ شغل را در این فرآیند حفظ کند.
مراقبتهای بهداشتی
صنعت مراقبتهای بهداشتی از OCR برای پردازش سوابق بیمار، از جمله درمانها، آزمایشها، سوابق بیمارستانی و پرداختهای بیمه استفاده میکند. OCR به سادهسازی جریان کار و کاهش کار دستی در بیمارستانها کمک میکند در حالی که سوابق را بهروز نگه میدارد. برای مثال، گروه nib بیمه سلامت و پزشکی را به بیش از یک میلیون استرالیایی ارائه میدهد و روزانه هزاران ادعای پزشکی دریافت میکند. مشتریان آن میتوانند از فاکتور پزشکی خود عکس بگیرند و از طریق برنامه موبایل nib ارسال کنند. Amazon Textract این تصاویر را بهصورت خودکار پردازش میکند تا شرکت بتواند ادعاها را بسیار سریعتر تأیید کند.
لجستیک
شرکتهای لجستیک از OCR برای ردیابی برچسبهای بسته، فاکتورها، رسیدها و سایر اسناد بهطور مؤثرتر استفاده میکنند. برای مثال، گروه Foresight از Amazon Textract برای خودکارسازی پردازش فاکتورها در SAP استفاده میکند. ورود دستی این اسناد تجاری زمانبر و مستعد خطا بود زیرا کارکنان Foresight باید دادهها را در چندین سیستم حسابداری وارد میکردند. با Amazon Textract، نرمافزار Foresight میتواند کاراکترها را در طرحبندیهای مختلف با دقت بیشتری بخواند، که کارایی کسبوکار را افزایش میدهد.
OCR چگونه کار میکند؟
موتور OCR یا نرمافزار OCR با استفاده از مراحل زیر کار میکند:
کسب تصویر
یک اسکنر اسناد را خوانده و آنها را به دادههای باینری تبدیل میکند. نرمافزار OCR تصویر اسکنشده را تحلیل کرده و مناطق روشن را بهعنوان پسزمینه و مناطق تیره را بهعنوان متن طبقهبندی میکند.
پیشپردازش
نرمافزار OCR ابتدا تصویر را تمیز کرده و خطاها را حذف میکند تا برای خواندن آماده شود. برخی از تکنیکهای تمیز کردن آن عبارتند از:
- رفع انحراف یا کج کردن اسناد اسکنشده برای اصلاح مشکلات تراز در طول اسکن.
- حذف لکهها یا صاف کردن لبههای تصاویر متنی.
- پاکسازی کادرها و خطوط در تصویر.
- تشخیص اسکریپت برای فناوری OCR چندزبانه.
تشخیص متن
دو نوع اصلی الگوریتمهای OCR یا فرآیندهای نرمافزاری که نرمافزار OCR برای تشخیص متن استفاده میکند، تطبیق الگو و استخراج ویژگی نامیده میشوند.
تطبیق الگو: تطبیق الگو با جداسازی یک تصویر کاراکتر، به نام گلیف، و مقایسه آن با گلیف ذخیرهشده مشابه کار میکند. تشخیص الگو تنها در صورتی کار میکند که گلیف ذخیرهشده فونت و مقیاسی مشابه با گلیف ورودی داشته باشد. این روش با تصاویر اسکنشده اسنادی که با یک فونت شناختهشده تایپ شدهاند، بهخوبی کار میکند.
استخراج ویژگی: استخراج ویژگی گلیفها را به ویژگیهایی مانند خطوط، حلقههای بسته، جهت خط و تقاطعهای خط تجزیه میکند. سپس از این ویژگیها برای یافتن بهترین تطابق یا نزدیکترین همسایه در میان گلیفهای ذخیرهشده خود استفاده میکند.
پسپردازش
پس از تحلیل، سیستم دادههای متنی استخراجشده را به اسناد متنی قابل خواندن توسط ماشین تبدیل میکند. برخی سیستمهای OCR میتوانند فایلهای PDF حاشیهنویسیشدهای ایجاد کنند که شامل نسخههای قبل و بعد از سند اسکنشده هستند.
انواع OCR چیست؟
دانشمندان داده انواع مختلف فناوریهای OCR را بر اساس استفاده و کاربرد آنها طبقهبندی میکنند. چند نمونه عبارتند از:
نرمافزار تشخیص کاراکتر نوری ساده
یک موتور OCR ساده با ذخیره بسیاری از فونتها و الگوهای تصویر متنی مختلف بهعنوان قالب کار میکند. نرمافزار OCR از الگوریتمهای تطبیق الگو برای مقایسه تصاویر متنی، کاراکتر به کاراکتر، با پایگاه داده داخلی خود استفاده میکند. اگر سیستم متن را کلمه به کلمه تطبیق دهد، به آن تشخیص کلمه نوری گفته میشود. این راهحل محدودیتهایی دارد زیرا فونتها و سبکهای دستخط عملاً نامحدود هستند و نمیتوان هر نوع را ضبط و در پایگاه داده ذخیره کرد.
نرمافزار تشخیص کاراکتر هوشمند
سیستمهای OCR مدرن از فناوری تشخیص کاراکتر هوشمند (ICR) برای خواندن متن به همان شیوهای که انسانها انجام میدهند، استفاده میکنند. آنها از روشهای پیشرفتهای استفاده میکنند که ماشینها را برای رفتار مانند انسانها با استفاده از نرمافزار یادگیری ماشینی آموزش میدهند. یک سیستم یادگیری ماشینی به نام شبکه عصبی تصویر را در سطوح متعدد تحلیل میکند و تصویر را بارها پردازش میکند. این سیستم به دنبال ویژگیهای مختلف تصویر، مانند منحنیها، خطوط، تقاطعها و حلقهها میگردد و نتایج تمام این سطوح مختلف تحلیل را ترکیب میکند تا نتیجه نهایی را به دست آورد. حتی اگر ICR معمولاً تصاویر را یک کاراکتر در یک زمان پردازش کند، این فرآیند سریع است و نتایج در چند ثانیه به دست میآیند.
تشخیص کلمه هوشمند
سیستمهای تشخیص کلمه هوشمند بر اساس همان اصول ICR کار میکنند، اما تصاویر کل کلمه را به جای پیشپردازش تصاویر به کاراکترها پردازش میکنند.
تشخیص علامت نوری
تشخیص علامت نوری لوگوها، واترمارکها و سایر نمادهای متنی را در یک سند شناسایی میکند.