Tuesday, October 14, 2014

កម្មវិធី Khmer OCR ដំណើរ​ការ​ដូច​ម៉្តេច?

Tesseract OCR ជា​កម្មវិធី​កូដ​ចំហ ខ្មែរ​យើង​ជា​ច្រើន​បាន​ទាញ​យក​មក​បង្កើត​កម្មវិធី​ស្កែន​រូបភាព​បំឡែង​ទៅ​ជា​អត្ថបទ (Khmer OCR) ប៉ុន្តែ​មិន​បាន​ជោគជ័យ ពី​ព្រោះ​គំនូស​អក្សរ​ខ្មែរ​លម្អិត​ពេក ហើយ​មាន​កត្តា​ជា​ច្រើន​ដែល​ធ្វើ​ឲ្យ​លទ្ធផង​ចេញ​មក​មិន​ដូច​បំណង។

កាល​ពី​ឆ្នាំ ២០០៣ ពេល​កំពុង​ធ្វើ​ពុម្ព​អក្សរ​យូនីកូដ ខ្ញុំ​ក៏​នឹក​ឃើញ​គំនិត​ថ្មី​ក្នុង​ការ​បង្កើត​កម្មវិធី OCR សម្រាប់​ខ្មែរ ប៉ុន្តែ​មិន​បាន​អនុវត្ត ពី​ព្រោះ​នេះ​ជា​ការងារ​ធំ ទាមទារ​ឲ្យ​មាន​មនុស្ស​ច្រើន​ចូលរួម។

ដល់​ឆ្នាំ២០១២ ដោយសារ​មាន​លោក Paul Dodds អ្នក​ជំនាញ​ផ្នែក​ច្បាប់​របស់​ធនាគាពិភពលោក​ជួយ​លើក​ទឹក​ចិត្ត ទើប​ខ្ញុំ និង ធីម ច័ន្ទរិទ្ធី ​អ្នកបង្កើតប្រព័ន្ធប្រតិបត្តិការ moonOS បង្កើត​​បាន​​ក្រុម​​ការងារ ហើយ​​ក្រោយ​​មក​​រួម​​សហការ​​ជា​​មួយ​​ក្រុមហ៊ុន innover.com និង​​អង្គការ SBBIC (http://www.sbbic.org) បង្កើត​បាន​គម្រោង​នេះ​ឡើង។

កិច្ចការ​ចំពោះ​មុខ​របស់​គម្រោង Khmer OCR  គឺ​បង្កើត​ឧបករណ៍​សម្រាប់​ប្រើ​លើ​បណ្តាញ​អ៊ីនធឺណេត ដែល​អនុញ្ញាត​ឲ្យ​អ្នក​ប្រើប្រាស់​ចូល​រួម​តាម​រយៈ​កែ​ពាក្យ​ខុស​ឲ្យ​ត្រូវ ដូច​ជា​ជួយ​បង្រៀង​កម្មវិធី​កុំព្យូទ័រ​ឲ្យ​ស្គាល់​ភាសា​ខ្មែរ។ ប្រសិន​បើ​មាន​អ្នក​ចូល​រួម​កាន់​តែ​ច្រើន លទ្ធផល​នៃ​ការ​បំឡែង​រូបភាព​ទៅ​ជា​អត្ថបទ​ត្រូវ​បាន​កាន់​តែ​ច្រើន។

ឧទាហរណ៍ លទ្ធផលបឋម

កែកំហុស

លទ្ធផលចុងក្រោយ

លោកអ្នកអាចចូលសាកល្បង​នៅទីនេះ khmerocr.org។ យើងខ្ញុំមានទំព័រ​សម្រាប់​ការ​ងារ​​បង្រៀន​ឲ្យកម្មវិធី​កុំព្យូទ័រ​​ស្គាល់ពាក្យខុស ​(train data) នៅ​ទី​នេះ khmerocr.org/train សម្រាប់​តែ​អ្នក​ស្ម័គ្រចិត្ត​មួយ​ចំនួន ដែល​មាន​បំណង​ជួយ​កែលម្អ​កម្មវិធី​នេះ។