Friday, December 6, 2019
Sample Attachment Proposal free essay sample
  Ià  amà  alsoà  highlyà  indebtedà  toà  myà  supervisorsà  Faisalà  Shafaità  andà  Ilyaà   Mezhirov,à  whoà  seemedà  toà  haveà  solutionsà  toà  allà  myà  problems. Author Theà  reportà  presentsà  theà  threeà  tasksà  completedà  duringà  summerà  internshipà  atà  IUPRà   whichà  areà  listedà  below: 1. Detection à   of à   headlines à   in à   document à   images à   with à   black à   runà lengths à   andà   OCRopusà  performanceà  evaluationà  inà  detectingà  headlines 2. Reà engineeringà  theà  zoneà classificationà  module 3. Evaluationà  ofà  differentà  segmentationà  algorithmsà  performance Allà  theseà  tasksà  haveà  beenà  completedà  successfullyà  andà  resultsà  wereà  accordingà  toà   expectations.  Theà  detectionà   ofà   headlinesà  achievedà  aà  lowà  errorà  rateà  ofà  2. 85%à  asà   against à   6. 52 à   of à   previously à   used à   methods. During à   evaluation à   of à   segmentationà   algorithmsà  XYà cutà  wasà  foundà  toà  gainà  aà  lotà  byà  noiseà  cleanup,à  whichà  isà  anà  interestingà   resultà  asà  ità  strengthenà  theà  claimà  ofà  XYà cutà  segmentationà  algorithmà  asà  aà  suitableà   method à   for à   OCRopus. The à   reà engineering à   and à   porting à   of à   zoneà classificationà   module à   to à   OCRopus à   makes à   it à   possible à   for à   OCRopus à   to à   have à   a à   text/imageà   segmentationà  ifà  ità  isà  requiredà  inà  future.             Author Abstract OCRopusà  :à  Introduction  Thoughà  theà  fieldà  ofà  opticalà  characterà  recognition(OCR)à  isà  consideredà  toà  beà  widelyà   explored,à  theà  developmentà  ofà  anà  efficientà  systemà  forà  useà  inà  realà  worldà  situationsà   stillà  remainsà  aà  challengeà  forà  developers. OCRopusà  isà  aà  stateà ofà theà artà  documentà   analysisà  andà  OCRà  system,à  featuringà  pluggableà  layoutà  analysis,à  pluggableà  characterà   recognition,à  statisticalà  naturalà  languageà  modeling,à  multià lingualà  capabilitiesà  andà  isà   beingà  developedà  atà  IUPR. Thisà  beingà  aà  veryà  bigà  project,à  Ià  wasà  assignedà  theà  tasksà  ofà   developingà  toolsà  forà  layoutà analysisà  andà  evaluation. Theà  Goals: Followingà  goalsà  wereà  setà  asà  Ià  proceededà  inà  myà  work: 1.  Conversionà  ofà  groundà truthà dataà  inà  MARGà  databaseà  fromà  XMLà  formatà   toà  hOCRà  microà format[1]. 2. Developmentà  ofà  aà  ruleà basedà  headlineà  detectionà  methodà  usingà  theà  medianà   blackà  runà lengthà  ofà  theà  lines. 3. Development à   of à   segmentationà classification à   module à   and à   evaluation à   ofà   performanceà  ofà  differentà  segmentationà  algorithmsà  asà  againstà  noise. 1. XMLà  toà  hOCR: hOCR à   is à   a à   format à   for à   representing à   OCR à   output, à   including à   layout à   information,à   character à   confidences, à   bounding à   boxes, à   and à   style à   information. It à   embeds à   thisà   information à   invisibly à   in à   standard à   HTML.  By à   building à   on à   standard à   HTML, à   ità   automatically à   inherits à   wellà defined à   support à   for à   most à   scripts, à   languages, à   andà   common à   layout à   options. Furthermore, à   unlike à   previous à   OCR à   formats, à   the recognizedà  textà  andà  OCRà relatedà  informationà  coà existà  inà  theà  sameà  fileà  andà  survivesà   editingà  andà  manipulation. hOCRà  markupà  isà  independentà  ofà  theà  presentation. Dueà  toà  allà  aboveà  qualitiesà  ofà  hOCRà  format,à  ità  isà  highlyà  desirableà  toà  haveà  groundà   truthà  inà  thisà  format. Ià  wasà  assignedà  theà  taskà  ofà  convertingà  theà  MARGà  databaseà   groundà  truthà  intoà  hOCRà  format.  Forà  Ã  thisà  purposeà  Ià  haveà  writtenà  followingà  script. Scriptà  Nameà  :à  xmlà toà hocr Languageà  Used:à  Python Commandà lineà argumentà  form:à  xmlà toà hocrà  FILE. XML FILE. XMLà  :à  Theà  fileà  inà  XMLà  formatà  toà  beà  convertedà  intoà  hOCRà  microà  format. Note: à   The à   script à   does à   not à   take à   care à   of à   latex à   characters à   yet. It à   would à   be à   anà   improvementà  toà  incorporateà  thisà  feature. 2. Headlineà  detectionà  Basedà  onà  blackà  runà lengthà  andà  itsà  Ã  Ã  Ã  Ã  integrationà   intoà  OCRopus: Detectionà  ofà  headlinesà  inà  documentà  imagesà  isà  oneà  issueà  thatà  isà  mostlyà  overlookedà   butà  yetà  isà  highlyà  desirableà  toà  properlyà  formatà  theà  outputà  ofà  OCR.  OCRopusà  hadà  tillà   nowà  usedà  aà  ruleà  basedà  methodà  whichà  usedà  spaceà  betweenà  linesà  asà  theà  criteriaà  forà   detectionà  ofà  headlines. Thoughà  thisà  methodà  workedà  forà  manyà  images,à  ità  alsoà  failedà   manyà  times. Ità  wasà  anà  obviousà  observationà  thatà  blackà  runà lengthsà  ofà  headlinesà  areà   moreà  thanà  theà  blackà  runà lengthà  ofà  theà  normalà  line,à  andà  weà  triedà  toà  buildà  uponà  this concept. Weà  usedà  medianà  blackà  runà  lengthà  ofà  aà  lineà  asà  theà  decidingà  criteria. Theà   medianà  wasà  usedà  insteadà  ofà  meanà  becauseà  meanà  runà  lengthà  couldà  haveà  easilyà  beenà   affectedà  byà  theà  noiseà  mergingà  withà  textà  andà  wouldà  haveà  produceà  errors.  Theà  wholeà  approachà  isà  simpleà  asà  discussedà  below: 1. Calculateà  theà  medianà  blackà  runà lengthà  forà  theà  eachà  lineà  onà  page. 2. Compareà  thisà  runà  lengthà  forà  eachà  lineà  withà  theà  linesà  belowà  andà  aboveà  it. 3. If à   black à   runà length à   forà   a à   lineà   has à   beenà   foundà   K1(a à   parameter) à   times à   theà   median à  runà length à   ofà  lineà  belowà  it,à  andà  K2(anotherà  parameter)à  timesà  theà   medianà  runà lengthà  ofà  theà  lineà  aboveà  it,setà  ità  asà  aà  headline. Theà  valueà  ofà  parametersà  K1à  andà  K2à  wasà  toà  beà  foundà  experimentally. Afterà  manyà   timesà  evaluatingà  theà  performanceà  ofà  theà  program,à  theà  valueà  ofà  K1à  andà  K2à  hasà  beenà   setà  toà  1. 5à  andà  1. 1à  respectively.  Weà  usedà  histogramà  basedà  methodà  toà  findà  theà  medianà  runà length. Aà  histogramà  ofà   theà  numberà  ofà  occurrencesà  versusà  runà lengthà  wasà  calculated,à  onceà  weà  haveà  suchà  aà   histogramà  weà  normalizeà  ità  withà  theà  largestà  valueà  ofà  occurrence. Thenà  weà  calculatedà   theà  cumulativeà  distributionà  functionà  forà  thisà  normalizedà  histogram. Theà  pointà  whenà   cumulativeà  distributionà  functionà  rechesà  aà  valueà  ofà  0. 5,à  correspondsà  toà  theà  medianà   runlength. The à   program à   forà   detection à   of à   headlines à   was à   written à  in à  C++ à   andà   used à   standardà   OCRopusà  classes. Theà  programà  hasà  beenà  successfullyà  integratedà  intoà  OCRopusà  and Evaluation:  We à   also à   designed à   a à   tool à   which à   evaluates à   the à   performance à   of à   the à   OCRopus à   inà   detecting à   headlines. As à   according à   to à   OCRopus à   standards, à   this à   tool à   has à   beenà   developedà  toà  workà  withà  filesà  inà  hOCRà  microà format. Thisà  toolà  comprisesà  ofà  twoà   programs: 1. Theà  firstà  programà  takesà  theà  OCRopusà  outputà  andà  theà  correspondingà  groundà   truthà  fileà  inà  hOCRà  formatà  andà   à  outputsà  theà  totalà  noà  ofà  falseà  positivesà  and falseà  negativesà  whichà  occurredà  inà  detection. Ità  alsoà  outputsà  theà  totalà  noà  ofà   true à   headlines à   whichà   are à   present à   inà   the à   groundà truth. The à   command à   lineà   formà  ofà  thisà  programsà  is:    
Subscribe to:
Post Comments (Atom)
 
 
No comments:
Post a Comment
Note: Only a member of this blog may post a comment.