| 1/1/1995 12:00:00 AM

¿Ud. todavía escribe?

Con la tecnología de scanners y software para reconocimiento de texto, se obvia la necesidad de pasar manualmente textos al computador.

¿Se ha encontrado alguna vez con la necesidad de volver a introducir al computador una serie de documentos, cartas, faxes, fotocopias etc.?, ¿levantar textos largos y tediosos?, ¿dedicar gente de su empresa c esta labor?, ¿ha medido por casualidad el tiempo que esto consume? Si es así, la tecnología de OCR viene en su ayuda

OCR significa "Optical Character Recognition" o reconocimiento óptico de caracteres. Con un scanner conectado a su computador personal, el software de OCR convierte una imagen de una página en columnas de texto y gráficas, determina cómo el texto fluye de columna a columna y entrega el texto formateado a aplicaciones estándar (procesadores de palabrea por ejemplo). Esto tiene una gran ventaja sobre sistemas de archivo de imágenes, ya que se puede interactuar con los datos. El OCR puede introducir texto a su computador a una velocidad 10 veces mayor que la mecanógrafa más rápida. Lo único que hay que hacer es "escanear- la imagen y el software convierte esa imagen en caracteres legibles por un procesador de palabras

Aquí se comparan cuatro paquetes para reconocimiento óptico de caracteres, que tienen el mérito de ser los mas vendidos en el mercdo



EXACTITUD EN EL RECONOCIMIENTO



La exactitud del reconocimiento se mide contando el número de palabras que fueron escaneadas correctamente, dividiéndolas por el número de palabras en el documento El texto margarita (caracteres perfectamente formados debería ser el más sencillo de reconocer, de tal manera que el puntaje debería estar cercano al 100%. Las hojas de fax y fotocopias son las más difíciles. Para que un producto sea utilizable es deseable que la exactitud esté por lo menos entre el 95% y el 97% de reconocimiento. Cualquier porcentaje menor al 95°/, requeriría demasiadas correcciones manuales. Mientras que OmniPage se comporta frecuentemente un poco mejor a este respecto que WordScan en lo que a faxes se refiere, su comportamiento con documento., fotocopiados es bastante pobre, lo mismo que en documento con letras pequeña. TextBridge se comporta bastante bien, excepto con documentos fotocopiados. con el mérito adicional de ser el producto más barato de todos los analizados.



COMPARATIVO DE SALIDA (PRODUCTIVIDAD) EN EL RECONOCIMIENTO



La salida se mide contando el número de palabras escaneadas correctamente por el software (total palabras del texto-errores) y dividiéndolas por el tiempo que tomo en escanearel de documento. Un paquete exacto que corra despacio puede tener una mejor salida que uno rápido que cometa errores. En general, la exactitud es mas importante que la velocidad. TextBridge es excepcionalmente rápido y razonablemente exacto, y en la mayoría de los casos derrota a Ios otros tres paquetes en salida. Mientras OmniPage y WordSacan están casi empatados en exactitud, OmniPage es mas rápido, dando un mejor resultado en salida. Recognita es rápido pero comete muchos errores.



OFERTA DE PRODUCTOS



OmniPage Professional 6.0: US$695 Caere Corp

100 Cooper Court Los Gatos, CA 95030 Tel: (408) 395 7000 Fax: (408) 354 27-13

Recognita Plus 2.0 International: US$695 Recognita Corp. of América 1156 Aster Ay.. Suite F Sunnyvale, CA 94086

Tel: (408) 2 4 l 577 2 Fax: (408) 241 6009 TextBridge 2.0: US$99 Xcrox Imaging Systems 9 Centennial Dr. Peabody MA01960 Tel: (508) 977 2000 Fax: (508) 977 2435 WordScan Plus: US$595 Calera Reconition Systems 175 Potero Ave. Sunnyvale CA 94086

Tel: ( i08) 720 8300 Fax: (-i08) 720 1330

S la mayoría de los documentos que va a entrar a su computador son limpios (no son faxes o fotocopias de fotocopias o texto muy pequeño), la recomendación es obviamente TextBridge. pero si quiere un OCR que se desempeño en el mundo real, hay que meterse la mano al bolsillo y escoger OmniPage o Wo rdScan



SCANNERS



El software para OCR necesita para funcionar de un scanner. El scanner (sin traducción conocida al español) es el aparato que se utiliza para introducir imágenes y texto al computador. En realidad el texto sólo es reconocido corlo tal después de someterlo a un programa de OCR, Antes de esto es simplemente una imagen. La fidelidad con que estas imágenes son copiadas depende por supuesto de la calidad del scanner respectivo.

Como en todo, hay scanners para para calase de gusto. En general se considera que existen dos amplios grupos. Por una parte estan los scanners comerciales, con precios que van desde USS20.000 a USS60.000 y los de escritorio, cayos precios son bastante más bajos. Existe un tercer grupo, cuya calidad de "escaneado" es en general muy baja y son los scanners manuales, con precios que pueden estar por debajo de los US$200.

En cuanto al color, los scanners pueden estar orientados a capturar imágenes en blanco y negro, en escala de grises o en color. Para la aplicación especifica de OCR el scanner ideal era hasta hace paco el de escala de grises, por cuestiones de preció. Hace LIMOS tres años la diferencia de precios entre un scanner en color de 24 bits (capaz de capturar cualquier tonalidad) y un scanner de escala de grises era significativa. Sin embargo. las diferencias de precios entre scanners de escala de grises y de color se han estrechado a diferenciales de solo DE US$100 a US$200, lo cual ha hecho que muchos fabricantes desistan de seguir produciendo scanners monocromáticos, por lo cual aun si la aplicación a la cual va a dedicar el scanner es esencialmente OCR, lo más aconsejable

es un scanner en color. Para el uso de OCR. las características del scanner deberían comprender una alta resolución, rapidez en el escaneado y un alimentado automático de documentos. El HP Scanjet llcx tiene una opción llamada AccuPage, que asiste al software de OCR en el reconocimiento del texto y en la retención del formato de la página.



RESOLUCIÓN



Una medición clave de las capacidades de un scanner la da su resolución, de la cual hay dos tipos: la óptica y la interpolada. La resolución óptica es la "verdadera" resolución de los componentes ópticos del scanner. La resolución interpolada se alcanza añadiendo pixels (elementos gráficos) a una imagen, mediante un software que implementa un algoritmo. el cual interpola los valores de color de los pixels existentes, llenando los espacios entre ellos. La calidad de la resolución interpolada depende por lo tanto de la calidad del algoritmo. La resolución del scanner se describe típicamente en puntos por pulgada (dpi, 'dots per inch') y en líneas por pulgada (lpi 'linos per inch'). Aunque se asume generalmente que escancar una imagen a una resolución alta (más puntos por pulgada) produce resultados superiores esto no es necesariamente verdadero. La calidad de muchas imagenes no se mejora visiblemente cuando se escanea y se imprime a una alta resolución. Una alta resolución también exige grandes tamaños de archivó. Una imagen resuelta a 300 dpi que crea un archivo de 5MIB, puede ocupar 20MB de espacio en disco si se escanea a 600 dpi.

A continuación se evalúan 21 scanners de escritorio en color, ya que este tipo de aparatos es el que se considera actualmente apropiado para la aplicación de OCR, pensando en que usted quiera usarlo también para aplicaciones de captura de imágenes y no tenga que comprar otro.
¿Tiene algo que decir? Comente

Para comentar este artículo usted debe ser un usuario registrado.

EDICIÓN 531

PORTADA

La Bolsa de Valores necesita acciones urgentes

Con menos emisores, bajas rentabilidades y desbandada de personas naturales, la Bolsa busca recuperar su atractivo. Finca raíz, su nueva apuesta. ¿Será suficiente?