구글이 인공지능 연구 그룹의 고도의 필기체 인식 기술 개발에 자금을 지원한다.
오픈 소스 프로젝트인 OC로퍼스(OCRopus)는
사람이 직접 쓴 글자를
텍스트 데이터로 변환하는 인식 시스템 개발,
전자도서관 구축 지원,
역사적 문서 분석,
시각 장애인이 정보화 지원 등을 목표로 하고 있다.
OCRopus의 「OCR」는
광학 캐릭터 인식(Optimal Character Recognition)을 나타내고 있다.
이 프로젝트는
독일의 카이저스타우테른에 위치한
독일 인공지능 연구센터(DFKI)의 IUPR(Image Understanding and Pattern Recognition)
연구 그룹이 지휘하고 있다.
책임자는 DFKI의 토마스 브뤼엘 교수이다.
브뤼엘 교수는 11일(미국시간) 구글 코드 블로그를 통해 이와 같이 밝혔다.
OC로퍼스는 구글 외에도
여러 독일 정부 기관 및 공공단체와 민간에서도 자금을 지원받고 있다.
OC로퍼스 팀에서는
3년 동안 박사 과정을 밟고 있거나 박사 과정을 수료한 3명을 지원할 예정이다.
IUPR 소프트웨어는 기본적으로 2가지 연구 프로젝트를 바탕으로 하고 있다.
하나는 미국 세무국에서 이용하기 위해
1990년대 중순에 개발된 필기체 인식 시스템이고
다른 하나는 비교적 새로운 글자 인식용의 배치 분석법이다.
이외의 연구 자원으로는
HP랩이 먼저 개발했으나
구글이 지난해 오픈소스 시스템으로 다시 선보인
역사적인 광학 글자 인식 엔진인 유서 깊은 광학 글자 인식 엔진
테서렉트(Tesseract) 등이 있다.
OC로퍼스 시스템의 프리뷰판은
OC로퍼스 프로젝트의 웹 사이트에서 아파치 라이선스로 공개되고 있다.
IUPR의 목표는
OC로퍼스 시스템용 데스크톱 애플리케이션 개발,
써드파티 툴 추가,
다언어 대응 등이다.
현재 OC로퍼스는 영어만 가능하다. @
Google is sponsoring an artificial-intelligence research group's work
to develop advanced technologies for character recognition.
The open-source project, called Ocropus, has several goals,
including developing a high-level, easy-to-use handwriting recognition system
that can convert handwritten documents to computer text,
assisting in the creation of electronic libraries,
analyzing historical documents
and helping vision-impaired people access information.
The "ocr" in Ocropus stands for optimal character recognition.
The project is headquartered
at the Image Understanding and Pattern Recognition (IUPR) research group
at the German Research Center for Artificial Intelligence (DFKI)
in Kaiserslautern, Germany.
DFKI Professor Thomas Breuel is leading the project.
Breuel made the announcement on Monday through a post on the Google Code blog.
In addition to Google's sponsorship,
Ocropus is getting funds from several German government agencies
and other public and private entities.
The Ocropus team expects the project to last three years,
and it will support three Ph.D. students or postdoctoral students.
IUPR is basing the software primarily on two research projects:
one, a handwriting recognition system
developed in the mid-1990s for use by the U.S. Census Bureau;
and two, newer layout analysis methods for character recognition.
Other resources include Tesseract,
a decades-old engine for optimal character recognition
originally developed by Hewlett-Packard Labs
and re-released by Google last year as an open-source system.
A preview of the Ocropus system is available on the project's Web site
under an Apache license,
and the IUPR is soliciting open-source contributions
in order to complete a number of goals.
These include creating a desktop application for the system,
adding third-party tools and adapting Ocropus to a variety of languages.
It's currently English-only.
댓글 없음:
댓글 쓰기