Стартовые предложения работ для внешних участников проекта "Cuneiform - OpenSourceOCR"

23 июня 2008 г.

"Cognitive Technologies" предлагает всем желающим участвовать в проекте "Cuneiform - OpenSource OCR" десять направлений деятельности на выбор:
- технология пакетного распознавания
- технология оцифровки книг
- технология распознавания языков
- компонент распознавания фрагмента текста
- расширение функциональности
- многоплатформенность
- повышение качества распознавания
- продуктизация
- система контроля качества
- продвижение технологии Cuneiform

Хотелось бы подробнее прокомментировать следующие три пункта:
Технология пакетного распознавания - не секрет, что интерфейс Cuneiform уже устарел не только с точки зрения дизайна и реализации тех или иных элементов, но и с точки зрения самой метафоры распознавания одной и только одной страницы. По этому, мы хотели бы предложить вам принять участие в создании нового интерфейса системы распознавания нацеленного на возможность обработки как одно, так и много страничных документов.

Технология оцифровки книг - часто в рамках одного документа характеристики текста являются в некотором роде однородными, например язык, тип шрифта, такую неизменность чаше всего можно наблюдать в книгах. Опираясь на априорную однородность этих характеристик можно существенно повысить качество распознавания за счет использования специальных алгоритмов базирующихся на сборе статистике по всему документу.

Компонент распознавания фрагмента текста
- исследуя код ядра распознавания, вы могли видеть, что он достаточно сложен, и не всегда достаточно, структурирован, и для внесения правок часто необходимо доскональное знание не только исправляемой системы, но многих других подсистем, при этом не всегда очевидно каких именно подсистем. В рамках этого направления работ мы хотим провести реструктуризацию части архитектуры и исходного кода системы с целью упрощения развития системы распознавания фрагмента текста.

I. Технология потокового распознавания.
1. Создание интерфейса пакетного:
- сканирования
- разметки
2. Создание интерфейса пакетного просмотра качества сканирования
3. Создание интерфейса пакетного просмотра и коррекции:
- разметки
- распознавания


II. Технология оцифровки книг.

1. Создание интерфейса пакетного:
- предварительного изолированного распознавания страниц
- финального группового распознавания страниц (в предположении однородности материала)
2. Реализация функционала:
- сбора статистики предварительного распознавания
- использования статистики при финальном распознавании


III. Технология распознавания языков.

5. Унификация технологии распознавания:
- языков с латинским алфавитом
- языков с кириллическим алфавитом
- двуязычных текстов
6. Описание методологии добавления нового языка распознавания.
7. Реализация распознавания всех языков с латинским или кириллическим шрифтом, для которых существует значительный объём печатной продукции.
8. Создание технологии распознавания искусственных языков с пользовательскими алфавитом и словарём.


IV. Компонент распознавания фрагмента текста.

9. Выделение сервисного компонента ядра <Сервис>. Это означает фиксацию набора библиотек контейнеров, конверторов и утилит ядра распознавания, используемых как внутри, так и вне распознавания выделенного печатного фрагмента.
10. Выделение компонента распознавания символа <Символ>. Это означает:
- фиксацию набора библиотек распознавания символа, не входящих в компонент "Сервис" и не имеющих функционала, не связанного с распознаванием символа (часть библиотек, вызываемых из LEO)
- организацию всех вызовов функций распознавания символа через диспетчер распознавания символа LEO
- перенос в LEO функционала распознавания символа из библиотек, не относящихся к компоненту <Символ> (RSTR)
11. Выделение компонента распознавания строки <Строка>. Это означает:
- фиксацию набора библиотек распознавания строки, не входящих в компоненты "Сервис" и <Символ> и не имеющих функционала, не связанного с распознаванием строки (это часть набора rkcomponent и библиотека rreccom)
- создание библиотеки диспетчера распознавания RecString и организацию всех вызовов функций распознавания строки через него
- перенос в RecString функционала распознавания строки из библиотек, не относящихся к компоненту <Строка> (RSTR)
- реализацию и\или перенос внутрь компонента функционала формирования строки по её прямоугольнику.
12. Выделение компонента распознавания фрагмента <Фрагмент>. Это означает:
- фиксацию набора библиотек распознавания фрагмента, не входящих в компоненты "Сервис", <Символ> и <Строка> и не имеющих функционала, не связанного с распознаванием строки (это часть набора rkcomponent и библиотека rselstr)
- создание библиотеки диспетчера распознавания RecFrag и организацию всех вызовов функций распознавания колонки через него
- перенос в RecString функционала распознавания фрагмента из библиотек, не относящихся к компоненту <Фрагмент>. (Puma)


V. Расширение функциональности.

13. Автоматическое определение области распознавания.
14. Автоматическое определение ориентации страницы.
15. Автоматическое определение сдвоенных страниц.
16. Автоматическое определение вертикальных текстовых фрагментов.
17. Распознавание индексов и сносок.
18. Создание отчуждённого модуля показа и коррекции результатов распознавания, совмещённого с изображением (на базе MS Word).

VI. Многоплатформенность.

19. Портирование Cuneiform под семейство OS Linux.
20. Адаптация Cuneiform к MS Vista.

VII. Повышение качества распознавания.

21. Создание детектора крупного сверх жирного шрифта.
22. Создание модуля распознавания крупного сверх жирного шрифта.
23. Создание и встраивание модуля частотной коррекции по триадам.

VIII. Продуктизация.

24. Для всех библиотек ядра (в первую очередь для подозрительных - rblock, rcutp, rneg, rselstr, rstr):
- Вычистка кода.
- Приведение кода к проектному стандарту оформления (отдельный документ).
- Документирование.
25. Выявление и ликвидация утечек ресурсов при работе программы.
26. Выявление и исправление аварий при работе программы.
27. Создание нового интерфейса головной аппликация универсальной системы распознавания.
28. Создание нового компонента показа и редактирования разметки страницы.

IX. Система контроля качества.

29. Создание первичного стендового материала:
- отсканированные книги
- отсканированные печатные материалы на разных языках
30. Изготовление идеальных электронных документов по их изображениям.
31. Создание системы отладки форматирования.
32. Создание модуля генерации изображения для электронного документа (форматов RTF, TXT).

X. Продвижение технологии Cuneiform.

33. Участие в обсуждениях на форуме <Клуба любителей Cuneiform>.
34. Перевод на иностранные языки файлов ресурсов, документации к модулям и проектных документов.
35. Организация групп технической поддержки в регионах РФ, СНГ и ЕС.
36. Публикации в СМИ информации по проекту.

home page

|

e-mail

|