Захват данных Данные могут быть захвачены вручную ECM систем от: Бумажные документы, которые могут быть либо проверены на их изображений, или для существенные детали в пределах содержания документа, который будет переписана в электронный ввод данных форме электронных офисных документов, таких как переписка, таблицы, презентации, и т.д.
создана изначально в электронном виде электронных писем, отправленных или полученных мультимедийных объектов, как аудио или видео контента, анимации и интерактивности микрофильмов Данные также могут быть организованы, чтобы быть захвачены автоматически EDI или XML документов, ERP приложений, и другие линии бизнес-приложения, такие как бухгалтерский учет или CAD. Автоматизированные интерфейсы могут быть построены с этих источников. Предварительная обработка отсканированных документов и цифровых факсы не читаемый текст.
Чтобы преобразовать их в машиночитаемых символов, используются различные технологии распознавания символов. В настоящее время, к ним относятся: оптическое распознавание символов - OCR - для преобразования типизированных образов документов в текстовые документы с Читаемый и символов Признание Рукописные Характер - HCR - используется для преобразования почерк или надписи в текстовых символов. Технология еще не доведена до совершенства оптических Отметить признание - OMR - использовать для чтения маркировки в флажками и других предопределенных полей в формах и т.д.
Стандартизированные штрих-кодов, что позволяет извлечение информации с использованием штрих-кодов читателей Оба OCR и HCR были постоянно совершенствуется с помощью Особенности искусственного интеллекта, таких как сравнение, логика, и библиографических списков. Методы Документ-изображений поможет улучшить качество отсканированных изображений путем повышения разборчивости и корректировки изображений, которые были захвачены в неловкое угол. ЭСУД может понять данные, полученные с помощью внешних форм, если система захвата знает структуру и логику форм.
Объединение и индексирования систем управления контентом Enterprise Content захвата в различных форматах из различных источников. Содержание затем агрегируются и индексируются таким образом, что он может быть и