Гиперспектральные технологии для анализа и восстановления архивных документов

Естественные процессы старения и воздействующие факторы различного происхождения приводят к ухудшению физического состояния архивных документов:

  • пожелтение и разрушение бумажной основы;
  • угасание текстов;
  • ослабевание контраста между фоном и текстом;
  • появление различного происхождения пятен и затеков.

Потенциальная долговечность текста на документах определяется:

  • физико-химическими свойствами;
  • контрастностью;
  • внешними воздействующими факторами.

Чем меньше контрастность при прочих равных условиях, тем ниже потенциальная долговечность.

Технические характеристики системы:

  • 224 спектральных канала;
  • спектральный диапазон 400…1000нм;
  • флуоресцентный анализ 365нм;
  • пространственное разрешение 60…300dpi;
  • размер образцов 420х600мм.


 

Восстановление и визуализация угасающих текстов

 Угасающие тексты архивных документов характеризуются:

  • низкой контрастностью,
  • малой насыщенностью цветового тона
  • повышенной светлотой.

Это приводит к затруднению читаемости, потере информативности и первоначального вида текста на документах.

Примеры архивных документов с угасающими текстами

Интерфейс специального программного обеспечения для автоматического восстановления угасающих текстов
 

Примеры восстановления архивных документов с угасающими текстами

Бесконтактный экспресс анализ микробиологического заражения документов

Интерфейс ПО для бесконтактного экспресс анализа микробиологического заражения документов

 

Алгоритм обнаружения плесневых грибов на архивных документах основан на получении гипекраспектральных изображений документов и дальнейшем анализе и обработке их с помощью методов машинного обучения и включает следующие этапы:

1) накладывание трафаретов на документ с маркировки мест для взятия проб;

2) получение гиперспектральных изображений образцов при двух видах освещения: видимого и УФ диапазонов;

3)  предварительная обработка признакового пространства с помощью разработанного ПО для выявления информационно значимых каналов, в основу которого заложен метод PCA;

 

4) проведение классического микробиологического анализа взятых проб с целью формирования обучающей выборки с помощью разработанного универсального ПО для обучения классификатора;

 

5) обнаружение микробиологического заражения с помощью сформированной выборки и разработанного тестового ПО для обнаружения микробиологии на основе методов машинного обучения: на основе метрики Махаланобиса и по методу опорных векторов.

Результаты оценивались с помощью матриц ошибок и критериев точности классификации: точность, специфичность и аккуратность.

Результаты классификации по критериям классификации

Анализируемые ситуации

Критерии оценки

ACC

TPR

TNR

Видимый. SVM. 224 признака

0,775

0,8

0,75

УФ SVM. 224 признака

0,95

0,9

1

УФ SVM. 5 признаков

0,875

0,85

0,9

Видимый. SVM. 3 признака

0,6

0,45

0,75

 

Сформирована уникальная база данных архивных документов из государственных архивов СПб: ЦГА СПб, ЦГИА СПб, ЦГАЛИ СПб, ЦГАНТД СПб, ЦГАИПД СПб: 250+ Гбайт данных с подробным описанием:

  • тип бумаги;
  • тип текста;
  • материал записи;
  • тип угасания текста;
  • тип внешних воздействующих факторов;
  • текучесть текста.