Гиперспектральные технологии для анализа и восстановления архивных документов
Естественные процессы старения и воздействующие факторы различного происхождения приводят к ухудшению физического состояния архивных документов:
- пожелтение и разрушение бумажной основы;
- угасание текстов;
- ослабевание контраста между фоном и текстом;
- появление различного происхождения пятен и затеков.
Потенциальная долговечность текста на документах определяется:
- физико-химическими свойствами;
- контрастностью;
- внешними воздействующими факторами.
Чем меньше контрастность при прочих равных условиях, тем ниже потенциальная долговечность.
Технические характеристики системы:
- 224 спектральных канала;
- спектральный диапазон 400…1000нм;
- флуоресцентный анализ 365нм;
- пространственное разрешение 60…300dpi;
- размер образцов 420х600мм.
Восстановление и визуализация угасающих текстов
Угасающие тексты архивных документов характеризуются:
- низкой контрастностью,
- малой насыщенностью цветового тона
- повышенной светлотой.
Это приводит к затруднению читаемости, потере информативности и первоначального вида текста на документах.
Примеры архивных документов с угасающими текстами
Интерфейс специального программного обеспечения для автоматического восстановления угасающих текстов
Примеры восстановления архивных документов с угасающими текстами
Бесконтактный экспресс анализ микробиологического заражения документов
Интерфейс ПО для бесконтактного экспресс анализа микробиологического заражения документов
Алгоритм обнаружения плесневых грибов на архивных документах основан на получении гипекраспектральных изображений документов и дальнейшем анализе и обработке их с помощью методов машинного обучения и включает следующие этапы:
1) накладывание трафаретов на документ с маркировки мест для взятия проб;
2) получение гиперспектральных изображений образцов при двух видах освещения: видимого и УФ диапазонов;
3) предварительная обработка признакового пространства с помощью разработанного ПО для выявления информационно значимых каналов, в основу которого заложен метод PCA;
4) проведение классического микробиологического анализа взятых проб с целью формирования обучающей выборки с помощью разработанного универсального ПО для обучения классификатора;
5) обнаружение микробиологического заражения с помощью сформированной выборки и разработанного тестового ПО для обнаружения микробиологии на основе методов машинного обучения: на основе метрики Махаланобиса и по методу опорных векторов.
Результаты оценивались с помощью матриц ошибок и критериев точности классификации: точность, специфичность и аккуратность.
Результаты классификации по критериям классификации
Анализируемые ситуации |
Критерии оценки |
||
ACC |
TPR |
TNR |
|
Видимый. SVM. 224 признака |
0,775 |
0,8 |
0,75 |
УФ SVM. 224 признака |
0,95 |
0,9 |
1 |
УФ SVM. 5 признаков |
0,875 |
0,85 |
0,9 |
Видимый. SVM. 3 признака |
0,6 |
0,45 |
0,75 |
Сформирована уникальная база данных архивных документов из государственных архивов СПб: ЦГА СПб, ЦГИА СПб, ЦГАЛИ СПб, ЦГАНТД СПб, ЦГАИПД СПб: 250+ Гбайт данных с подробным описанием:
- тип бумаги;
- тип текста;
- материал записи;
- тип угасания текста;
- тип внешних воздействующих факторов;
- текучесть текста.