Система сбора информации с Интернет-источников
Система сбора информации с интернет-ресурсов предназначена для автоматического сбора информации из разнородных источников, преобразования её в единый структурированный вид и сохранения в базе данных.
Архитектура
Система состоит из нескольких отдельных компонентов (модулей), что позволяет гибко настраивать параметры сбора информации для баз данных различного структурного и информационного наполнения.
- Модуль скачивания - осуществляет скачивание веб-страниц и файлов в соответствии с заданием;
- Модули структурирования - преобразуют неструктурированные документы (HTML-страницы, документы MS Word, документы MS Excel и т.д.) в набор объектов в соответствии с шаблонами преобразования;
- Хранилище - база данных, в которой сохраняются результаты скачивания и преобразования;
- Планировщик - управляет процессом сбора данных: формирует задания на скачивание и обработку в соответствии с настройками;
Преимущества
- Гибкая настройка под решение сложных задач, богатые возможности по настройке шаблонов, позволяющие осуществлять преобразование скачанных документов в произвольную объектную модель;
- Отслеживание изменений в объектах и сохранение истории изменений и последующим анализом;
- Возможность интеграции в корпоративную информационную систему.
Области применения
- Мониторинг товаров и услуг;
- Исследования рынков;
Новости | |||||
|
Услуги STIKLER |
Цены на услуги
Стоимость услуг договорная.