Главная > Data Mining, Open Source, Разное > IBM Unstructured Information Modeler — инструментарий для исследования данных.

IBM Unstructured Information Modeler — инструментарий для исследования данных.

27 октября 2007

Мы продолжаем знакомить читателей с интересными и инновационными разработками от компании IBM. Тамошние специалисты давно занимаются различными вопросами исследования массивов текстовой информации, а также смежными проблемами - индексации, извлечение данных и из неструктурированных хранилищ, автоматическая классификация и категоризация и т.п. Часть из этих работ находит вполне осязаемое применение, в частности, в пакетах OmniFind, СУБД DB2 Viper и других. Сегодняшняя разработка ещё не коммерческая, и пока предназначена для исследователей и учёных, разработчиков систем хранения и поиска данных, систем анализа и извлечения - в общем, для всех, кто имеет отношение к обработке текстовой информации, которая ещё "не разложена по полочкам" (такое направление ещё называется data mining).

Программа Unstructured Information Modeler, исходя из названия, представляет собой утилиту для анализа неструктурированных массивов текстовых данных, к примеру, анализа логов обращения в службу технической поддержки (более точно - создание таксономии). Пакет позволяет автоматизировать процесс классификации данных и распределение по категориям всех поступающих данных.

Он может применяться как пост-фактум, формируя классификацию уже существующих массивов данных, так и работать с паре с реал-тайм системами, помогая распределять новую поступающую информацию, используя правила классификации, полученные из предыдущих данных. Пользователь получает по окончанию процесса отчёт и готовый "движок" для классификации новых данных, кроме этого, утилита может проводить анализ исходя из временных периодов, например за сутки, неделю или месяц и показывать корреляцию данных.

Утилита написана на языке Java, и её можно без проблем загрузить с сайта IBM alphaWorks, правда пока ограничение на данные, которые подвергаются анализу - их количество может быть от 1000 до 10 000 элементов, каждый из которых может состоять из не менее одного и не более 20 частей неструктурированного текста. Дополнительно, у элемента могут быть метаданные, к примеру дата создания и другие, определяемые пользователем, что может учитываться при категоризации.

В текущей, альфа-версии, программа не умеет сама извлекать данные, они должны быть предварительно подготовлены и представленные в виде одного файла (text.dat в директории с ПО), где в каждой строке описан один элемент массива данных. Если для элементов нужно учитывать дату, она описывается отдельным файлом, dates.dat, где построчно указаны даты соответствующих строк данных из файла text.dat. Так же поступают и со всеми дополнительными пользовательскими категориями - они описываются в отдельных *.dat файлах и связаны между собой номерами строк. В принципе, очень просто написать скрипт, который будет готовить данные для анализа, получая их из любой базы данных, сами авторы в описании дают алгоритм подготовки данных, извлечённых из Excel-таблиц (думаю, OpenOffice Calc тоже вполне справиться с работой). Для анализа программа строит словарь данных (который можно и предварительно самому создать и указать использовать).

Полного описания программы мы не будем давать, скажу честно, область её применения довольно специфическая, и освоение требует специальных знаний и понимая процессов, которые там происходят. Но в то же время разобраться самому не так и сложно. В будущем утилита будет развиваться и дальше, вполне реально, что она станет частью большого комплекса по анализу и обработке информации, отдельные элементы которого разрабатываются и тестируются в различных лабораториях IBM. Для реального применения она ещё не готова, но для различных экспериментов и исследований, к примеру, в ВУЗ-ах, вполне применима.

Комментирование отключено.
Developers.org.ua