Лабораторна робота №1, Знайомство з GUI інтерфейсом бібліотеки data mining алгоритмів
Код роботи: 2495
Вид роботи: Лабораторна робота
Предмет: Інтелектуальний аналіз данних
Тема: №1, Знайомство з GUI інтерфейсом бібліотеки data mining алгоритмів
Кількість сторінок: 29
Дата виконання: 2017
Мова написання: українська
Ціна: 250 грн (+ програма)
Мета: Ознайомитися і одержати навички роботи GUI інтерфейсом бібліотеки data mining алгоритмів Xelopes
Завдання: Одержати інформацію про дані з файлів data.arff і data2.arff (ARFF - Attribute-Relation File Format) і побудувати для них задачі пошуку асоціативних правил, кластеризації і класифікації.
Загальні відомості
1.1. Введення
Xelopes вільно поширювана бібліотека, що забезпечує універсальну основу для стандартного доступу до алгоритмів data mining. Вона була розроблена німецькою компанією ProdSys в тісному співробітництві зі спеціалістами російської фірми ZSoft. Для зручної роботи із бібліотекою з нею поставляється GUI інтерфейс GUI Xelopes, реалізований у вигляді окремого додатку. Він дозволяє виконувати наступні основні функції:
- Завантажити дані представлені у вигляді текстового файлу формату arff і проглянути їх в табличному вигляді.
- Одержати інформацію про атрибути даних (полях таблиці)
- Одержати статичну інформацію про початкові дані:
- Побудувати модель data mining.
- Для асоціативних правил, дерев рішень і дейтограмм візуалізувати побудовану модель.
Зберегти модель і застосувати її надалі.
Розглянемо перераховані функції детальніше.
1.2. Завантаження і перегляд початкових даних
Для завантаження початкових даних необхідно відкрити діалог представлений на рис. 1. Це можна виконати або натисненням кнопки Open Mining Data на панелі інструментів або вибором пункту меню File | Open Mining Data. Крім того діалог відкривається при запуску програми.
Рис. 1 - Діалог завантаження початкових даних (в ОС Windows)
Використовуючи даний діалог необхідно вибрати текстовий файл з даними, представленими у форматі arff. Натиснення на кнопку Open приведе до завантаження даних з вибраного файлу.
Після завантаження даних на панелі інструментів стають доступними наступні кнопки:
View Input Data – відображення початкових даних;
Display Data Description – отримання інформації про атрибути початкових даних;
Display Descriptive Statistics – отримання статистичної інформації про початкові дані;
Build Mining Model – генерація mining моделі для завантажених початкових даних.
Для перегляду початкових даних в табличному вигляді необхідно натискувати кнопку View Input Data на панелі інструментів або вибрати пункт меню File | View Data Source. При цьому відкривається вікно представлене на рис. 2. В заголовку вікна відображається повний шлях до файлу, з якого були завантажені дані. Дані представляються у вигляді таблиці в якій рядки відповідають досліджуваним об'єктам, а колонки атрибутам, що характеризують їх. Над таблицею можна помітити інформацію про загальну кількість об'єктів (векторів) представлених в таблиці.
Рис. 2 - Початкові дані в табличному вигляді
1.3. Інформація про атрибути даних
Інтерфейс GUI Xelopes дозволяє одержати докладну інформацію про атрибути завантажених даних. Для цього необхідно натискувати на кнопку Display Data Description на панелі інструментів. Інформація представляється в діалоговому вікні Variables(рис 3). У верхній частині вікна виводиться назва даних (на малюнку це weather). В правій частині вікна представлений список атрибутів. В лівій частині інформація про вибраний атрибут залежно від його типу.
Рис. 3 - Інформація про категоріальний атрибут
У Xelopes розрізняють два основні типи атрибутів: категоріальний і числовий. Залежно від типу міняється і інформація про атрибут. Для будь-якого атрибуту виводиться його назва і тип.
Для категоріальних атрибутів (рис. 3) відображається інформація про значення, що приймаються ним (категоріях): кількості (Number categories) і списку значень (Categories). Якщо кількість категорій не обмежено, то буде наголошено на прапорі unbounded categories.
Рис. 4 - Інформація про числовий атрибут
Для числових атрибутів (рис. 4) відображається інформація про найбільше (Upper) і якнайменше (Lower) значення. Крім того залежно від властивостей атрибуту можуть бути встановлені наступні прапорці:
- Cyclic – якщо значення атрибуту циклічні (тобто може бути визначено поняття відстані)
- Discrete – якщо значеннями атрибуту є дискретні величини
- Time – якщо атрибут є часом.
1.4. Статистична інформація про дані
Для отримання статистичної інформації про дані необхідно натискувати кнопку Display Descriptive Statistics на панелі інструментів або вибрати пункт меню File | Statistics. В діалоговому вікні Statistics (рис. 5), що відкрилося, необхідно виконати налагодження інформації, що відображається.
Рис. 5 - Діалог налагоджень представлення статистичної інформації за початковими даними
Необхідно набудувати наступні параметри:
- Тип інформації, що відображається
- Атрибути, що відкладаються по осях X і У
- Мірна інформації, що відображається: в 2-х або 3-х мірному просторі.
Після налагоджень необхідних параметрів натисненням на кнопку ОК можна одержить статичну інформацію вибраного типу. Для налагодження представлених на рис. 5 буде відкрито діалогове вікно з інформацією зображене на рис 6.
Рис. 6 - Приклад статистичної інформації за початковими даними
Можна одержати наступні типи інформації:
- Кількість об'єктів (Item Count)
- Мінімальні (Minimal) і максимальні (Maximal) значення
- Межа (Range) значень
- Сума (Sum) значень
- Середнє значення (Mean) ін.
1.5. Побудова mining моделі
У результаті вживання методів data mining повинна бути побудована mining модель. Для цього необхідно натискувати кнопку Build Mining Model на панелі інструментів або вибрати пункт меню Model | Build. В результаті відкриється діалогове вікно, що пропонує побудувати один з типів моделі для завантажених раніше даних (рис. 7).
Рис. 7 - Типи моделей створюваних алгоритмами бібліотеки Xelopes
Для побудови доступні наступні моделі:
- асоціативні правила (Association Rules Mining Model);
- дерева рішень (Decision Tree Mining Model);
- математична залежність, побудована методом SVM (Support Vector Machine Mining Model);
- послідовності (Sequential Mining Model);
- модель сіквенціального аналізу (Customer Sequential Mining Model);
- кластерна модель, що розділяється (Partition Clustering Mining Model);
- центрована кластерна модель (CDBased Clustering Mining Model);
- ієрархічна кластерна модель (Hierarchical Clustering Mining Model).
Після вибору моделі, що будується, необхідно виконати: налагодження процесу побудови і алгоритм побудови (рис. 8). Налагодження процесу залежить від типу моделі, що будується, і виконуються на закладці Settings(Налагодження).
Рис. 8 - Приклад налагодження для побудови дерев рішень
Вибір алгоритму виконується на закладці Algorithm (алгоритм) (рис. 9). Список доступних для побудови моделі алгоритмів залежить від типу моделі. Крім того, для деяких алгоритмів необхідно виконати додаткове налагодження. При їх виборі в полі Algorithm Parameters з'являються поля для визначення специфічних для алгоритму налагоджень.
Рис. 9 - Приклад налагоджень алгоритму побудови дерев рішень
Для побудови моделі після виконання налагоджень необхідно натискувати на кнопку Build в діалоговому вікні. Після завершення побудови моделі з'явиться діалогове вікно (рис. 10), що пропонує виконати наступні дії:
- Візуалізувати модель (Browse Model)
- Застосувати модель (Apply Model)
- Показати модель у вигляді PMML (View PMML Presentation)
- Записати модель в PMML форматі (Save Model as PMML)
Для виконання перерахованих дій необхідно вибрати відповідну опцію і натискувати на кнопку Next. Крім того, після побудови моделі на панелі інструментів стають доступними відповідні кнопки.
Рис. 10 - Дії виконувані з побудованою моделлю
У даній версії GUI Xelopes візуалізуються тільки три види моделей:
- Асоціативні правила
- Дерева рішень
- Ієрархічна кластерна модель у вигляді дейтограмм.
Для решти моделей при спробі візуалізації відбувається відображення моделі у форматі PMML. Тобто для них дії Browse Model і View PMML Presentation матимуть однаковий результат.
1.7. Представлення моделі у форматі PMML
Для представлення моделі у форматі PMML необхідно натискувати кнопку View PMML Presentation на панелі інструментів або вибрати пункт меню Model | View PMML або вибрати опцію View PMML Presentationв діалоговому вікні представленому на рис. 10. В результаті буде відкрито вікно в якому буде представлена побудована модель у форматі PMML в текстовому вигляді (рис.11).
Рис. 11 - Представлення моделі в стандарті PMML форматі
Представлену модель можна зберегти натискуючи у відкритому вікні кнопку Save. Крім того, модель можна зберегти, натискуючи кнопку Save Model as PMML на панелі інструментів або вибравши пункт меню Model | Save або опцію Save Model as PMML в діалоговому вікні представленому на рис. 1.9.
1.8. Застосування моделі
Моделі класифікації і регресії, що будуються для задач, використовуються для передбачуваних цілей на нових даних. Отже, вони можуть бути застосовані до інших даних. Для цього необхідно натискувати кнопку Apply Model на панелі інструментів або вибравши пункт меню Model | Apply або опцію Apply Model в діалоговому вікні представленому на рис. 10. В результаті буде запропоновано вибрати файл з новими даними, записаними у форматі arff (буде відкрито діалогове вікно аналогічне представленому на рис. 1). Після вибору файлу і застосування побудованої моделі буде відображено вікно в якому нові дані будуть представлені в табличному вигляді (рис. 12).
Рис. 12 - Результат використання моделі до нових даних
У вікні, що відкрилося, у вигляді таблиці будуть представлені класифіковані дані. Як видно таблиця алогічна тій же, що представлена на рис. 2. Різниця полягає в новій колонці predicted_* класифікації, що описує результат (* - замінюється на атрибут класифікації). У вікні також виводиться інформація про ступінь помилки класифікації (Error rate).
Порядок виконання роботи
- Завантажити Borland Java Builder V.9
- Відкрити GUI інтерфейс бібліотеки Xelopes.
- Завантажити початкові дані з файлу data.arff.
- Проглянути завантажені дані.
- Проглянути інформацію про атрибути даних.
- Проглянути статистичну інформацію про дані.
- Побудувати модель Association Rules Mining Model.
- Візуалізувати побудовану модель.
- Переглянути і зберегти модель у форматі PMML.
- Виконати пункти 2-5 для даних з файлу data2.arff.
- Виконати пункти 6 - 8 для моделі Decision Tree Mining Model.
- Застосувати модель до даних з файлу data2.arff
- Виконати пункти 6 - 8 для моделі Hierarchical Clustering Mining Model.
Звіт по роботі
1. Титульний лист.
2. Мета роботи.
3. Дані з файлів DATA.arff і DATA2.arff
4. Інформація про атрибути даних з файлів DATA.arff і DATA2.arff
5. Статистична інформація за даними з файлів DATA.arff і DATA2.arff
6. Копії візуалізації моделей Association Rules Mining Model, Decision Tree Mining Model і Hierarchical Clustering Mining Model згідно стандарту.
7. Результат вживання моделі Decision Tree Mining Model до даних з файлу DATA2.arff
8. Висновки по роботі.
Контрольні питання
1. Яку статистичну інформацію можна одержати засобами GUI Xelopes.
2. Які існують типи атрибутів і їх характеристики.
3. Які mining моделі можна побудувати засобами GUI Xelopes.
4. Які існують mining моделі не реалізовані в GUI Xelopes.
5. Які дії можна виконати з моделлю.
6. Які моделі можуть бути застосовані до інших даних і чому.