Аналіз даних та моделювання взаємозв'язку в R. R-аналіз, або прийнятність критеріальних підходів Після закінчення навчання Ви будете вміти у програмі R

Random Forest – один із моїх улюблених алгоритмів data mining. По-перше він неймовірно універсальний, з його допомогою можна вирішувати як завдання регресії, так і класифікації. Проводити пошук аномалій та відбір предикторів. По-друге, це той алгоритм, який дійсно складно застосувати неправильно. Просто тому, що на відміну від інших алгоритмів у нього мало параметрів, що настроюються. І ще він напрочуд простий за своєю суттю. І в той же час він вирізняється дивовижною точністю.

У чому ж ідея такого чудового алгоритму? Ідея проста: припустимо, у нас є якийсь дуже слабкий алгоритм, скажімо, . Якщо ми зробимо дуже багато різних моделей з використанням цього слабкого алгоритму і середнім результатом їх передбачень, то підсумковий результат буде істотно кращим. Це так зване навчання ансамблю в дії. Алгоритм Random Forest тому і називається "Випадковий Ліс", для отриманих даних він створює безліч дерев ухвалення рішень і потім усереднює результат їх пророцтв. Важливим моментомТут є елемент випадковості у створенні кожного дерева. Адже зрозуміло, що якщо ми створимо багато однакових дерев, то результат їх усереднення матиме точність одного дерева.

Як він працює? Припустимо, ми маємо деякі дані на вході. Кожна колонка відповідає деякому параметру, кожен рядок відповідає деякому елементу даних.

Ми можемо вибрати випадковим чином з усього набору даних кілька стовпців і рядків і побудувати по них дерево прийняття рішень.


Thursday, May 10, 2012

Thursday, January 12, 2012


Ось, власне, і все. 17-ти годинний переліт позаду, Росія залишилася за океаном. А у вікно затишної двох спальної квартири на нас дивиться Сан-Франциско, знаменита Кремнієва долина, Каліфорнія, США. Так, це і є та сама причина, через яку я практично не писав останнім часом. Ми переїхали.

Все це почалося ще у квітні 2011 року, коли я проходив телефонне інтерв'ю у компанії Zynga. Тоді це все здавалося якоюсь грою, яка не має відношення до реальності, і я й уявити не міг, у що це виллється. У червні 2011 року Zynga приїхали до Москви і провели серію співбесід, розглядалося близько 60 кандидатів, які пройшли телефонне інтерв'ю, і з них було відібрано близько 15 осіб (точне число не знаю, хтось потім передумав, хтось відразу відмовився). Інтерв'ю виявилося несподівано простим. Ні тобі завдань на програмування, ні хитромудрих питань про форму люків, в основному перевірялися можливості базікати. А знання, як на мене, оцінювалися лише поверхово.

А далі почалася тяганина. Спочатку ми чекали на результати, потім офера, потім схвалення LCA, потім схвалення петиції на візу, потім документи зі США, потім чергу в посольстві, потім додаткову перевірку, потім візу. Часом мені здавалося, що я готовий все кинути та забити. Часом я сумнівався, а чи потрібна нам ця Америка і в Росії не погано. Весь процес зайняв близько півроку, в результаті, в середині грудня ми отримали візи і почали готуватися до від'їзду.

У понеділок був перший робочий день на новому місці. В офісі створені всі умови для того, щоб не тільки працювати, а й жити. Сніданки, обіди та вечері від власних кухарів, купа різноманітної їжі, розпханої по всіх куточках, спортзал, масаж і навіть перукар. Все це безкоштовно для співробітників. Багато хто добирається на роботу на велосипеді і для зберігання транспорту обладнано кілька кімнат. Загалом нічого подібного в Росії мені зустрічати не доводилося. Усьому, однак, є своя ціна, одразу ж попередили, що працювати доведеться багато. Що таке "багато", за їхніми мірками, мені не дуже зрозуміло.

Сподіваюся, однак, що незважаючи на кількість роботи, в найближчому майбутньому зможу відновити ведення блогу і, можливо, розповім щось про американське життя і роботу програмістом в Америці. Поживемо побачимо. А поки що, вітаю всіх з новим роком і різдвом і до нових зустрічей!


Наприклад використання, роздрукуємо дивідендну дохідність російських фірм. Як базова ціна, беремо ціну закриття акції в день закриття реєстру. Чомусь на сайті трійки цієї інформації немає, адже вона набагато цікавіша за абсолютні величини дивідендів.
Увага! Код виконується досить довго, т.к. для кожної акції потрібно зробити запит на сервер finam і отримати її вартість.

Result<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( try(( quotes<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0) (dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Аналогічно можна збудувати статистику для минулих років.

Аналіз даних у середовищі R

Інститут обчислювальної математики та інформаційних технологій, кафедра аналізу даних та дослідження операцій


Напрямок
: 01.03.02 "Прикладна математика та інформатика. Системне програмування" (бакалавріат, 3 курс)

Дисципліна: "Аналіз даних у середовищі R"

Навчальний план: "Очне навчання, 2017 р."

Кількість годин: 90 (у тому числі: лекції – 18, лабораторні заняття – 36, самостійна робота – 36); форма контролю – залік.

Напрямок: 38.03.05 "Бізнес інформатика" (бакалавріат, 4 курс)

Дисципліна: "Аналіз даних"

Навчальний план: "Очне навчання, 2018 р."

Кількість годин: 78 (у тому числі: лекції – 18, лабораторні заняття – 36, самостійна робота – 24); форма контролю – залік.


Ключові слова
: Data Mining, Machine Learning, regression, classification, clusterization, support vector, SVM, artificial neutron, neural network, recommendation system, аналіз даних, машинне навчання, модель, вибірка, змінна відгуки, навчання вибірки, перенавчання вибірки, навчання з учителем, навчання без вчителя, пакет R, мова програмування R, статистика, випадкова величина, с.в., закон розподілу, нормальний розподіл, вибірка, статистика, метод максимальної правдоподібності, розподіл Хі-квадрат, розподіл Стьюдента, розподіл Фішера, гіпотеза , рівень значущості, помилки першого і другого роду, порівняння вибірок, критерії згоди, таблиця сполученості ознак, кореляція, регресія, лінійна регресія, нелінійна регресія, фактор, предиктор, однофакторна регресія, множинна регресія, класифікація, рег, підхід, наївний Байєс, метод опорних векторів, що розділяє г іперплощина, дерева рішень, нейронна мережа, нейрон, функція активації, рекомендаційна система, кластеризація, функціонал якості.

Теми: 1. Середовище розробки R: відомості з історії. встановлення та запуск пакету. 2. Програмуємо у R. перші кроки. 3. Побудова графіків серед R. 4. Введення даних і з файлами серед R. 4.1. Робота з одновимірними масивами даних. 4.2. Робота з матрицями та таблицями даних. 5. Перевірка статистичних гіпотез серед R. 5.1. Перевірка гіпотези про закон розподілу ймовірностей довільної величини (критерій Хі-квадрат Пірсона). 5.2. Перевірка гіпотези про незалежність ознак із якісним угрупованням (критерій Хі-квадрат Пірсона). 5.3. Перевірка гіпотези про рівність математичних очікувань нормальних генеральних сукупностей (критерій Стьюдента). 5.4. Перевірка гіпотези про рівність дисперсії нормальних генеральних сукупностей (критерій Фішера). 6. Завдання побудови моделі однофакторної лінійної регресії. Прогнозування. 7. Завдання багатожественної лінійної регресії. 7.1. Завдання однофакторної лінійної регресії як окремий випадок множинної регресії. 7.2. Дослідження залежності змінної відгуку від фактора в регресійній моделі. 8. Завдання класифікації, підходи до її вирішення. 8.1. Логістична регресія. 8.2. Лінійний дискримінантний аналіз. 8.3. Дерева рішень - принцип "поділяй і владарюй" ("divide and con-quer"). 9. Нейронні мережі (neural networks) та їх застосування у машинному навчанні. 10. Опорні вектори, метод опорних векторів ("support vector machines", SVM) у машинному навчанні. 11. Рекомендаційні системи ("recommendation system"), їх призначення, побудова, застосування. 12. Спеціальні завдання машинного навчання.


Дата початку експлуатації: 1 вересня 2014 року
  • Міссаров Мукадас Дмухтасібович, зав. кафедрою аналізу даних та дослідження операцій КФУ, д.ф.-м.н., професор, email: [email protected]
  • Кашина Ольга Андріївна, к.ф.-м.н., доцент кафедри аналізу даних та дослідження операцій, email: [email protected]

Цільпроведення тренінгу «Аналіз даних та моделювання взаємозв'язку в пакеті R» –вивчити базові можливості програми R – безкоштовної мови програмування щодо статистичних обчислень, і навіть навчитися організовувати введення даних і керувати ними, проводити первинний статистичний аналіз даних, представляти в графічному вигляді, вміти знаходити взаємозв'язку у даних. Навчання розраховане на слухачів без досвіду роботи у R або з початковими знаннями пакета.

Слухачам бажано мати навички програмування та бути знайомим із основами статистичного аналізу.

Після закінчення навчання Ви будете вміти у програмі R:

  • Правильно формувати вибірку даних для аналізу
  • Організовувати введення даних та керувати даними
  • Виконувати описовий статистичний аналіз
  • Вивчати взаємозв'язок у таблицях сполученості
  • Перевіряти статистичні гіпотези про рівність середніх
  • Використати графічні можливості
  • Проводити кореляційний аналіз
  • Проводити регресійний аналіз
  • Проводити дисперсійний аналіз

Тривалість тренінгу: 32 ак. або 4 дні.

Програма навчання:

Тема 1. Основні поняття статистичного аналізу даних – 2 ак.

  • Статистичне дослідження
  • Способи отримання даних
  • Відмінність спостереження від експерименту
  • Генеральна сукупність та вибірка
  • Вимоги до даних при формуванні вибірки
  • Поняття точкової та інтервальної статистичної оцінки
  • Ознаки та змінні
  • Шкали вимірювання змінних
  • Напрями аналіз статистичних даних
  • Описова та аналітична статистика
  • Вибір методів статистичного аналізу в залежності від шкал вимірювання змінних
  • Статистична гіпотеза
  • Види статистичних помилок
  • Принципи перевірки статистичних гіпотез
  • Вибір рівня значущості під час перевірки гіпотез

Тема 2. Введення у роботу серед R – 2 ак.ч.

  • Особливості роботи з R
  • Встановлення програми
  • Запуск програми
  • Середа R
  • Інтерфейс командного рядка та діалогових вікон
  • Правила завдання команд
  • Створення робочої директорії
  • Пакети
  • Графічні інтерфейси
  • R як калькулятор
  • Довідкова система

Тема 3. Основи програмування у R – 2 ак.ч.

  • Види об'єктів у R
  • Вектор
  • Списки
  • Матриці
  • Чинники
  • Таблиці даних
  • Вирази
  • Оператори доступу до даних
  • Функції та аргументи
  • Цикли та умовні оператори
  • Управління базами даних у R
  • Векторизація операцій
  • Налагодження
  • Об'єктно-орієнтоване програмування

Тема 4. Введення та організація даних у R – 2 ак.ч.

  • Способи завантаження даних
  • Безпосереднє введення даних
  • Введення даних у таблиці
  • Імпорт даних із MS Excel
  • Імпорт даних з інших статистичних пакетів та баз даних
  • Збереження результатів аналізу
  • Завдання кількісних даних
  • Завдання порядкових та номінальних даних
  • Завдання пропущених значень даних
  • Виявлення викидів та помилок
  • Принципи перетворення даних

Тема 5. Графічні можливості R – 2 ак.

  • Графічні функції
  • Графічні пристрої
  • Графічні параметри
  • Інтерактивна графіка
  • Складові зображення
  • Пристрої виведення

Тема 6. Описовий статистичний аналіз у R – 4 ак.

  • Статистики центральної тенденції
  • Середня арифметична
  • Модальне значення
  • Медіанне значення
  • Статистики розкиду
  • Дисперсія та стандартне відхилення
  • Коефіцієнт варіації
  • Відсотки
  • Гістограми
  • Скринькові діаграми
  • Z-перетворення
  • Нормальний закон розподілу
  • Асиметрія та ексцес
  • Перевірка розподілу на нормальність
  • Деякі закони розподілу
  • Біноміальний розподіл
  • Розподіл Пуассона
  • Рівномірний розподіл
  • Експонентний розподіл
  • Логнормальний розподіл
  • Стандартна помилка та інтервал для середньої

Тема 7. Формування даних для аналізу вибірковим методом – 2 ак.

  • Генеральна та вибіркова сукупність
  • Характеристики вибірки
  • Особливості вибіркового методу дослідження
  • Класифікація вибірок
  • Види та методи ймовірнісного відбору
  • Способи формування вибірок
  • Простий випадковий відбір
  • Систематичний випадковий відбір
  • Кластерний відбір
  • Одноступінчастий кластерний відбір
  • Багатоступінчастий кластерний відбір
  • Алгоритм проведення вибіркових обстежень
  • Визначення необхідного обсягу вибірки

Тема 8. Статистичні тести виявлення відмінностей у вибірках R – 4 ак.ч.

  • Гіпотези про порівняння середніх
  • Z-критерій для порівняння середніх
  • Z-критерій для порівняння часток
  • Одновиброчний t-критерій
  • T-критерій для незалежних вибірок
  • T-критерій для залежних вибірок
  • Умови застосування непараметричних критеріїв
  • Одновибірковий критерій знакових рангів Вілкоксону
  • Критерій Манна-Уітні
  • Критерій знаків для пов'язаних вибірок
  • Критерій знаків Вілкоксону для пов'язаних вибірок
  • Непараметричний дисперсійний аналіз Крускала-Уолліса
  • Критерій Фрідмана для залежних вибірок

Тема 9. Оцінка взаємозв'язку між змінними R – 4 ак.ч.

  • Аналіз взаємозв'язку між категоріальними змінними
  • Таблиці сполученості
  • Очікувані частоти та залишки в таблицях сполученості
  • Критерій хі-квадрат
  • Критерій згоди
  • Класифікація видів взаємозв'язку між кількісними змінними
  • Діаграми розсіювання
  • Передумови та умови проведення кореляційного аналізу
  • Коефіцієнт кореляції Пірсона
  • Рангові коефіцієнти кореляції
  • Коефіцієнт кореляції Спірмена
  • Перевірка значущості зв'язку
  • Інтервальні оцінки коефіцієнтів кореляції
  • Приватні коефіцієнти кореляції

Тема 10. Моделювання форми зв'язку за допомогою регресійного аналізу у R-4 ак.

  • Основні поняття регресійного аналізу
  • Парна та множинна лінійна модель регресії
  • Передумови лінійного регресійного аналізу
  • Оцінка коефіцієнтів регресії
  • Перевірка обґрунтованості моделі регресії
  • Значущість рівняння регресії
  • Значимість коефіцієнтів регресії
  • Відбір змінних у регресійному аналізі
  • Оцінка точності рівняння регресії
  • Оцінка статистичної стійкості рівняння регресії
  • Точкова та інтервальна оцінка залежної змінної
  • Нелінійні регресійні моделі
  • Категоріальні незалежні змінні у моделі регресії

Тема 11. Моделювання взаємозв'язку за допомогою дисперсійного аналізу у R-4 ак.

  • Моделі дисперсійного аналізу
  • Передумови застосування дисперсійного аналізу
  • Перевірка гіпотези про рівність дисперсій
  • Модель однофакторного дисперсійного аналізу
  • Таблиця однофакторного дисперсійного аналізу
  • Оцінка ступеня впливу фактора
  • Апостеріорні критерії парних порівнянь
  • Дисперсійний аналіз із двома та більше факторами
  • Таблиця двофакторного дисперсійного аналізу із взаємодією
  • Графічна інтерпретація взаємодії факторів
  • Аналіз багатофакторної моделі

Припустимо, у вас є великий набір тверджень (напр., «людина — це звучить гордо», «всі люди — сестри», «худий світ кращий за добрі сварки» тощо), своє ставлення до яких респонденти оцінювали за однаковим шаблоном (напр. ., «згоден / не знаю / не згоден»). Можна, звичайно, у статті дати таблички по кожному пункту, але можна спробувати знайти щось, що об'єднує одну частину пунктів у більш загальну категорію, іншу — ще одну категорію (безумовно, може виявитися і так, що ваші твердження нічого не об'єднує) ). Факторний аналіз – це один із інструментів, який дозволяє знайти це спільне, якщо воно там, звичайно, є.

Говорячи суворо, якщо оцінки двох і більше пунктів корелюють між собою, то логічно припустити, що ця кореляція вказує на певний загальний фактор (наприклад, високі оцінки у школярів з алгебри та високі оцінки з геометрії швидше за все будуть зустрічатися одночасно і вказувати на гарне абстрактне мислення та розвинену логіку). Факторний аналіз допомагає знайти ці зв'язки в масиві даних.

Це одночасно сильне та слабке місце. Сильне тому, що великий масив даних спрощується та його легше аналізувати. А слабке тому, що сильна кореляція, як відомо, не вказує на причинність і реальні зв'язки — комп'ютер покаже вам щось, але це означає, наскільки знахідка розумна і правдоподібна, судити тільки вам. Як написано в одній розумній книзі "to interpret the factors, which is more like voodoo than science".

Проте перейдемо, наприклад.

Отже, у 2013 р. Центр соціальних експертиз на замовлення ВГО «Гей-Альянс України» опитував звичайних людей (800 чол.) щодо гомофобії (звіт). Серед іншого, в опитувальнику фігурували і пункти, які до гомофобії прямого відношення не мають, напр. про довіру до різноманітних політичних та соціальних інститутів. Питання звучало так: «Який рівень Вашої довіри до наступних соціальних інститутів? (Дайте одну відповідну відповідь по кожному рядку)» з варіантами відповідей «5. Зовсім не довіряю - 4. Швидше не довіряю - 3. Важко сказати, довіряю чи ні - 2. Швидше довіряю - 1. Повністю довіряю». Список інститутів, яких респондент висловлював своє ставлення, так:

1. Сім'ї та родичам
2. Сусідам
3. Колегам
4. Церкві та духовенству
5. Астрологам
6. Засобам масової інформації (телебачення, радіо, газети)
7. Політичним партіям
8. Податкова інспекція
9. Міліції
10. Прокуратурі
11. Судам
12. Президенту
13. Верховна Рада
14. Уряду
15. Місцевим органам влади
16. Банкам
17. Страховим компаніям
18. Благодійним фондам, громадським організаціям

Як провести факторний аналіз цих даних? (припустимо, що таблиця з відповідями називається dovira)
Приєднуємо масив:

>attach(dovira)

Спочатку слід переконатися, що в завантаженому масиві немає перепусток та помилок введення:

>which(is.na(dovira)==T)
integer(0)
>summary(dovira)
p1
Min. :1.000
1st Qu.:2.000
Median:2.000
Mean:2.711
3rd Qu.:4.000
Max. :5.000 ... ... ...

Як бачимо, все гаразд (для того, щоб не захаращувати виклад, у висновку залишено лише перше питання).
Команда, яка виконує факторний аналіз, входить до набору пакетів, які встановлюються за замовчуванням. Вона дуже проста:

>factanal(dovira,6)
Call:
factanal(x = dovira, factors = 6)

Uniquenesses:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
0.431 0.195 0.379 0.614 0.047 0.672 0.506 0.285 0.174 0.106 0.186 0.215 0.112 0.082 0.464 0.288 0.204 Factor1Factor2Factor3Factor4Factor5Factor6
1 -0.407 -0.324 0.489 -0.106 -0.213
2 0.879 0.131 -0.112
3 0.784
4 -0.128 0.540 -0.170 0.193
5 0.125 0.171 0.133 0.943
6 0.265 0.122 0.252 0.393 0.139
7 0.522 0.382 0.148 0.151 0.175
8 0.395 0.673
-0.119 0.204 0.182 0.131
9 0.329 0.817 0.181
10 0.297 0.865 -0.113 0.145 0.122
11 0.353 0.769 -0.104 0.277
12 0.805 0.320 0.111
13 0.853 0.318 -0.144 0.151 0.121
14 0.902 0.250 0.125
15 0.582 0.230 0.181 0.325
16 0.196 0.414 0.667 0.139 0.184
17 0.243 0.351 0.694 0.160 0.317
18 0.162 0.109 0.228 0.608
Factor1Factor2Factor3Factor4Factor53.662 3.399 2.079 0.324 1.275 0.765
ProportionVar0.203 0.189 0.116 0.074 0.071 0.043
CumulativeVar0.203 0.392 0.508 0.581 0.652 0.695
Test of hypothesis, що 6 factors є sufficient.
The chi square statistic is 257.27 on 60 degrees of freedom.
The p-value is 2.95e-26

Подивимося результати.

Спочатку у висновку повторюється віддана машині команда, потім йде табличка «унікальностей», тобто часток загальної дисперсії, що вносяться кожній змінній окремо. Відтак бачимо таблицю навантажень, у якій стовпці відповідають коефіцієнтам кореляції окремих змінних із виділеними чинниками. Нарешті, третя таблиця - частка загальної дисперсії, що пояснюється кожним конкретним фактором та накопичення цих дисперсій. Завершує висновок інформація про тестування гіпотези "вибране число факторів достатньо для опису масиву".

Найбільш важливими є таблиці навантажень і часток дисперсії, що пояснюється.

З останньої видно, що у сумі 6 виділених чинників пояснюють 70% розкиду даних, у своїй перший відповідає за п'яту частину сумарної дисперсії, другий — 19%, третій — 12% тощо.
Таблиця навантажень показує, що у першому факторі об'єднані 7, 12, 13, 14 та 15 інституція (коефіцієнти кореляцій більше 0.5), у другому – 8, 9, 10, 11, у третьому – 2, 3, 4 тощо.

Спробуймо інтерпретувати результати.

Чинник 1об'єднує довіру до політичних партій, президента, Верховної Ради, уряду та місцевих органів влади. Іншими словами, це довіра до політичної сфери в цілому.
Фактор 2об'єднує довіру до податкової інспекції, міліції, прокуратури та судів. Іншими словами, це довіра до фіскальних та силових органів.
Фактор 3об'єднує довіру до сусідів, колег і, несподівано, до церкви та духовенства. Ці інституції можна узагальнити таким чином. довіра до людей, з якими респонденти зустрічаються віч-на-віч. На користь цього говорить і кореляція з рівнем довіри до родичів (вона лише трохи нижче, ніж довільно обраний нами поріг коефіцієнта кореляції 0.5).
Фактор 4- це довіра до банків та страхових компаній, тобто. до фінансових установ.
Фактор 5стоїть особняком - довіра до астрологів(Інших помітних кореляцій немає).
Фактор 6подібно до попереднього корелює тільки з рівнем довіри тільки до однієї інституції. благодійні фонди та громадські організації.
Лише одна інституція не увійшла до цих факторів — засобів масової інформації (телебачення, радіо, газети). Довіра до неї приблизно однаково «розмазано» за виділеними факторами.

Що нам дають ці наслідки?

Якщо ми рівень довіри до соціальних інститутів середніх за факторами (тобто для кожного респондента підсумуємо бали інституцій, що увійшли до фактора, і поділимо на кількість цих об'єднаних фактором інституцій), то отримаємо картинку настроїв українців щодо окремих елементів держави та суспільства:

Видно, що найбільше у респондентів довіри до людей, з якими вони зустрічаються віч-на-віч. А найменше довіри до фіскальних та силових органів, а також до фінансових установ.

Останній аспект, який не може не викликати запитань: звідки ми знаємо, що факторів потрібно виділити саме 6. Найбільшою, мабуть, точною відповіддю буде — звідки. Щоразу, потрібно експериментувати, спираючись на здоровий глузд. По-перше, кількість факторів не може бути більшою, ніж кількість змінних. По-друге, можна орієнтуватися на сумарну дисперсію, що пояснюється, бо немає сенсу розмірковувати про фактори, якщо вони в сукупності не описують хоча б її половину (а розумні люди рекомендують домагатися принаймні 70%). По-третє, необхідно орієнтуватися на можливість підібрати розумне пояснення отриманим чинникам.

У цьому вся нарисі ми стосувалися багатьох важливих аспектів факторного аналізу, напр. таких як методи обертання. Наша мета полягала в тому, щоб у найзагальніших рисах продемонструвати, навіщо потрібен цей метод і як його використовувати. Глибоке знайомство, природно, вимагає самостійної роботи з керівництвами та даними.

Література

Teetor P. R Cookbook. - O'Reilly, 2011

Досить часто виробничі процеси вимагають контролю не пов'язаного з вимірами. Причин тому багато, наприклад, визначення параметрів, які неможливо виміряти або вимірювальне обладнання занадто дороге, в той же час параметри можуть бути легко визначені людиною з певним ступенем підготовки.

Уявіть, що ви купуєте звичайні чорні туфлі. Ви визначилися з моделлю, приміряли пару – вона вам підійшла. На що ще Ви звернете увагу перед покупкою?

  • Ймовірно, Ви захочете, щоб туфлі рівномірно пофарбовані;
  • Щоб колір правої туфлі відповідав кольору лівого;
  • Щоб на видимій частині були відсутні грубі подряпини;
  • Щоб прошивка підошви була рівною;

Навіть якщо уявити, що існують автоматичні пристрої контролю якості туфель, що оцінюють всі зазначені пункти, швидше за все їхня вартість призвела б до значного подорожчання продукції. З іншого боку, якщо кінцевий покупець оцінює якість туфель "на око", то цілком логічно було б впровадити імітацію такого контролю на підприємстві, причому це цілком могло б замінити з десяток дорогих пристроїв, що оцінюють перераховані вище критерії. В даному прикладі, контролер, що оцінює якість виготовлених туфель може виступати в ролі вимірювальної системи.

Але не слід забувати про підготовку такого працівника і деякі початкові умови, якими він повинен керуватися. Без цього кожен контролер буде судити про якість продукції, спираючись на особисті міркування та почуття. Оцінити, наскільки добре контролер виконує роботу вимірювальної системи, дає можливість атрибутивний Gage R&R.

Атрибутивний Gage R&R або Attribute Agreement Analysis спеціально розроблений для оцінки вимірювальних систем, які виключають використання вимірювального інструменту, коли оператори самі визначають якість виробів візуально або за певним критерієм (відсутність грубих подряпин на видимій частині туфель). Звісно ж, що числову характеристику таким вимірам привласнити неможливо. Натомість виробам, що перевіряються, надають атрибут: "хороший"-"поганий", "годний"-"не придатний" і т.д. Даний вид аналізу може бути використаний також для градуювальної оцінки: "відмінно"-"добре"-"задовільно"-"незадовільно" або для оцінки за наявності та кількості дефектів.

Мета аналізу полягає в оцінці близькості суджень операторів до стандарту та збіжності суджень операторів (згідно з попереднім судженням). Результат аналізу, таким чином, вказуватиме, наскільки близькі результати вимірювальної системи до стандартних критеріїв і наскільки оператори згодні зі своїми міркуваннями, тобто. чи можна довіряти міркуванням контролерів.

Приклади, для яких можна застосувати атрибутивний аналіз Gage R&R:

  • Хорошим прикладом може бути виробничий процес виготовлення контактних лінз. Будь-яке оптичне тіло так чи інакше містить певну кількість аберацій, але не всі з них видно людському оку. Кожна лінза проходить вихідний контроль якості: оператор-контролер візуально оцінює наявність дефектів/забруднень за допомогою потужного збільшувального скла та спеціального підсвічування. Атрибутивний Gage R&R може бути застосований для визначення, наскільки добре контролер може відрізнити дефекти лінз від забруднень перевірочного розчину.
  • Іншим прикладом може бути перевірочний контроль цілісності таблеток на фармацевтичному підприємстві. Контроль цілісності також проводиться людиною під час огляду блістера, що містить до 2000 таблеток. Вимірювання в даному випадкуслужить наявність дефектів чи дефектних виробів у зразку.

У прикладі з таблетками оператор може представляти міркування в бінарній формі: "проходить"-"не проходить", але, зважаючи на специфіку зразка, відповіді можна надавати і в іншому вигляді. Наприклад, до 2 пошкоджених таблеток - "відмінно", до 5 - "задовільно", до 20 - "незадовільно", вище 20 - "критично" або оцінювати за шкалою від 1 до 5.

Розглянемо проведення аналізу атрибутивного Gage R&R у статистичному пакеті Minitab на прикладі контролю якості таблеток.

Під час аналізу оцінювалися три оператори, які перевіряли 20 таблеток двічі. Атрибути таблеток були визначені за стандартними критеріями на наявність тріщин та інших ушкоджень.

Для проведення Attribute Agreement Analysis(атрибутивного Gage R&R), виберіть Stat > Quality Tools > Attribute Agreement Analysis:

Рис. 1: Вікно конфігурації Attribute Agreement Analysis

У діалоговому вікні програми визначте колонки, що вказують операторів, зразки та результати вимірювань – атрибути, як показано в діапазоні 1. За умовою завдання правильні атрибути зразків були відомі – у цьому випадку слід внести стовпчик “Standard” у поле “Known standard attribute”, як показано в діапазоні 2.

    Аналіз можна проводити і без свідомо відомих атрибутів зразків або не повторюючи експеримент двічі. У першому випадку не буде визначено, наскільки близькі судження операторів до стандарту, а в другому – наскільки оператори впевнені у своїх судженнях.

Натисніть “OK”, щоб отримати результати аналізу:


Рис 2: Результати аналізу у графічному вигляді

Діаграма Within Appraiser відображає відсоток згоди операторів із попередніми судженнями. Діаграма буде відображено лише в тому випадку, якщо кожен оператор оцінив зразок два або більше разів, тобто якщо доступні дані для порівняння. В даному випадку, оператор А впевнений у своїх судженнях на 85%, хоча, довірчий інтервал лежить в межах від 60 до 97%. Чим вище збіжність суджень оператора, тим менше варіації він вносить результати спостережень.

Діаграма Appraiser vs Standard показує, наскільки близькі відповіді операторів до правильних атрибутів зразків. Навіть незважаючи на те, що оператор А впевнений у своїх судженнях на 85%, його відповіді є вірними лише у 70% випадках.

У розглянутому прикладі, тільки оператор має достатню кваліфікацію контролю якості продукції: збіжність суджень і близькість до стандарту становить 95%, тобто. його внесок у варіацію спостережень 5%.

Результати аналізу у вікні Session дають більш чітке уявлення про те, як оператори впоралися зі своєю роботою:


Рис. 3: результати Attribute Agreement Analysis

Таблиця Within Appraisers - вихідні дані діаграми Within Appraisers, а також таблицю коефіцієнтів каппа. Каппа коефіцієнти вказують, наскільки оператори статистично впевнені у своїх рішеннях. При каппа рівним 0, можна зробити висновок, що оператор не впевнений у своїх судженнях, його вибір нагадує лотерею або підкидання монетки в повітря. Каппа 1 означає, що оператор на 100% упевнений у своїх судженнях, відповідно, при коефіцієнті -1 – оператор повністю не впевнений і щоразу надає зразку новий атрибут. Беручи до уваги рекомендації посібника з аналізу вимірювальних систем AIAG, достатнім для визнання вимірювальної системи є коефіцієнт 0,75. Значення 0,4 або нижче свідчить про непридатність до вимірювальної системи.

Значення ймовірності (P-value) оцінюється для гіпотез:

    H0: оператори не згодні зі своїми рішеннями;
    H α: оператори погоджуються зі своїми судженнями.

Значення каппа та ймовірності є основними в оцінці вимірювальних систем за допомогою атрибутивного Gage R&R. Розглядаючи отримані результати, можна зробити висновок, що виходячи з каппа рівному 0,48 і значення ймовірності 0,0158 оператор впевнений у своїх рішеннях, але така вимірювальна система не прийнятна для критичних ділянок контролю.


Рис. 4: результати Attribute Agreement Analysis

Розглядаючи коефіцієнти каппа в таблиці аналізу Each Appraiser vs Standard, можна зробити висновок, що оператори А і В слабо орієнтуються в умовах оцінки, але оператор С досить добре володіє критеріями якості виробів. Таблиця Assessment Disagreement відображає пункти, в яких думка операторів відмінна від стандарту. Наприклад, оператор А визнав 3 блістери з таблетками придатними, тоді як критерії стандарту свідчать про їхню непридатність. Також оператор А тричі показав різні результати за першої та другої спроб, тобто. спочатку визначив виріб як придатний, а при другій спробі змінив судження. Оператор тричі відхилив якісні вироби і також тричі змінив своє судження. Оператор З усього лише раз змінив свою думку щодо атрибуту зразка.

Результати таблиці Between Appraiser ілюструють, наскільки оператори загалом відтворюють свої судження, тобто. наскільки вони згодні між собою, не зважаючи на справжні атрибути. Згода між операторами зовсім на означає правильності суджень.


Рис. 5: таблиці результатів Between Appraisers та Appraiser vs Standard

Таблиця All Appraisers vs Standard, відповідно, відображає, наскільки судження всіх операторів подібні до вірних атрибутів, тобто. наскільки оператори загалом згодні зі стандартом. Як і попередньому випадку, згоду зі стандартом означає згоду між операторами.

Таблиці Kappa Statistics показує, що в обох випадках коефіцієнт каппа нижче 0,75. Показання операторів як єдиної групи статистично малозначущі. Згода операторів загалом з атрибутами стандарту трохи вища, але все ж таки недостатньо. Високий коефіцієнт згоди зі стандартом щодо згоди між операторами спричинений високим коефіцієнтом згоди зі стандартом оператора С.

Резюме

  • У цілому нині, використання аналізованої вимірювальної системи пов'язані з низкою труднощів. Оператор А допускає дуже багато помилок, у результаті непридатна продукція визнається якісною. У той же час, оператор оцінює продукцію надто критично, що призводить до відхилення придатних виробів.
  • Оператор С показав як близькість суджень до стандартних, так і впевненість у них.
  • З вище сказаного випливає, що операторам А і необхідно додаткове навчання або практика.

У цьому прикладі спостерігається дуже широкий довірчий інтервал. що приносить певну невизначеність результатам аналізу. Для зменшення діапазону можна провести повторне дослідження з великою кількістю зразків.