28526

Інтелектуальні технології обробки економічних даних

Лекция

Информатика, кибернетика и программирование

В першому випадку відомості містяться у різноманітних інформаційних джерелах книги документи бази даних інформаційні системи і т. Серед методів першої групи в економіці поширені методи математичної статистики що вирішують спектр задач проте не дозволяють знаходити і видобувати знання з масивів даних. Тому для аналізу сучасних баз даних методи повинні бути ефективними простими у використанні володіти значним рівнем масштабності і певною автоматизованістю.

Украинкский

2013-08-20

171.5 KB

4 чел.

Лекція 3

Інтелектуальні технології обробки економічних даних

 

1. Принципи функціонування автоматичних засобів видобування знань

Для аналізу і розв'язання задач різного характеру, в тому числі і економічних, сучасні інформаційні технології пропонують широкий спектр засобів прийняття рішень - людино-машинні інтерактивні системи, які дозволяють особам, що приймають рішення, використовувати дані, знання, об'єктивні чи суб'єктивні моделі. Необхідно зазначити, що вибір засобу для обробки інформації обумовлюється властивостями поставленої задачі.

Структуровані задачі містять кількісні та якісні змінні, підлягають формалізації, яка нескладно реалізується. Надалі для них можна розробити повністю структуровані процедури знаходження рішень.

Слабоструктуровані задачі містять як кількісні, так якісні змінні, для них можна частково розробити структуровані процедури знаходження рішень.

Неструктуровані задачі містять лише якісні описи, їх неможливо формалізувати, вимагають нестандартних процедур прийняття рішень, де використовуються досвід, кваліфікація та інтуїція людини.

Існує два способи отримання знань: документальний і експертний. В першому випадку відомості містяться у різноманітних інформаційних джерелах (книги, документи, бази даних, інформаційні системи і т.п.). Експертний спосіб припускає видобування і структуризацію знань з пам'яті людини - експерта, або фахівця в наочній області. Використовується для рішення неструктурованих задач.

Серед методів першої групи в економіці поширені методи математичної статистики, що вирішують спектр задач, проте не дозволяють знаходити і видобувати знання з масивів даних. Також, високі вимоги до кваліфікації кінцевих користувачів обмежують їх використання.

Серед другої групи поширені так звані експертні системи - спеціальні комп'ютерні програми, що моделюють процеси розмірковування та прийняття рішення людини. Наприклад, експертна система ухвалення рішень на ринку цінних паперів, експертна система оцінки кредитних ризиків, тощо. Висока вартість створення і впровадження експертних систем, нездатність людей знаходити складну і нетривіальну залежність, часто відсутність фахівців, здатних грамотно структурувати свої знання також ускладнюють популяризацію такого підходу.

Специфіка сучасних вимог до обробки інформації робить безсилим як статистичні, так і експертні підходи в багатьох практичних областях, у тому числі і економічних. Тому для аналізу сучасних баз даних методи повинні бути ефективними, простими у використанні, володіти значним рівнем масштабності і певною автоматизованістю.

Методи виявлення знань можна умовно розбити на п'ять груп:

o класифікація;

o кластеризація - групування об'єктів на основі даних, що описують сутність об'єкту. Об'єкти всередині кластера повинні бути "подібними" один на одного і відрізнятися від об'єктів, що увійшли до інших кластерів. Ступінь подібності об'єктів характеризує точність кластеризації. Для економічних задач використовують термін сегментація;

o регресія, у тому числі і задача прогнозування. Це встановлення залежності вихідних змінних від вхідних. До цього ж типу задач відноситься і прогнозування часового ряду на основі хронологічних даних.

o асоціація - виявлення закономірностей між пов'язаними подіями. Прикладом такої закономірності служить правило, яке вказує, що з події X випливає подія Y.

Такі правила називаються асоціативними. Вперше ця задача була розв'язана для знаходження типових шаблонів покупок в супермаркетах, тому іноді її ще називають аналізом споживчого кошика (market basket analysis).

Послідовні шаблони - встановлення закономірностей між пов'язаними у часі подіями

Розглянуті вище задачі знайшли широке застосування при видобуванні знань економічного характеру. Розглянемо декілька наступних прикладів.

Класифікація використовується у випадку, коли класи об'єктів є наперед відомими. Наприклад, віднесення нового товару певної товарної групи (продовольчі, промислові), віднесення клієнта до визначеної категорії (постійний клієнт, новачок). При кредитуванні це може бути, наприклад, віднесення клієнта за певними ознаками до однієї з груп ризику.

Кластеризація може використовуватися для сегментації і побудови профілів клієнтів (покупців). При достатньо великій кількості клієнтів неможливо розробити для кожного індивідуальний підхід. Тому клієнтів зручно об'єднати в групи - сегменти з однорідними ознаками (групами ознак). Це можуть бути сегменти по сфері діяльності, по географічному розташуванню. Після сегментації можна отримати відомості, які саме сегменти є найактивнішими, які приносять найбільший прибуток, виділити характерні для них ознаки. Ефективність роботи з клієнтами підвищується за рахунок обліку їх персональних переваг.

Регресія використовується для встановлення залежності в чинниках. Наприклад, в задачі прогнозування залежною величиною є обсяги продажів, а чинниками, що впливають на цю величину, можуть бути попередні обсяги продажів, зміна курсу валют, активність конкурентів і т.д. Або, наприклад, при кредитуванні фізичних осіб вірогідність повернення кредиту залежить від особистих характеристик людини, сфери його діяльності, наявності майна, платоспроможності, тощо.

Асоціації допомагають виявляти товари, які люди купують одночасно. Це може бути корисно для більш зручного розміщення товару на прилавках, стимулювання продажів (наприклад: розміщення гірчиці чи кетчупу біля сосисок, чаю біля печива гарантує збільшення сукупних обсягів продажу цих продуктів).

Послідовні шаблони можуть використовуватись при плануванні продажів або наданні послуг. Наприклад: якщо людина придбала фотоплівку, то через деякий час віддасть її на проявлення і замовить друк фотографій.

Застосовуючи індуктивні методи до множини вхідних даних можна виявити нелінійні закономірності та видобути певні знання. Проте, незалежно від методу, їх якість та важливість насамперед залежить від якості, змістовності та повноти даних, що будуть проаналізовані.

2. Комбінаторний алгоритм МГУА

Комбінаторний алгоритм є основним алгоритмом методу групового урахувапння аргументів (МГУА), який відноситься до індуктивного підходу. Індукція – це узагальнення: від конкретного до загального, тобто побудова моделі на основі даних спостережень за обєктом чи процесом.

Комбінаторний алгоритм використовується для побудови оптимальної моделі. Перевагою комбінаторного алгоритму є те, що він не потребує доказу збіжності зовнішнього критерію, оскільки в ньому виконується перебір всіх можливих структур моделей із заданого поліноміального базису з вибором кращої моделі за заданим критерієм селекції.

Недоліком комбінаторного алгоритму є обмежені можливості перебору. З доданням кожної нової змінної час розрахунку збільшується удвічі. Обсяг перебору визначається виразом: .

В структурі комбінаторного алгоритму МГУА можна виділити три основні блоки:

1. перетворення початкових даних відповідно до вибраної системи опорних (базисних) функцій, в якій шукається модель;

2. генерація у вибраному базисі (перебір) повної або неповної множини окремих моделей, що поступово ускладнюються;

3. обчислення значень деякого критерію селекції, який має властивості зовнішнього доповнення, і послідовний відбір окремих моделей, кращих за цим критерієм.

  1.  Блок формування базису. В дисертаційній роботі розглядається випадок тільки поліноміальних опорних функцій.
  2.  Блок генерації (перебору) окремих моделей. Основними операціями, які виконуються в цьому блоці, є:
  •  формування структури чергової моделі;
  •  формування відповідної нормальної системи рівнянь;
  •  розв’язання отриманої системи (оцінка коефіцієнтів моделі).
  1.  Блок відбору моделей за зовнішніми критеріями. Обчислення в цьому блоці ведуться з урахуванням зовнішніх критеріїв. Критерій регулярності, який використовується в роботі, є несиметричним, тому оцінки коефіцієнтів обчислюються на одній послідовності (навчальній), а значення критерію – на іншій (перевірочній), чим і забезпечується «зовнішній характер» критерію.

При переборі складність окремих моделей, тобто число їх аргументів, поступово нарощується від одного до максимального числа  (числа аргументів базисного набору функцій). Таким чином, загальна схема комбінаторного алгоритму включає наступні операції:

  •  за методом найменших квадратів (МНК) визначаються коефіцієнти всіх частинних моделей складності ;
    •  для кожної з них обчислюється значення критерію селекції;
      •  єдина модель оптимальної складності вибирається за мінімальним значенням критерію.

3. Нейромережеві технології штучного інтелекту

 Штучний інтелект є одним з напрямів інформатики, завданням якого є розробка апаратно-програмних засобів, які дозволяють користувачу формулювати і розв'язувати інтелектуальні задачі.

Сьогодні засоби штучного інтелекту включають в себе:

o експертні системи;

o програмний інструментарій розробки експертних систем;

o машинний переклад;

o інтелектуальні роботи;

o навчання і самонавчання;

o розпізнавання образів;

o нові архітектури комп'ютерів;

o ігри та машинна творчість.

Розробки в галузі штучного інтелекту розпочались з ідеї побудови системи, подібної до нервових клітин людини, що була запропонована Дж.Маккалоком та У.Піттом у 1943 р. та втілена у моделі штучного нейрона і принципах побудови штучних нейронних мереж, що здатні до навчання. Але задача практичного втілення розробленої методики виявилась складною і була розв'язана тільки через 20 років американським нейрофізіологом Ф.Розенблаттом в роботі 1962 р. "Принципи нейродинаміки", де була запропонована модель персептрона.

Штучна нейронна мережа - паралельно розподілений процесор, який володіє здатністю до навчання, збереження і представлення знань, набутих на основі досвіду Штучні нейронні мережі, зокрема багатошаровий персептрон, вирішують задачі регресії і класифікації. Проте, на відміну від дерев рішень, нейронні мережі не здатні пояснити отримане рішення, тому їх функціонування нагадує "чорний ящик" з входами і виходами.

Нейронні мережі є обчислювальними структурами, що моделюють прості біологічні процеси, подібні до тих, що відбуваються в людському мозку. Вони здатні до адаптивного навчання шляхом реакції на позитивні і негативні дії.

Подібність штучної нейронної мережі з мозком полягає в двох аспектах:

o знання набуваються мережею під час навчання;

o для збереження знань використовуються міжнейронні з'єднання.

В основі нейронних мереж лежить елементарний перетворювач - штучний нейрон, названий так за аналогією з його біологічним прототипом. Штучний нейрон складається з входів (синапсів), суматора, нелінійного перетворювача і виходу (аксона). Всі нейрони з'єднуються між собою зв'язками, які називаються вагами і визначаються певними величинами - ваговими коефіцієнтами.

Структуру нейромережі - багатошарового персептрона - можна описати наступним чином. Нейромережа складається з декількох шарів: вхідний, внутрішній (прихований) і вихідний шари. Вхідний шар реалізує зв'язок із вхідними даними, вихідний - із вихідними. Внутрішніх шарів може бути від одного і більше. В кожному шарі міститься декілька одиниць або десятків нейронів.

Перед використанням нейромережі проводиться її навчання, що є ітераційним процесом налаштування вагових коефіцієнтів. Для навчання використовуються спеціальні алгоритми. Найбільше розповсюдження отримали градієнтні методи - алгоритм зворотного поширення похибки (Back Propagation), зв'язаних градієнтів, RProp і інші. Основна особливість нейронних мереж полягає в тому, що в процесі навчання вони моделюють складну нелінійну залежність між вхідними і вихідними даними.

Для перевірки адекватності побудованої нейронної мережі використовується спеціальний метод - тестове підтвердження, в якому аналізується відсоткове співвідношення між вірними вихідними значеннями та помилковими. При незадовільному результаті перевірки проводиться навчання з використанням інакше підібраної навчальної вибірки даних для потрібної корекції вагових коефіцієнтів.

Загалом, нейронні мережі характеризуються такими факторами:

o структура мережі;

o процес пошуку (метод пересилання інформації з входу на вихід);

o метод навчання мережі.

Вибір топологічної структури мережі здійснюється у відповідності із особливостями і складністю розв'язуваної задачі. Для розв'язання деяких визначених типів задач вже існують оптимальні конфігурації нейронних мереж. Якщо задача не може бути зведена до відомого типу, то розробляється новий тип нейронної мережі.

Способи обробки інформації в нейронних мережах поділяються на:

o асоціацію (взаємозв'язок між інформацією (образом) на вході системи і інформацією (образом), що зберігається в системі);

o класифікацію (вказати або оцінити приналежність образу до відповідного класу).

Нейронні мережі недоцільно застосовувати у таких випадках:

o для задач, що мають точний аналітичний алгоритм розв'язання;

o у випадку потреби високої точності результатів;

o для задач, розв'язання яких вимагає багато етапних логічних висновків і тверджень;

o для задач, в яких використовується символьне представлення;

o для задач, які можуть бути розв'язані засобами з меншою собівартістю застосування.

Проте, нейронні мережі ефективно можуть використовуватись для розв'язання наступних задач:

o прогнозування на основі аналізу часових рядів;

o ідентифікації об'єктів і класифікації;

o оптимізації.

Однією із сфер застосування нейронних мереж є розпізнавання та аналіз вбудованої інформації при стеґанографічному (прихованому) захисті об'єктів: цифрових водяних знаків у зображеннях, цифрових копірайтів в програмних продуктах, і т.д.

4. Мапи, що самоорганізуються

Self Organizing Maps - SOM, або мапи Кохонена, що самоорганізуються, є різновидом нейронної мережі і використовуються для вирішення задач кластеризації і сегментації. Алгоритм функціонування мап, що самоорганізуються, є одним з варіантів кластеризації багатовимірних даних. В алгоритмі SOM всі нейрони (вузли, центри класів) впорядковані в деяку структуру, як правило - двовимірну сітку. В ході навчання модифікується не лише нейрон-переможець (нейрон мапи, який найбільшою мірою відповідає вектору входів і визначає, до якого класу відноситься навчальний приклад), але і його сусіди, хоча і у меншій мірі. За рахунок цього SOM можна вважати одним з методів проекції багатовимірного простору в простір з більш низькою розмірністю. При використанні цього алгоритму, вектори, що були близько розташовані на отриманій мапі, виявляються близькими і в початковому просторі.

Окремий клас нейронних мереж, такі як мережа Хеммінга або мережа Хопфільда, використовують принципи асоціативних правил (association rules), що дозволяють знаходити закономірності між зв'язаними подіями. Відповідно, вони є придатними для вирішення задач виявлення асоціацій.

Прикладом асоціативного правила, служить твердження, що покупець, що придбав хліб, купить і молоко з вірогідністю 75%. Вперше ця задача була запропонована для пошуку асоціативних правил для знаходження типових шаблонів покупок (market basket analysis). Асоціативні правила ефективно використовуються в сегментації покупців за поведінкою при здійсненні покупок, аналізі переваг клієнтів, плануванні розташування товарів в супермаркетах, адресній розсилці. Проте сфера застосування цих алгоритмів не обмежується лише однією торгівлею. Їх також успішно застосовують і в інших областях: медицині, для аналізу відвідування вебсторінок (Web Mining), для аналізу тексту (Text Mining), для обробки даних по перепису населення, в прогнозуванні збоїв телекомунікаційного устаткування, тощо.

Задачею пошуку асоціативних правил не є виявлення всіх правил, оскільки частина з них відомі аналітикам, інші можуть і не представляти статистичної цінності. Тому при пошуку вводяться пороги підтримки і достовірності асоціативних правил. Класичним алгоритмом знаходження асоціативних правил вважається алгоритм APriori.

Розглянемо приклад сегментації покупців за допомогою мапи Кохонена. Вимоги до даних, що необхідні для проведення сегментації, розділяють на дві групи: дані трансакцій і дані по товарах. Дані трансакцій повинні містити наступний мінімум інформації: код трансакції, дата і час трансакції, код товару та кількість, сума покупки. Нехай база даних містить статистику товарів, придбаних покупцями; всі товари розділені на п'ять груп і 40 підгруп, що представлено у вигляді ієрархії товарів:

Рис.1. Ієрархія товарів

Наприклад, група "Сімейні товари" включає такі підгрупи, як одяг, побутова техніка, спортивний інвентар і т.д.

Після побудови мапи утворюється п'ять типів покупців (рис.2). В даному випадку кількість сегментів визначалась кількістю груп товарів.

Рис.2. Сегментація покупців

Проведемо інтерпретацію кожного сегменту і дамо кожному типу покупців назву (рис.2).

o Основні покупці (сегмент 3) - купують переважно продукти харчування і сімейні товари з відносно низькими витратами на решту товарів. До цієї групи входять 40% від всіх покупців;

o Змішані покупці (сегмент 4). Немає чітких переваг при купівлі певного виду товарів. До групи входять 25% від всіх покупців.

o Сімейні покупці (сегмент 1). - відвідують магазин для купівлі товарів сімейного користування. Складають 15% від всіх покупців;

o Покупці напоїв і розважальної продукції (сегмент 2) - їх відрізняють підвищені витрати на дані групи товарів, частка таких покупців 10%;

o Молоді батьки (сегмент 0) - основною метою їх покупок є придбання дитячих товарів. Складають 10% від всіх покупців.

Резюме

Для аналізу і розв'язання економічних задач, сучасні інформаційні технології пропонують широкий спектр засобів прийняття рішень із використанням даних, знань, об'єктивних чи суб'єктивних моделей, технологій видобування знань. Методи видобування знань можна умовно розбити на п'ять груп: класифікація; кластеризація (сегментація); регресія; асоціація.

Завданням напряму штучного інтелекту є розробка апаратно-програмних засобів, що дозволяють користувачу формулювати і розв'язувати інтелектуальні задачі. До складу понять штучного інтелекту сьогодні відносять нейронні мережі, нечітку логіку, експертні системи, комп'ютери п'ятого покоління, системи моделювання мислення, тощо. Нейронні мережі можуть ефективно використовуватись для розв'язання задач прогнозування на основі аналізу часових рядів; ідентифікації об'єктів і класифікації; оптимізації.

Ключові слова

Штучний інтелект, експертні системи, виявлення (видобування) знань, сегментація (кластеризація) даних, шаблон, асоціація, штучний нейрон, нейронна мережа, мапа Кохонена, системи підтримки прийняття рішень, НТМ- система.

Запитання і завдання для обговорення та самоперевірки:

► Охарактеризуйте задачі, що розв’язуються за допомогою сучасних інформаційних технологій

► Охарактеризуйте документальний та експертний способи отримання знань.

► Які існують методи виявлення знань з даних?

► Поясність, чому для визначення груп покупців неможливо застосувати метод класифікації.

► Який метод виявлення знань використовується при визначенні вірогідності повернення кредиту?

► Наведіть приклади асоціацій - серед продовольчих або продуктових товарів.

Індуктивний підхід, переваги та недоліки комбінаторного алгоритму методу групового урахування аргументів

► Охарактеризуйте засоби штучного інтелекту.

 Подібність штучної нейронної мережі з мозком людини

► Використання нейронних мереж

► Для яких задач використовують мапи Кохонена


 

А также другие работы, которые могут Вас заинтересовать

12601. ОПРЕДЕЛЕНИЕ МОДУЛЯ СДВИГА СТАЛИ 3.43 MB
  ОПРЕДЕЛЕНИЕ МОДУЛЯ СДВИГА СТАЛИ Методические указания к лабораторной работе № 8 по курсу Сопротивление материалов для студентов технических специальностей Составил: Денисова Л.М. старший преподаватель кафедры Теоретическая и прикладная механика Миро...
12602. ОПРЕДЕЛЕНИЕ НОРМАЛЬНЫХ НАПРЯЖЕНИЙ ПРИ ПЛОСКОМ ИЗГИБЕ КОНСОЛЬНОЙ БАЛКИ 92 KB
  PAGE 11 ОПРЕДЕЛЕНИЕ НОРМАЛЬНЫХ НАПРЯЖЕНИЙ ПРИ ПЛОСКОМ ИЗГИБЕ КОНСОЛЬНОЙ БАЛКИ Методические указания к выполнению лабораторной работы № 10 по сопротивлению материалов для студентов механических специальностей Автор – КРУГЛОВ А.А. к.т.н. доц...
12603. ИССЛЕДОВАНИЕ ПЕРЕМЕЩЕНИЙ КОНСОЛЬНОЙ БАЛКИ 123 KB
  ИССЛЕДОВАНИЕ ПЕРЕМЕЩЕНИЙ КОНСОЛЬНОЙ БАЛКИ Методические указания к выполнению лабораторной работы № 11 по сопротивлению материалов для студентов механических специальностей Автор – КРУГЛОВ А.А. к.т.н. доцент кафедры Теоретическая
12604. ОПРЕДЕЛЕНИЕ ПЕРЕМЕЩЕНИЙ ПРИ ИЗГИБЕ БАЛКИ НА ДВУХ ОПОРАХ 111 KB
  ОПРЕДЕЛЕНИЕ ПЕРЕМЕЩЕНИЙ ПРИ ИЗГИБЕ БАЛКИ НА ДВУХ ОПОРАХ Методические указания к лабораторной работе № 12 по курсу Сопротивление материалов для студентов технических специальностей Составил: Гаращенко П.А. д.т.н. профессор кафедры Теоретическая и прик
12605. ОПРЕДЕЛЕНИЕ НАПРЯЖЕНИЙ ПРИ КОСОМ ИЗГИБЕ КОНСОЛЬНОЙ БАЛКИ 107 KB
  ОПРЕДЕЛЕНИЕ НАПРЯЖЕНИЙ ПРИ КОСОМ ИЗГИБЕ КОНСОЛЬНОЙ БАЛКИ Методические указания к лабораторной работе № 13 по курсу Сопротивление материалов для студентов механических специальностей Составители: Миронов А.И. к.т.н. доцент кафедры Теоретическая и прик
12606. ОПРЕДЕЛЕНИЕ МОМЕНТА В ЗАДЕЛКЕ СТАТИЧЕСКИ НЕОПРЕДЕЛИМОЙ БАЛКИ 176 KB
  ОПРЕДЕЛЕНИЕ МОМЕНТА В ЗАДЕЛКЕ СТАТИЧЕСКИ НЕОПРЕДЕЛИМОЙ БАЛКИ Методические указания к лабораторной работе № 17 по курсу Сопротивление материалов для студентов механических специальностей Составил: Круглов А.А. к.т.н. доц. кафедры Теоретическая и прикладн
12607. ИССЛЕДОВАНИЕ УСТОЙЧИВОСТИ ПРЯМОЛИНЕЙНОГО ПРОДОЛЬНО СЖАТОГО СТЕРЖНЯ 891 KB
  ИССЛЕДОВАНИЕ УСТОЙЧИВОСТИ ПРЯМОЛИНЕЙНОГО ПРОДОЛЬНО СЖАТОГО СТЕРЖНЯ Методические указания к лабораторной работе № 19 по курсу Сопротивление материалов для студентов технических специальностей Составили: Круглов А.А. к.т.н. доцент кафедры Теоретическая ...
12608. Гидравлика Методические указания к лабораторным работам по гидравлике (механике жидкости и газов) 13.36 MB
  Гидравлика Методические указания к лабораторным работам по гидравлике механике жидкости и газов Введение Данные методические указания разработаны на основании Руководства к использованию в учебном процессе лабораторного стенда Стенд гидравлический Гид
12609. Гидростатика - раздел Гидромеханики 722.5 KB
  ВВЕДЕНИЕ 1. Основные понятия гидростатики Гидростатика – это раздел Гидромеханики в котором изучаются условия и закономерности равновесия жидкостей под действием приложенных к ним сил a также воздействия покоящихся жидкостей на погруженные в них тела и на стенки ...