49569

Применение нейросетевых технологий к оценке недвижимости

Курсовая

Информатика, кибернетика и программирование

Искусственные нейронные сети. Обучение искусственной нейронной сети. Главным отличием нейросетей от других методов например таких как экспертные системы является то что нейросети не нуждаются в заранее известной модели а строят ее сами только на основе предъявляемой информации. Именно поэтому нейронные сети вошли в практику всюду где нужно решать задачи прогнозирования классификации управления – иными словами в области человеческой деятельности где есть неформализуемые или трудно формализуемые задачи...

Русский

2014-01-03

416 KB

9 чел.

Федеральное агентство по образованию

министерство образования и науки Российской Федерации

ГОУ ВПО «Пермский Государственный Университет»

Кафедра прикладной математики и информатики

Применение нейросетевых технологий к оценке недвижимости

Курсовая работа

Работу выполнила студентка

группы ПМИ-5,6-04

3-го курса

механико-математического

факультета

Лукина М.В.   

Научный руководитель:

профессор кафедры ПМиИ

Ясницкий Л.Н.   

Пермь 2007 г.

Содержание

  1.  Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
  2.  Цели работы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  
  3.  Обзор литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
  4.  Теоретическая часть
    1.  Искусственный нейрон . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
    2.  Искусственные нейронные сети . . . . . . . . . . . . . . . . . . . . . . . .
    3.  Обучение искусственной нейронной сети . . . . . . . . . . . . . . . .
  5.  Практическая часть
    1.  Метод исследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
    2.  Оптимизация персептрона . . . . . . . . . . . . . . . . . . . . . . . . . . . .
    3.  Результаты исследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
  6.  Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
  7.  Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
  8.  Приложения
    1.  Приложение 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
    2.  Приложение 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

5

6

7

8

9

13

16

19

21

22

23

24

Введение

С конца XX века наблюдается возрождение интереса к нейросетевым и нейрокомпьютерным технологиям, которые успешно применяются в самых различных областях – бизнесе, медицине, технике, геологии, физике и т.д.

Нейронная сеть (нейросеть) – это система, выполненная по образу и подобию человеческого мозга, имеющая некоторые аспекты его работы и демонстрирующая такие возможности мозга, как способность к обучению, способность к обучению и др. [2,4].

Главным отличием нейросетей от других методов, например таких, как экспертные системы, является то, что нейросети не нуждаются в заранее известной модели, а строят ее сами только на основе предъявляемой информации. Именно поэтому нейронные сети вошли в практику всюду, где нужно решать задачи прогнозирования, классификации, управления – иными словами, в области человеческой деятельности, где есть неформализуемые или трудно формализуемые задачи [2].

Оценка недвижимости является одной из наиболее востребованных и, вместе с тем, одной из наиболее сложных задач на рынке интеллектуальных систем оценки и принятия решений. Сложность заключается, во-первых, в большом количестве факторов, влияющих на оценку. Во-вторых, сам характер факторов представляет существенную проблему – некоторые из них довольно сложно формализовать, например, «состояние объекта». В-третьих, рынок недвижимости достаточно динамичен, что подразумевает высокую скорость изменения значений параметров оценки с течением времени. В-четвертых, для формирования обучающих выборок приходится использовать опыт различных оценщиков, что может приводить к противоречивым результатам [1].

Нейронные сети могут быть альтернативой обычных методов, применяемых к оценке недвижимости, таких, как метод множественной регрессии и методы теории оценки недвижимости (доходный, затратный и сравнительный). Так как точность результатов полученных с помощью нейросетевых технологий может соперничать или даже превышать точность результатов, полученных при помощи традиционных методов оценки. Но в настоящее время нет окончательного вывода о том, какой метод лучше всего использовать. Одни источники говорят, что точность результатов, полученных с помощью нейросетевых технологий выше, чем точность результатов множественной регрессии [5], другие источники утверждают, что нейронные сети показывают более точные результаты, только при небольших объемах данных [6,7].

Нейросети могут применяться как в самом процессе оценки, так и на этапе выбора тех факторов, которые оказывают наибольшее влияние на формирование цены на недвижимость.

Цели работы

  1.  Проанализировать и обработать объявления о продаже жилья, опубликованные в газете «Пермские квартиры»;
  2.  На основе полученных результатов составить выборку обучающих примеров. Разделить ее на обучающее и тестирующее множества;
  3.  С помощью «Нейросимулятора v1.0» (разработчик – Черепанов Ф.)  разработать оптимальную нейронную сети и осуществить прогнозирование стоимости жилья на основе имеющихся данных;
  4.  Выявить значимые параметры;
  5.  Выявить зависимость стоимости жилья от значимых параметров.

Обзор литературы

    Развитие технологий быстро находит отражение в методах, которые используются для исследования в той или иной сфере человеческой деятельности. И сфера оценки недвижимости не является исключением.

Одним из самых важных этапов развития технологий в сфере оценки недвижимости стало открытие возможности применения технологий искусственного интеллекта при разработке систем оценки. Обычно такие системы основаны на нейросетевых технологиях.

Разработка систем основанных на нейросетевых технологиях началась в 90-е годы XX века. В частности, подобная система была разработана в Университете Южной Австралии. Эта система была разработана на основе данных о продаже недвижимости в Южной Австралии и показывала, что результаты, полученные с помощью нейросетевых технологий, могут быть точнее результатов, полученных при помощи более традиционных методов [6,7].

Исследования применения нейросетевых технологий к оценке недвижимости велись и ведутся в Европе. В Испании для подобного исследования были взяты данные о многоквартирных домах в пригородах Мадрида [5]. В Польше в качестве основы для исследования были взяты данные о новостройках в Отвоцке, в окрестностях Варшавы [8].

В России исследования применения нейросетвых технологий к оценке недвижимости проводились в рамках создания гибридной системы оценки недвижимости в Калужском филиале МГТУ им. Баумана. Данная система состоит из экспертной системы, предназначенной для формирования числовых значений соответствующих неформальных критериев оценки, и нейросетевого блока, который непосредственно осуществлял оценку [1].

Теоретическая часть

Искусственный нейрон

Несмотря на большое разнообразие вариантов нейронных сетей, все они имеют общие черты. Так все они, также как и мозг человека, состоят из большого числа однотипных элементов – нейронов, которые имитируют нейроны головного мозга, связанных между собой.

На рис.1 показана схема нейрона

                    

Рис. 1. Схема искусственного нейрона

Из рисунка видно, что искусственный нейрон, так же как и живой, состоит из синапсов, связывающих входы нейрона с ядром, ядра нейрона, которое осуществляет обработку входных сигналов и аксона, который связывает нейрон с нейронами следующего слоя. Каждый синапс имеет вес, который определяет насколько соответствующий вход нейрона влияет на его состояние. Состояние нейрона определяется по формуле

  

где

n - число входов нейрона

xi – значение i-го входа нейрона

wi – вес i-го синапса

Затем определяется значение аксона нейрона по формуле

Y = f(S)   

Где f - некоторая функция, которая называется активационной. Наиболее часто в качестве активационной функции используется так называемый сигмоид, который имеет следующий вид:

 

Основное достоинство этой функции в том, что она дифференцируема на всей оси абсцисс и имеет очень простую производную:

 

При уменьшении параметра сигмоид становится более пологим, вырождаясь в горизонтальную линию на уровне 0,5 при =0. При увеличении сигмоид все больше приближается к функции единичного скачка.

Искусственные нейронные сети

Другая часть создания и использования нейросетей касается большого количества связей, связывающих отдельные нейроны. Группирование в мозгу человека происходит так, что информация обрабатывается динамическим, интерактивным и самоорганизующим путем. Биологические нейронные сети созданы в трехмерном пространстве из микроскопических компонентов и способны к разнообразным соединениям, а для созданной человеком сети существуют физические ограничения.

Существующие на данный момент нейросети являются группированием искусственных нейронов, в виде соединенных между собой слоев. Хотя существуют сети, которые содержат лишь один слой, или даже один элемент, большинство реализаций используют сети, содержащих как минимум три типа слоев - входной, скрытый и выходной. Слой входных нейронов получает данные или из входных файлов, или непосредственно с электронных датчиков. Выходной слой пересылает информацию непосредственно во внешнюю среду, к вторичному компьютерному процессу, или к другому устройству. Между этими двумя слоями может быть несколько скрытых слоев, содержащих много разнообразно связанных нейронов. Входы и выходы каждого из скрытых нейронов соединены с другими нейронами.

Направление связи от одного нейрона к другому является важным аспектом нейросетей. У большинства сетей каждый нейрон скрытого слоя получает сигналы от всех нейронов предыдущего слоя и обычно от нейронов входного слоя. После выполнения операций над сигналами, нейрон передает свой выход, всем нейронам следующих слоев, обеспечивая передачу сигнала вперед на выход.

Обучение искусственной нейронной сети

Фундаментальным свойством мозга является способность к обучению. Процесс обучения может рассматриваться как определение архитектуры сети и настройки весов связей для эффективного выполнения специальной задачи. Нейросеть настраивает весы связей под имеющееся обучающее множество.

Для процесса обучения необходимо иметь модель внешней среды, в которой функционирует нейронная сеть - нужную для решения задачи информацию. Во-вторых, необходимо определить, как настраиваются весы связей сети. Алгоритм обучения означает процедуру, в которой используются правила обучения для настраивания весов.

Существуют три вида обучения: "с учителем", "без учителя" (самообучение) и смешанное. В первом случае нейросеть имеет в своем распоряжении правильные ответы (выходы сети) на каждый входной пример. Весы настраиваются так, чтобы сеть вырабатывала ответы близкие к известным правильным ответам. Обучение без учителя не требует знания правильных ответов на каждый пример обучающей выборки. В этом случае используется внутренняя структура данных и корреляция между образцами в обучающем множестве для распределения образцов по категориям. При смешанном обучении часть весов определяется по помощи обучения с учителем, в то время как другая определяется по помощи самообучения.

Алгоритм обратного распространения

Нейронные сети обратного распространения – это мощнейший инструмент поиска закономерностей, прогнозирования, качественного анализа. Такое название – сети обратного распространения (back propagation) они получили из-за используемого алгоритма обучения, в котором ошибка распространяется от выходного слоя к входному, т.е. в направлении, противоположном направлению распространения сигнала при нормальном функционировании сети. Этот алгоритм стал известен в 1986 году благодаря работе Румельхарта, Хилтона и Вильямса [4].

Нейронная сеть обратного распространения состоит из нескольких слоев нейронов, причем каждый нейрон слоя i связан с каждым нейроном слоя i+1, т.е. речь идет о полносвязной нейронной сети.

В общем случае задача обучения нейросети сводится к нахождению некой функциональной зависимости Y=F(X) где X-вектор входной, а Y -выходной векторы. В общем случае такая задача, при ограниченном наборе входных данных имеет бесконечное множество решений. Для ограничения пространства поиска при обучении ставится задача минимизации целевой функции ошибки нейронной сети, которая находится по методу наименьших квадратов:

 (1)

где  – реальное выходное состояние нейрона j выходного слоя N нейронной сети при подаче на ее входы p-го образа; djp – идеальное (желаемое) выходное состояние этого нейрона.

Суммирование ведется по всем нейронам выходного слоя и по всем обрабатываемым сетью образам. Минимизация ведется методом градиентного спуска, что означает подстройку весовых коэффициентов следующим образом:

 (2)

Здесь wij – весовой коэффициент синаптической связи, соединяющей i-ый нейрон слоя n-1 с j-ым нейроном слоя n, – коэффициент скорости обучения, 0<<1.

Как показано в [4],

(3)

Здесь под yj, подразумевается выход нейрона j, а под sj – взвешенная сумма его входных сигналов, то есть аргумент активационной функции.

Третий множитель sj/wij, очевидно, равен выходу нейрона предыдущего слоя yi(n-1).

Что касается первого множителя в (3), он легко раскладывается следующим образом [4]:

(5)

Здесь суммирование по k выполняется среди нейронов слоя n+1.

Введя новую переменную

(6)

мы получим рекурсивную формулу для расчетов величин j(n) слоя n из величин k(n+1) более старшего слоя n+1.

(7)

Для выходного же слоя

(8)

Теперь мы можем записать (2) в раскрытом виде:

(9)

Таким образом, полный алгоритм обучения нейронной сети с помощью процедуры обратного распространения строится так:

1. Подать на входы сети один из возможных образов и в режиме обычного функционирования нейросети, когда сигналы распространяются от входов к выходам, рассчитать значения последних.

2. Рассчитать (N) для выходного слоя по формуле (8).

3. Рассчитать по формуле (9) изменения весов w(N) слоя N.

4. Рассчитать по формулам (7) и (9) соответственно (n) и w(n) для всех остальных слоев, n=N-1,...1.

5. Скорректировать все веса в нейросети

(14)

6. Если ошибка сети существенна, перейти на шаг 1. В противном случае – конец.

7. Повторить шаги 1-6 для следующего примера.

Практическая часть

Метод исследования

Данные

Основным источником данных для исследования были выбраны объявления о продаже квартир, опубликованные в газете “Пермские квартиры” в течение марта 2007 года. Рассматривались только квартиры находящиеся в г. Пермь.

Из 6000 объявлений для исследования была использована лишь небольшая часть. Т.к. объявления, в которых не было достаточно данных, исключались из рассмотрения. В итоге осталась выборка из 100 объявлений.

Переменные

Выбранные переменные отражают физические характеристики оцениваемого объекта. Использованные переменные описаны в Таблице 1.

Таблица 1   Описание переменных, использованных в исследовании

Переменная

Описание

Преобразование

Микрорайон

Микрорайон, в котором находится объект оценки

Переведена в соответствующую фиктивную переменную

Тип постройки

Категориальная переменная, допускающая  7 типов постройки

Переведена в соответствующую фиктивную переменную

Общая площадь

Общая площадь объекта в квадратных метрах

Используется в текущем формате

Жилая площадь

Жилая площадь объекта в квадратных метрах

Используется в текущем формате

Площадь кухни

Площадь кухни объекта в квадратных метрах

Используется в текущем формате

Количество комнат

Количество комнат в объекте

Используется в текущем формате

Этаж

Этаж, на котором расположен объект

Используется в текущем формате

Этажность

Количество этажей в доме, в котором расположен объект

Используется в текущем формате

Материал стен

Категориальная переменная, допускающая  3 типа материала стен

Переведена в соответствующую фиктивную переменную

Планировка

Категориальная переменная, допускающая  4 типа планировки

Переведена в соответствующую фиктивную переменную

Балкон/лоджия

Категориальная переменная, допускающая  6 типов наличия/отсутствия балкона/лоджии

Переведена в соответствующую фиктивную переменную

Санузел

Категориальная переменная, допускающая  2 типа санузла

Переведена в соответствующую фиктивную переменную

Состояние

Масштабированная переменная от 0 – плохое состояния до 2 – хорошее состояние

Используется в текущем формате

Большинство переменных являются количественными или описательными.

Метод

Для выполнения оценки использовался трехслойный персептрон с 13 входами, 9 и 3 нейронами на первой и втором скрытых слоях соответственно и одним выходом, полученный после процедуры оптимизации персептрона. На рис. 2 представлена схема рассматриваемого персептрона.

Рис. 2. Схема персептрона

Для обучения использовалась выборка из 92 примеров и для тестирования использовалась выборка из 8 примеров. В качестве алгоритма обучения был использован алгоритм обратного распространения ошибки.

Результаты получены с помощью «Нейросимулятора v1.0» (разработчик – Черепанов Ф.), ввод обучающей выборки производился из Microsoft Excel.

Результаты, полученные при применении нейросети, сравнивались с реальной ценой на объект оценки. Была вычислена среднеквадратичная ошибка между спрогнозированным значением и реальным значением цены на объект.

Оптимизация персептрона

Для осуществления данного пункта, был произведен расчет погрешности обучения, обозначаемой ε, и погрешности обобщения, обозначаемой εT.

,

где Q – количество элементов в обучающей выборке, QT - – количество элементов в тестирующей выборке, di,diT – желаемый выход сети, yi,yiT – прогноз сети.

Характерные кривые зависимости погрешностей обучения и обобщения от числа нейронов внутренних слоев персептрона приведены на рис. 3.

Рис.3. Характерные кривые зависимости погрешности обучения ε и погрешности обобщения εТ от числа нейронов внутренних слоев персептрона

Также был произведен расчет погрешностей обучения и обобщения в процентах.

,

где Q – количество элементов в обучающей выборке, QT - – количество элементов в тестирующей выборке, di,diT – желаемый выход сети, yi,yiT – прогноз сети.

Характерные кривые зависимости погрешностей обучения и обобщения от числа нейронов внутренних слоев персептрона приведены на рис. 4.

Рис. 4. Характерные кривые зависимости погрешности обучения ε и погрешности обобщения εТ от числа нейронов внутренних слоев персептрона

Из приведенных выше графиков видно, что минимальная погрешность обобщения достигается при числе нейронов на внутренних слоях равном 12. Следовательно, в дальнейшем будем рассматривать персептрон с 9 и 3 нейронами на первой и втором скрытых слоях соответственно.

Результаты исследования

В первую очередь осуществим прогнозирование стоимости жилья для тестирующего множества. Результаты прогнозирования представлены в Приложении 1.

На следующем этапе исследования выясним, какие из рассмотренных входных параметров являются наиболее значимыми. Определять значимость параметра будем путем последовательного исключения из персептрона каждого параметра, при этом будем анализировать реакцию сети на исключение параметра, в частности, будем рассматривать погрешность обобщения εT. Если сеть не реагирует или слабо реагирует на исключение какого-либо входного параметра, то этот параметр не является значимым.

Полученные результаты представлены на рис. 5.

Рис. 5. Зависимость погрешности обобщения εT от входных параметров.

Таким образом, из приведенного выше графика видно, что наиболее значимыми входными параметрами являются такие параметры, как «тип постройки», «этаж» и «планировка», так как при исключении этих параметров происходит наибольшее увеличение погрешности обобщения εТ.

Исходя из описанных выше результатов, выявим зависимость между стоимостью квартиры, этажом и типом постройки. Для этого фиксируем все входные параметры, кроме этажа, и подаем полученное множество примеров на вход нейросети. Значение этого параметра изменяется от 1 до 10. повторяем эту процедуру для каждого из 6 типов постройки.

На рис. 7,8 и 9, размещенных в Приложении 2, представлены зависимости стоимости от этажа для различных типов постройки для одно-, двух- и трехкомнатных квартир соответственно.

Из полученных графиков можно сделать следующие выводы:

  1.  наиболее дорогостоящими являются квартиры, расположенные на 2, 3 и 4 этажах;
  2.  стоимость трехкомнатных квартир почти не зависит от этажа, на котором расположена квартира;
  3.  стоимость квартиры, тип постройки которой «хрущевка», намного ниже, чем стоимость квартир других типов постройки.

Заключение

Мною была разработана оптимальная нейронная сеть, которая осуществляет оценку стоимости жилья. Результаты применения полученной нейросети приведены выше. Из этих результатов можно сделать вывод о том, что нейронные сети могут применяться как для оценки недвижимости, так и для определения характеристик жилья, которые наиболее сильно влияют на стоимость недвижимости.

В моих дальнейших планах:

  •  разработать систему оценки недвижимости, основанную на нейросетевых технологиях;
  •  сравнить результаты, полученные с помощью этой системы, с результатами, полученными с помощью множественной регрессионной модели и с помощью методов теории оценки недвижимости.

Список литературы

1. Аюев В.В., Рыбкин С.В. Гибридная система оценки недвижимости – http://www.ict.nsc.ru/ws/YM2004/8553/t01.htm

2. Данько Т.П., Ходимчук М.А. Системы искусственного интеллекта в разработке корпоративных маркетинговых стратегий   - http://www.cfin.ru/press/marketing/2000-5/04.shtml

3. Организация интеллектуальных вычислений – http://victoria.lviv.ua/html/oio/index_rus.html

4. Ясницкий Л.Н. Введение в искусственный интеллект. М.: Издательский центр «Академия», 2005.

5. Gallego Mora-Esperanza J. Artificial Intelligence Applied to Real Estate Valuation – www.eurocadastre.org/pdf/jgallegoct50ing.pdf

6. Rossini P. Application of Artificial Neural Networks to the Valuation of Residential Property - www.prres.net

7. Rossini P. Improving the Results of Artificial Neural Network Models for Residential Valuation - www.prres.net

8. Wilkowski W., Budzynski T. Application of Artificial Neural Networks for Real Estate Valuation www.fig.net

Приложения

Приложение 1

Результаты прогнозирования

Рис. 6. Прогноз сети

Приложение 2

Зависимости стоимости жилья от этажа.

Рис. 7. Зависимость стоимости однокомнатной квартиры от этажа для разных типов строения.

Рис. 8. Зависимость стоимости двухкомнатной квартиры от этажа для разных типов строения.

Рис. 9. Зависимость стоимости трехкомнатной квартиры от этажа для разных типов строения.


 

А также другие работы, которые могут Вас заинтересовать

17850. Совершенная конкуренция 7.08 MB
  Задача 4 Тема Совершенная конкуренция Исходные данные: Год рождения студента ГР = 1980 Месяц рождения студента МР = 4 День рождения студента ДР = 21 На рынке совершенной конкуренции отраслевой спро
17851. Монополия. Задача 1.98 MB
  Задача 5 Тема: Монополия Исходные данные: Год рождения студента ГР = 1999 Месяц рождения студента МР = 5 День рождения студента ДР = 23 Рыночная функция спроса имеет следующий вид: QD = ГР/3 – 05×МР×P = 666 – 25Р Фу
17852. Потребительский выбор 1.1 MB
  Задача 1 Тема Потребительский выбор Исходные данные: Год рождения студента: ГР = 1985 Месяц рождения студента: МР = 1 День рождения студента: ДР = 3 Функция полезности потребителя: TU = ГР × А × В =1985АВ Доход потребителя: I = ГР = 1985 Цена блага А: PА = 5 × ДР = ...
17853. Производство экономических благ 1.11 MB
  Задача 2 Тема Производство экономических благ Исходные данные: Год рождения студента ГР = 1996 Месяц рождения студента МР = 2 День рождения студентаДР = 25 Производстве
17854. Спрос и предложение. Рыночное равновесие 3.54 MB
  Задача 3 Тема: Спрос и предложение. Рыночное равновесие Исходные данные: Год рождения студента ГР = 1996 Месяц рождения студента МР = 3 День рождения студента ...
17855. Олигополия 1023 KB
  Задача 6 Тема: Олигополия Исходные данные: Год рождения студентаГР = 2000 Месяц рождения студентаМР = 6 День рождения студентаДР = 28 Фирма Microsoft является лидером в разработке компьютерного обеспечения и доминирует на мировом рынке на котором вместе с ней п
17856. Рынок земли, задача 82 KB
  Задача 7 Тема: Рынок земли Исходные данные: Год рождения ГР = 1982 Месяц рождения МР = 7 День рождения ДР = 15 Спрос на продукцию аграрной отрасли характеризуется функцией QD = ГР МР ´ P = 1982 – 7Р Технология аграрного
17857. Рынок труда 3.04 MB
  Задача 8 Тема: Рынок труда Исходные данные: Год рожденияГР = 2000 Месяц рожденияМР = 8 День рождения ДР = 8 Спрос на продукцию угольной отрасли характеризуется функцией: QD = ГР – МР × P = 2000 – 8P. Технология производства угля задана производственной функцией: ...
17858. Рынок капитала 2.97 MB
  Задача 9 Тема: Рынок капитала Исходные данные: Год рожденияГР = 1968 Месяц рождения МР = 9 День рождения ДР = 1 Спрос на продукцию микропроцессорной отрасли удовлетворяемый корпорацией характеризуется функцией: QD = ГР – МР ´ P = 1968 – 9Р. Технология прои