ITPub博客

首页 > 大数据 > 数据挖掘 > 房地产估价机构数据挖掘与利用(中房学2013年年会论文一等奖)

房地产估价机构数据挖掘与利用(中房学2013年年会论文一等奖)

数据挖掘 作者:ageng_1 时间:2013-12-15 11:55:10 0 删除 编辑

房地产估价机构数据挖掘与利用

武汉国佳房地资产评估有限公司

宋生华 虞达锋


摘要: 房地产估价机构开展数据挖掘与利用是打造企业新的核心竞争力,促使其升级、转型的内在需求与重要推力。笔者根据所在机构多年的实践体会,对大数据时代房地产估价行业发展进行了展望,阐述了房地产估价数据挖掘与利用的关键步骤,介绍了房地产估价数据挖掘与利用实践,对估价机构开展数据挖掘与利用具有现实的借鉴与指导意义。

 

关键词:房地产 数据 挖掘 利用 实践

 

          (注:文中图表省略)

一、大数据时代房地产估价行业发展展望

大数据时代背景下,数据已然成为各行业升级、转型的重要推力。大数据时代房地产估价行业发展有两个必然的趋势:一是估价技术日趋精细,二是业务范围日趋宽广。

(一)估价技术日趋精细

数据的挖掘与利用将促使房地产估价技术日趋精细。房地产估价是科学与艺术的结合。虽然当前的估价原理及技术已趋于完善,但在实务中的运用却仍存在一定的缺陷。如估价参数的确定,绝大多数估价师依据的仍然是个人经验(这也是房地产估价艺术性的集中体现)。

而数据的挖掘与利用,能将房地产估价的科学性提升至极致。如利用大量交易数据建立房地产特征价格模型,从而将房地产的价格影响因素分解,求出各影响因素所隐含的价格或对应的修正系数,可实现房地产估价市场法的完美运用。

(二)业务范围日趋宽广

数据的挖掘与利用将促使房地产估价机构由传统的房地产价格评估向房地产咨询顾问业务开拓,业务范围日趋宽广。早在几年前,唯有开拓房地产咨询顾问业务才能支持房地产估价行业的可持续发展,已经成为业界的一个共识。传统房地产估价业务与房地产咨询顾问业务两者在技术层面存在千丝万缕的联系,其实质均可归结为不同层面或角度的价值评估。但总体而言,房地产咨询顾问业务对技术与数据的要求要高于传统房地产估价业务。只有通过数据的挖掘与利用,房地产估价行业才具备开拓房地产咨询顾问业务的可能。

从目前的房地产市场发展状况看,投资主体多元化趋势日益明显,一些非专业化的投资主体纷纷介入房地产开发市场,他们对专业化的全过程项目咨询服务求之若渴。此外,客户寻求 一站式服务也促使房地产估价机构开展房地产咨询顾问业务成为必然选择。总而言之,当前房地产市场发展变化给估价机构开展房地产咨询顾问业务提供了前所未有的机遇。因此,在此市场机遇条件下,房地产估价机构在数据挖掘与利用的支持下,将能顺利地由传统的房地产价格评估向房地产咨询顾问业务开拓。

二、数据挖掘与利用的关键步骤

房地产估价机构数据挖掘与利用有三个关键步骤:一是数据标准化,二是数据清理,三是数据检验。关键步骤技术的高低决定数据的质量,进而对数据挖掘与利用的效果产生直接影响。

(一)数据标准化

1.标准化的必要性

所谓数据标准化,其实质是数据的同质化。房地产数据的标准化是采用市场法将房地产交易数据修正为标准房屋价格的过程。

房地产数据标准化一般要进行两次。第一次标准化是在获取数据后对原始数据进行标准化,其目的是为下一步的数据清理做准备。无论是网上采集数据还是所谓有真实交易数据,其中都会存在一些不能客观反映房地产市场价值的数据(大数据的特性之一即价值密度低,商业价值高)。根据特征价格原则,房地产由众多不同的特征(即影响因素)组成,而房地产价格是由所有特征带给人们的效用决定的。由于各特征的数量及组合方式不同,使得房地产的价格产生差异。因此,进行标准化能将房地产价格变动的品质因素拆离,以反映纯粹价格的变化。即只有对数据进行同质化的处理后,用同一标准的视角去审视数据,才有可能去伪存真,为数据的挖掘与利用奠定基础。

第二次标准化是在进行数据清理并检验后再次进行数据标准化,其目的是为数据挖掘与利用直接铺设桥梁。由于已将不能客观反映房地产市场价值的数据进行了清除整理,因此,此时对数据进行标准化能客观准确的反映纯粹的房地产价格的变化。如在第二次标准化的基础上,可轻易实现房地产价格指数监测等数据利用。


        2.标准化的步骤

1)确定价格影响因素

确定价格影响因素的重要原则是不多不漏。相对而言,提取无关因素导致的后果不那么严重,仅仅将导致效率损失。而当遗漏有关因素时,后果可能是非常严重的,甚至导致标准化后的数据无法通过检验。

影响因素分绝对影响因素和相对影响因素。所谓绝对影响因素,是指实际影响房地产价格的所有因素。如笔者所在机构对武汉市商品住宅提取了35个影响因素。所谓相对影响因素,是指在某一范围内,影响房地产价格的不同因素。如对于某一栋住宅楼,由于除了所在层楼、朝向、建筑面积、户型、装修标准5个因素之外,影响房地产价格的其它因素如建筑结构、建成年份、设施设备等等均一致,故对于该栋住宅楼,其相对影响因素只有5个:所在层楼、朝向、建筑面积、户型、装修标准。

实务中标准化所需确定的价格影响因素一般为相对影响因素,即只需要确定数据分析范围内对房地产价格有所影响的不同因素(在房地产特征价格模型中,相同的因素对房地产价格的影响将以常数项综合体现)。数据分析的范围越大,需要提取的相对价格影响因素越多。如对于某住宅小区,除了所在层楼、朝向、建筑面积、户型、装修标准5个因素之外,影响房地产价格因素还有建筑结构、建成年份、设施设备等。

2)确定标准

确定标准有两条原则。原则一:在第一次标准化过程中应尽量减少数据的修正计算,以提高标准化的精准度。原则二:在第二次标准化过程中,确定的标准应有利于数据的挖掘与利用,以避免进行无意义的工作。

与确定价格影响因素相对应,确定的标准也分绝对标准与相对标准。不同分析范围的价格影响因素与标准关系如表1所示。

标准可以是真实的,也可以是虚拟的。所谓真实标准,是指在分析范围内标准因素条件下的房屋(即标准房屋)是真实存在的。如某一栋住宅楼的201室,所在楼层为2楼,其朝向为南北朝向,建筑面积120平方米,户型为3房两厅。以此作为标准房屋,则标准是真实。反之,若不存在对应的标准房屋,则标准是虚拟的。真实与虚拟有可能是相对的,取决于所划定的分析范围。如对于某楼栋,标准是虚拟的;但在更大的分析范围内(如小区),标准又可能是真实的。采用真实的标准有利于对数据进行分析判断;而采用虚拟的标准一般是出于减少数据的修正计算或特殊的数据挖掘与利用需要。在实务过程中采用何种标准应综合考虑确定。

3)确定修正系数

确定修正系数通常有两种做法:一是根据估价师个人经验直接确定,虽然工作量小,但精度无法保障;二是通过构建房地产特征价格模型确定,需要大量的数据支持及分析工作,精度高。通过实践与对比后,笔者所在机构经过深入研究探索出利用线性规划确定市修正系数的方法。实践表明,利用线性规划确定修正系数具有精度高、所需数据量小、高效快捷、客观科学的特点。

2为笔者利用线性规划对选择的三个可比案例同时进行标准化时某案例出现价格异常的分析结果。当三个案例中的某案例(案例B)出现价格异常、偏离客观市场价格的幅度从0变化至-10%时,案例B标准化后的比准价格偏离客观价格的幅度最大约为-4%;而当案例B价格偏离客观市场价格的幅度从0变化至10%时,案例B标准化后的比准价格偏离客观价格的幅度最大仅为-0.6%

研究表明,利用线性规划求解修正系数具有明显的自适应特点,能根据房地产价格与影响因素之间的内在关系自动调整修正系数,保证修正系数的可靠性。

  (二)数据清理

1.清理的必要性

所谓数据清理,是将不能客观反映房地产市场价值的异常值进行清除整理(一般是直接剔除)的过程。对于获取的数据,由于测量失真、计算失误、人为错误等各种原因导致个别数据出现异常。异常值的出现会掩盖真实数据的变化规律,致使研究对象变化规律异常,得出错误结论。因此,正确判别并清理异常值有助于提高数据处理的精度,有必要找出异常值并予以清除整理。

2.清理的方法

13倍均方差法

由于算法简单且效率高,3倍均方差方法是房地产数据清理中最常用的方法。所谓3倍均方差法,是指一组数据中,单个值与平均值之差大于3标准差的就判定为异常值。但笔者通过实践发现,采用3倍均方差法对房地产数据进行清理存在一定的瑕疵。如一组标准化后的房地产价格数据{75008100820080008160},其平均值为7992标准差285.17。根据直观判断,数值7500应属于异常值。但数值7500与平均值之差小于3倍的标准差(仅为1.73),根据3倍均方差法并不能将其剔除。鉴于以上分析,笔者不建议采用此方法对房地产数据进行清理。

2)狄克松(Dixon)准则

狄克松(Dixon)准则的基本思想为:设有一组测量数据 ,且为正态分布,则可能为异常值的测量数据必然出现在两端,即 。狄克松给出了不同样本数量 时检验统计量的计算公式(见表2)。当显著水平 1%5%时,狄克松给出了其临界值 。如果测量数据的检验统计量 ,则 为异常值,如果测量数据的检验统计量 ,则 为异常值。

目前,判别异常值的方法很多,常用的有t检验(3S)准则、狄克松(Dixon)准则、格拉布斯(Grubbs)准则等,这些准则大多基于数据为正态分布的假设。根据实践检验并出于效率原因,笔者所在机构选择狄克松(Dixon)准则对数据进行清理。但由于狄克松(Dixon)准则只适用于数据个数较少的情况(3≤n≤40),故笔者所在机构对判别异常值的方法进行了全面、深入的研究与实践,最终研究出一套高效率的适用于任意数据个数的异常值判别算法。

(三)数据检验

1.检验原则

1)众数原则

一般概念上的众数,是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。简单的说,就是一组数据中占比例最多的数值。

一般概念上的众数对于房地产数据检验的作用是有限的。但笔者对众数的一般概念进行扩展并延伸:一组数据中具有明显集中趋势范围数值组合。如一组标准化后的房地产价格数据{75008100820080008160},其众数为{8100820080008160}。笔者所在机构以此扩展延伸的众数概念对房地产数据进行检验,取得了良好的效果(经对比分析,在一定的设置参数下,效果与上述狄克松准则效果相同)。

 2)正态分布原则

正态分布又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态分布一种概率分布,也称常态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。实践证明,对于同一供需圈内的同一类型房地产,其标准化后的价格符合正态分布。

2.检验步骤

房地产数据的检验应遵循一定的步骤:先对标准化的数据进行正态分布检验后,再进行标准差检验。避免为了通过最后的检验而简单扩大化地对数据进行清理。

1)正态分布检验

检验次数有限时,可直接利用现成的统计分析软件(如SPSS)对数据进行正态分布检验。但对于批量的正态分布检验,一般采用计算法进行检验,以便于编制程序对数据进行批量检验。

由于常规的正态分布检验对数据的数量有一定的最低要求,出于对小范围的少量数据进行正态分布检验的实际需要,笔者所在机构采用非参数Bootstrap法进行正态分布检验,具体做法是:对原始样本X有放回的重复抽样n次,每次抽取一个,得到的样本称为一个Bootstrap样本,计算此样本下θ的估计值;然后重复抽取Bootstrap样本m次,即可得到θ估计值的分布,它可近似作为θ的分布。

2)标准差检验

所谓标准差,是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度,在概率统计中最常使用作为统计分布程度上的测量

三、数据挖掘与利用实践

(一)数据挖掘与利用实践

凭借对数据于房地产估价行业升级转型具有重要推动意义的敏锐意识与深刻理解,笔者所在机构多年前就开始进行房地产数据挖掘与利用的研究与实践,并于两年前建立了具备房地产数据清理、房地产价格指数监测、房地产收益率监测、房地产自动询价、房地产市场分析等多个功能模块的房地产数据分析平台。

(二)数据挖掘与利用实践举例

武汉市商品住宅价格指数监测系统是笔者所在机构最早的数据挖掘与利用实践之一。系统工作分三阶段进行,其技术流程如图4所示。

       1.数据预处理

在此阶段,交易数据经过两次标准化、数据清理和检验,最终得到部分楼栋的基准价格。其中,第一次标准化是在同一小区范围进行,以避免数据不足导致无法进行下一步的数据清理;而第二次标准化则在同一楼栋范围进行,以最大程度的减少修正系数的影响,保证标准化数据的精准度。同一楼栋的数据经过第二次标准化后,以其平均值作为楼栋的基准价格。

2.数据挖掘

此阶段工作的核心是利用上一阶段工作得到的部分楼栋基准价格,经过价格评估模型得到武汉市每一栋商品住宅楼的基准价格。

有别于目前现有的房地产价格评估模型,笔者所在机构采用的价格评估模型是经过多年研究与实践,最终研究得出的复合型评估模型。该评估模型严格遵循市场法的技术路线并完美的体现其技术特点,具体工作流程为:首先根据特征价格模型对武汉市每一栋商品住宅楼进行特征因素评定(笔者所在机构利用GIS平台对楼栋进行区域特征因素分析评定,利用内部采集的小区基础数据库进行个别因素的特征因素分析评定,大大减少了这一基础工作的工作量并最大程度地提高工作的准确性)。其次,对于某未知基准价格的楼栋,以上一阶段工作得到的部分楼栋基准价格作为案例库,根据模糊数学原理提取3个与之最为相似的可比案例,采用线性规划原理自动计算得出修正系数与比准价格,最终得到未知楼栋的基准价格。

  

3.数据利用

将当月的楼栋基准价格与上月价格进行对比,计算得出当月所有楼栋的价格指数。以此为基础,以每个小区内的楼栋价格指数平均值作为小区的价格指数。在小区价格指数的基础上逐级推算,即可逐级得到行政区价格指数、主城区(远城区)价格指数、武汉市价格指数,或是任意指定片区的价格指数。

五、结语

房地产估价机构开展数据挖掘与利用是打造企业新的核心竞争力,促使其升级、转型的内在需求与重要推力。依托数据挖掘与利用,估价机构不但可以提高估价技术水平,而且能顺利地由传统房地产价格评估向房地产咨询顾问业务、甚至数据服务业务开拓,实现企业的长远、开创性发展。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22322243/viewspace-1121757/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-08-11