R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)
原文:http://tecdat.cn/?p=3897 文本分析:主题建模library(tidyverse)theme_set( theme_bw()) 目标定义主题建模解释Latent Dirichlet以及此过程的工作原理演示如何使用LDA从一组已知主题中找到主题结构演示如何使用LDA从一组未知主题中找到主题结构确定k选择适当参数的方法主题建模 通常,
R语言社区主题检测算法应用案例
原文链接:http://tecdat.cn/?p=5658 使用R检测相关主题的社区 创建主题网络对于Project Mosaic,我正在通过分析抽象文本和共同作者社交网络来研究UNCC在社会科学和计算机和信息学方面的出版物。我遇到的一个问题是:如何衡量主题之间的关系(相关性)?特别是,我想创建一个连接类似主题的网络可视化,并帮助用户更轻松地浏览大量主题(在本例中为100个主题
R语言提取时间序列的周期性成分应用EMD,小波滤波器,Baxter过滤器等
原文链接:http://tecdat.cn/?p=5399 介绍对商业周期的分析需要提取时间序列的周期性成分,该时间序列通常也受到诸如潜在趋势或噪声等其他因素的影响。本文介绍了一些在最近的文献中用于从给定系列中提取商业周期的方法。它基于Stock and Watson(1999)在“宏观经济学手册”中关于商业周期的章节。我还介绍了相对较新的方法,如小波滤波器或经验模式分解,这
Python之LDA主题模型算法应用
原文链接:http://tecdat.cn/?p=5318 在这篇文章中,我将介绍用于Latent Dirichlet Allocation(LDA)的lda Python包的安装和基本用法。我不会在这篇文章中介绍该方法的理论基础。然而,这个模型的主要参考,Blei etal 2003可以在线免费获得,我认为将语料库(文档集)中的文档分配给基于单词矢量的潜在(隐藏)主题的主要思想是相当容
Python时间序列选择波动率预测指数收益算法分析案例
原文 http://tecdat.cn/?p=4092背景在传统的金融理论中,理性和同质的投资者是核心假设之一,表明每个投资者都有相同的信息,从而做出同样的决定。然而,投资者显然是不均衡的,信息的不对称在股市中很普遍。当知情投资者优先考虑某种类型的资产时,该类资产可能包含更多隐含信息。期权市场是知情投资者可能更积极参与的市场之一,正如布莱克在1975年提出的那样,让投资者倾向于以较高的杠
R语言Bass模型进行销售预测
原文:http://tecdat.cn/?p=3937 BASS扩散模型BASS扩散模型三个参数:#最终购买产品的总人数,m; 创新系数p; 和#系数的模仿,q# exampleT79<-1:10Tdelt<-(1:100)/10Sales<-c(840,1470,2110,4000,7590,10950,10530,9470,7790,5890)Cusale
spss modeler用决策树神经网络预测ST的股票
原文链接:http://tecdat.cn/?p=2784 之前在某社区中看到一篇帖子《一张价值几十万个跌停的统计表》,主要是预测即将被ST的股票,虽然有些标题党,但是还有有一些参考价值的。文章中使用了净利润指标来对可能成为ST的股票进行排雷,那么是否有其他指标可以用机器学习的方法对该问题进行建模同时提高预测的准确度呢?首先我们来了解下问题的背景:股票市场上,一般把财务状况或其他状况出现
R语言多元Logistic逻辑回归 应用案例
原文链接:http://tecdat.cn/?p=2640 可以使用逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC。 如何进行多重逻辑回归 可以使用阶梯函数通过逐步过程确定多重逻辑回归。此函数选择模型以最小化AIC。通常建议不要盲目地遵循逐步程序,而是要使用拟合统计(AIC,AICc,BIC)比较竞争模型,或者根据生物学或科
R语言用rle,svm和rpart决策树进行时间序列预测
原文链接:http://tecdat.cn/?p=3072 下面显示了四种预测时间序列的方法。支持向量机(R package e1071。“Chih-Chung Chang and Chih-Jen Lin,LIBSVM:a library for support vector machines,2005.”的实现)。递归分区(R package rpart。“Breiman
混合IBCF协同过滤推荐算法推荐引擎
原文链接:http://tecdat.cn/?p=3948 混合IBCF算法的离线与实时的分布式设计实现在现行的 Web 站点上的推荐往往都不是单纯只采用了某一种推荐的机制和策略,往往是将多个方法混合在一起,从而达到更好的推荐效果。结合业务痛点,我们采用一种基于矩阵填充技术的混合IBCF算法。首先利用准确度指标找出SVD的最优参数和混合IBCF算法的最佳权重,然后使用
混合IBCF协同过滤推荐算法推荐引擎的探索1
原文链接:http://tecdat.cn/?p=984 电商行业智能推荐引擎的探索 机器学习助力母婴电商 概要拓端帮助国内母婴电商公司创建智能推荐引擎,由此打造精准、高效的购物体验,探索
R语言实现:混合正态分布EM最大期望估计法
原文链接:http://tecdat.cn/?p=4815 因为近期在分析数据时用到了EM最大期望估计法这个算法,在参数估计中也用到的比较多。然而,发现国内在R软件上实现高斯混合分布的EM的实例并不多,大多数是关于1到2个高斯混合分布的实现,不易于推广,因此这里分享一下自己编写的k个高斯混合分布的EM算法实现请大神们多多指教。并结合EMCluster包对结果进行验算。 &nbs
数据挖掘算法在物业设备设施管理的风险识别与防控应用
参考原文:http://tecdat.cn/?p=2186 物业工程肩负着维持项目各类设施设备的正常运作,保障全体业主的正常生活,令物业保值升值,是项目的心脏部门。拓端数据(tecdat)研究人员根据全国电梯故障上报汇总数据,从多个角度进行数据分析。 物业工程肩负着维持项目各类设施设备的正常运作,保障全体业主的正常生活,令物业保值升值,是项目的心脏部门。工程设备故障
R语言 RevoScaleR的大规模数据集决策树模型应用案例
原文:http://tecdat.cn/?p=3703 RevoScaleR中的rxDTree函数使用基于分类的递归分区算法来拟合基于树的模型得到的模型类似于推荐的ř包rpart包产生的模型支持分类型树和回归型树。; 与rpart包一样,差异由响应变量的性质决定:因子响应生成分类树; 数字响应生成回归树。rxDTree算法决策树是广泛用于分类和回归的有效算法。构建决策树通常要求对所有连续
R语言Kaggle泰坦尼克号性别阶级模型数据分析案例
原文链接:http://tecdat.cn/?p=6062 这场灾难以拯救“妇女和儿童第一”而闻名,所以让我们来看看性别和年龄变量。我们将从乘客的性别开始。将数据重新加载到R后,请查看此变量的摘要:> summary(train$Sex)female male314 577所以我们看到大多数乘客都是男性。对幸存的男性和女性进行双向比较:>&nbs
时间序列分解和异常检测方法应用案例
原文 http://tecdat.cn/?p=3232 我们最近有一个很棒的机会与一位伟大的客户合作,要求Business Science构建一个适合他们需求的开源异常检测算法。业务目标是准确地检测各种营销数据的异常情况,这些数据包括跨多个客户和Web源跨越数千个时间序列的网站操作和营销反馈。输入anomalize:一个整洁的异常检测算法,该算法基于时间(建立在之上tibble
R语言使用特征工程泰坦尼克号数据分析应用案例
原文参考:http://tecdat.cn/?p=4491 特征工程对于模型的执行非常重要,即使是具有强大功能的简单模型也可以胜过复杂的算法。实际上,特征工程被认为是决定预测模型成功或失败的最重要因素。特征工程真正归结为机器学习中的人为因素。通过人类的直觉和创造力,您对数据的了解程度可以带来不同。那么什么是特征工程?对于不同的问题,它可能意味着许多事情,但在泰坦尼克号的竞争中,它可能意味
R语言泰坦尼克号随机森林模型案例数据分析
原文链接:http://tecdat.cn/?p=4281 采取大量单独不完美的模型,他们的一次性错误可能不会由其他人做出。如果我们对所有这些模型的结果进行平均,我们有时可以从它们的组合中找到比任何单个部分更好的模型。这就是整体模型的工作方式,他们培养了许多不同的模型,并让他们的结果在整个团队中得到平均或投票。我们现在很清楚决策树的过度拟合问题。但是如果我们发展了很多并让他们对结果进行投
偏最小二乘回归(PLSR)和主成分回归(PCR)
原文:http://tecdat.cn/?p=2655 此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性。当存在大量预测变量时,PLSR和PCR都是对响应变量建模的方法,并且这些预测变量高度相关或甚至共线。两种方法都将新的预测变量(称为组件)构建为原始预测变量的线性组合,但它们以不同的方式构造这些组件。PCR创建组件来解释预测变
用SPSS估计HLM多层(层次)线性模型模型
原文:http://tecdat.cn/?p=3230作为第一步,从一个不包含协变量的空模型开始。每所学校的截距,β 0J,然后设置为平均,γ 00,和随机误差ü 0J。将(2)代入(1)产生要在SPSS中进行估算,请转至分析→混合模型→线性...出现“ 指定主题”和“重复”菜单。在此示例中,分组变量是id,因此应将其放在“ 主题”框中。在反复框保持为空。它仅在分析人员想要为重