机器学习之线性回归算法

大数据同盟会 2022-01-10 系统/运维 201 0 百度已收录

阿里云新用户专享
领取限量2000元代金券

限量爆款选购
2核8G内存5M带宽3000元/3年

学生用户专属
18-24岁用户直享￥9.5/月

全民上云优选
新老用户均可购买低至17元/月

企业级应用一折起购
稳定，可靠企业级独享实例

多产品一键采购
购物车采购可减5000元

ECS 云服务器 SWAS 轻量应用服务器 RDS 云数据库 Redis 云数据库 CDN 内容分发 OSS 对象存储 SLB 负载均衡 NAT 网关 DNS 云解析 MAIL 企业邮箱 WAF 应用防火墙 DDoS 高防 SMS 短信包 MK 云市场 XIN 心选 IM 商标注册 JZ 自营建站

线性回归：通过历史数据拟合出一条直线，用这条直线对新的数据进行预测。

房价预测分析：

package cn.doitedu.ml
import org.apache.log4j.{Level, Logger}
import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.ml.linalg
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.expressions.UserDefinedFunction
import scala.collection.mutable
object LinearPrice {
def main(args: Array[String]): Unit = {
Logger.getLogger("org.apache").setLevel(Level.WARN)
val spark = SparkSession
.builder()
.appName("房价预测")
.master("local")
.getOrCreate()
import org.apache.spark.sql.functions._
import spark.implicits._
val df = spark.read.option("header",true).option("inferSchema",true).csv("userprofile/data/linear/sample")
val arr2Vec: UserDefinedFunction = udf((arr:mutable.WrappedArray[Double])=>{
// Vector是一个接口，它有两个实现，一个是DenseVector，一个是SparseVector
val vector: linalg.Vector = Vectors.dense(arr.toArray)
vector
})
// area,floor,price
val vecDF = df.select(arr2Vec(array('area,'floor)) as "features",'price )
// 构造算法对象
val linearRegression = new LinearRegression()
.setRegParam(0.1)   // 正则化参数  防止过拟合
.setLabelCol("price")
.setFeaturesCol("features")
// 训练模型
val model = linearRegression.fit(vecDF)
// 加载测试数据
val test = spark.read.option("header",true).option("inferSchema",true).csv("userprofile/data/linear/test")
val testVecDF = df.select(arr2Vec(array('area,'floor)) as "features",'price )
// 用训练好的模型，来对测试数据进行输出的预测
val result = model.transform(testVecDF)
result.show(100,false)
// 评估预测效果
val regressionEvaluator = new RegressionEvaluator()
.setPredictionCol("prediction")
.setLabelCol("price")
.setMetricName("rmse")
val rmse: Double = regressionEvaluator.evaluate(result)
spark.close()
}
}

机器学习之线性回归算法

发表评论

发表评论取消回复

相关文章

发表评论

发表评论 取消回复

发表评论取消回复