躲不过的数学课​:数据科学领域中需要多少数学知识?

云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

躲不过的数学课​:数据科学领域中需要多少数学知识?

作为一切科学的基础,数学在数据科学领域也占据着重要地位。如果你是一名数据科学爱好者,一定想过这些 d R b d O问题:

  • v W Q : 6 % $可以在几乎没有数学背景的情况下,+ ^ . z成为一名数据科学家吗?
  • 在数据科学中,哪些基本的数学技能是重要的?

有很多好用的包可以用来构建预测模型,或生成数据可视化。一些最常用的描述性分析和预测性分析包包括O L 2:GgploA X = C }t2、Matplotlib、Seaborn、Scikit-learn、Caret、Tensb o k 0 M ^ U : oorFlow、Pyj P 9 @Torch、Keras等。

有了这些包,, p W ? d 3 任何人都可以构建模型或者生成数据可视化。然而,想要T r { x X微调模型,使之能 a 7 x @ W i 0产生具有最佳性能的可靠模型,确实需要非常扎实的数学基础知识。

建立模型是一回事,但是解释模型,并K A X L |且总结出有意义的,且可用于数据驱动的决策制定的结论是另一回O 9 K m事。重要的是,在使用这些包之前,读者g ; A u 必须要对每一个包的数学基础有所了解,不仅限将这些包作为黑盒子工具来使用。

案例研究:构建多元回归模型

假设现在要建立一个多元回归模型。在此之前,我们需要问自己几个问Z F B n题:

  • 数据集有多大?
  • 我的特征变量和目标变量是什么?
  • 哪些预测特征与目标变量最相关?
  • 哪些功能很重要?% j k u 0
  • 应该缩放特征吗?
  • 如何提高模型的预测能力?
  • 应该使用正则回归模型吗?
  • 回归系数是多少?
  • 什么是拦截?
  • 如何将数据集划分为训练集和U @ J :测试集?
  • 什么是主成分分析(PCA)?
  • 应该使用主成分分析来删除冗余的特征吗?
  • 应不应^ c W ] ! Y Y ( k该使用非参数回归模型,如k邻近回归(或支持向量回归)?
  • 模型中有哪些超参数,如何对它们Z P j z 6 0进行微调以获得性能最优的模型?
  • 如何评估模型?是用R2-sL % = : X g G dcoret q ) 5 k . T w j(决定系数),MSE(均方误& 7 t q 8 ]差),还是MAE(平均绝对误差)?

躲不过的数学课​:数据科学领域中需要多少数学知识?

没有良好的9 { o +数学背景,就无法回答上述问题。在数据科学和机器学习中,数学技能和编程技能同等重要。作为一名数据科学爱好者,一定要投入时间来研究数据科学和机器学习的理论和数学基础。

能否建立可靠而有效的模型,使其应用于现实世界的问题,取决于读者的数学技能有多好。接下来我们来讨论一下在数据科m c a W学和机器学习中所需要的一些基本数学技能。

数据科学. r /与机器学习的基本数学技能

1. 线性代数

线性代数是机器学习中最重要的数学技能。数据集表示为矩阵,线性代数用于数据预处理、数据转换、降维和模型评估。

以下是大家需要熟悉的:向量;向量的范数;矩阵;矩阵的转置;逆矩阵;矩阵的行列式;矩阵的迹;点积;特征值;特征@ J ] ; o向量。

2. 统计与概率

躲不过的数学课​:数据科学领域中需要多少数学知识?

统计与概率用于特征可视化、数据预处理、特征转换、数据插补、降维、特征工程、模型评价等。

以下是大家需要熟悉的_ G U p r ^ t:均值、中值、模式、标准0 _ 1 7 @ - p a差/方差、相关系数和协方差矩阵、概率分布(二项式、泊松分布、正态分布)、p值、贝叶斯定理(精度、召回率、正预测值、负预测值、混淆矩阵、ROC曲线)、中心极限定理,R-2 score,均q e y P J S mw 8 v误差(MSE)6 P K l . Z M,A/B检验,蒙特卡罗模拟。

3. 多变量微积分

大多数机器学习模型都是由一个具有多个特征或预测器的数据集建立的。因此a e d K c C Q 4 ,熟悉多变量微积分对于建立机器学习模型非常重要。

以下是大家需要熟悉的:多元函数;导数和梯度;阶跃函数、S形函数、Logit效用函数、ReLU(修正线性单元)函数;成本函数;函数绘图;函数的最小值和最大值。

4.优化方法

大多数机器学习算法是通过最小化目标函数进行预测建模,从而学习为获得预测标签而必须应用于测试数据的权重。

以下是大家需要熟悉的:成本函数/目标函数;似然函数;误差函数;梯度下降算法及其变体(例如随机梯度下降算法)。

躲不过的数学课​:数据科学领域中需要多少数学知识?

本文讨论了数据U , ) #科学和机器学习所需的基本数学和理论技能。互联网时代,你能很轻松找到学习资源。作为数据科学爱好者一定要记住,数据科学的理论基础对于高效可靠的模型建立至关重要。你应该花足够的时间来钻研每种机器学习算法背后的数学理论,这对于数据科学来说是必不可少的。

【云栖号在线课堂】每天都有产品技术p & } ! , 3 O专家分享
课程地址:https://yqh.aliyun.com0 { ?/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-07-05
本文作者:读芯术
本文来自:“读芯术公众号”,了解相关信息} o ( 4 + + H可以关注“读芯术”