数据湖知多少 数据湖 数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。 这是AWS给出的解释。 看了很多数据湖的介绍文章,笔者认为数据胡和我们常说的ODS数据很类似,也就是原始数据的保存区域,存储来自各业务系统(消息队列)的原始数 2020-04-25 数据分析
元数据知多少 小B是一名数据分析师,他问小A XXX的所有指标给我一下,小A“鄙视的”给了他一个文档。 元数据知道多少小B作为一名数据分析师,为什么自己没能去找到数据呢? 这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不就你还能看单 2020-04-25 数据分析
数据仓库知多少 数据仓库知多少首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。 我们来看这几个词: 面向主题,数据仓库会规划各种业务主题,所以我们需要理解各大主题的范畴以及之间的关系,这样就了解了数仓的基本架构。 集成,数据仓库的数据会来自各个业务系统数据或者外部爬取数据,所以需要我们知道每个数据仓库的模型字段都是来自哪个源,这样我们就能快速全面的了解相关 2020-04-25 数据分析
数据分析01---规范化方法 Min-max 规范化将原始数据规范到[0-1]之间,公式如下: 1新数值=(原数值-极小值)/(极大值-极小值) 代码实现: 1234567891011# coding:utf-8from sklearn import preprocessingimport numpy as np# 初始化数据,每一行表示一个样本,每一列表示一个特征x = np.array([[ 0., -3., 1. 2019-11-17 数据分析
数据分析02---线性回归 可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 Python sklearn中的LinearRegreesion实例: 1234567891011121314151617181920212 2019-11-17 数据分析
数据分析03---决策树 标签(空格分隔): 数据分析 CART 创建决策树做分类123456789101112131415161718192021222324252627282930313233# encoding=utf-8from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefr 2019-11-17 数据分析
数据分析04---朴素贝叶斯 标签(空格分隔): 数据分析 朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(G 2019-11-17 数据分析
数据分析05---SVM 标签(空格分隔): 数据分析 SVM 是有监督的学习模型,我们需要事先对数据打上分类标签,通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题,可以将多个二分类器组合起来形成一个多分类器。 如何创建一个 SVM 分类器呢?我们首先使用 SVC 的构造函数:model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’),这里有三个重要的参数 kern 2019-11-17 数据分析
浅谈数据中台 一、什么是数据中台数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数据服务。主要包括以下4部分:数据资产、数据治理、数据模型、数据服务。打通数据建模对全域数据进行沉淀形成数据资产,从而提供统一的数据服务功能。 二、如何建立数据中台建设数据中台主要就是从数据模型、数据资产、数据治理、数 2019-03-05 数据中台