【丢】【spark】模型持久化 | 郭飞的笔记

精选技术博客读书笔记库证书陈列柜前端笔记集合趣文集合 2021年书单（读完） 2020年书单（读完） 2019年书单（读完） 2018年书单（读完） 2017年书单（读完） 2016年书单（读完） 2015年书单（读完） 2014年书单（读完）早于2014年的书单（读完）

【C1】基本数据类型、流程控制【C2】指针和数组【C3】变量作用域、内存【C4】结构体【C5】读写文件【C】一些特性【C++】入门【Matlab】全汇总【Java1】基本数据类型、流程控制【Java2】面向对象【Java3】线性表【html】笔记【css】笔记【JavaScript】结合html 【JavaScript】全笔记【jQuery】全笔记

【开源】scikit-opt

【open source】scikit-opt

【开源】blind_watermark

【open source】blind_watermark

【工具】在线sql 【工具】在线文本比较【工具】在线文本去重【工具】清爽搜索【工具】二维码生成器【工具】文本盲水印【轮子】带约束的岭回归【工具】恶俗古风诗歌生成器【工具】震惊体标题生成器【小工具】github star数量统计【开源】github star数量统计

0x00_读论文 11

【读论文】prophet 【论文笔记】Distilling the Knowledge in a Neural Network 【论文笔记】Deep neural networks are easily fooled 【论文笔记】How transferable are features in deep neural networks 【论文笔记】CNN features off-the-Shelf 【论文笔记】Learning and transferring mid-Level image representations CNN 【论文学习】深度学习“里程碑”论文【论文2018】【推荐算法】Alibaba Embedding 【读论文2016】node2vec 【论文2014】Deep Walk 【论文笔记】Visualizing and understanding CNN

0x11_算法平台 16

【Linux】常用命令【Docker】入门【SQL】SELECT专题【spark, Hive, Hadoop, yarn】汇总【spark】DataFrame 【spark】sql.functions 【spark】工程实践【Hive SQL】速查【Python-c】Python 与 C 混合编程【PMML】Java调用Python算法模型打包Python库 mySQL配置【SQL】通用语法【python】sqlAlchemy 数据查询优化详解拉链表

0x12_Pandas与numpy 12

【pandas】读入与读出【pandas】数据筛选【pandas】去重、填充、排序、变换【pandas】index&colums 【pandas】描述统计&简单作图【pandas】groupby 【pandas】时间序列【pandas】合并数据表【pandas】练习题【Python】【numpy】ndarray 【Python】【numpy】linalg线性代数【Python】【numpy】ufunc

0x13_特征工程 4

【特征工程】归一化/标准化/正则化 Unbalanced Data 数据清洗方法经典数据集

0x21_有监督学习 21

【sklearn】一次训练几十个模型机器学习模型汇总【sklearn】模型选取+参数选择【模型评价】理论与实现【交叉验证】介绍与实现【Bagging&Boosting】理论与实现【半监督学习】理论与实现【logistics】理论与实现【Decision Tree】理论与实现【SVM】理论与实现【Random Forest】理论与实现【MLP】BP神经网络实现【KNN】理论与实现【Naive Bayes】理论与实现【判别分析】理论篇【CRF】理论篇【HMM】理论篇【EM算法】理论篇【Probit】理论简介【Elo模型】理论篇【dummies】虚拟变量回归

0x22_上世纪神经网络 10

RBF&GRNN 离散Hopfield 连续Hopfield 竞争神经网络&LVQ SOM Elman PNN Boltzmann机【ELM】极限学习机【感知机】理论简介

0x23_神经网络与TF 17

【DNN】Structuring DNN Projects 【DL】优化【TensorFlow1】session,变量【TensorFlow2】运算符【TensorFlow3】激活函数【TensorFlow4】损失函数【TensorFlow5】优化器【tf.keras】笔记【TensorFlow6】输入输出【TensorFlow6】持久化【TensorFlow案例1】回归和分类【TensorFlow案例2】用tf实现svm 【TensorFlow案例2】KNN 【AutoEncoder】自编码网络 Practical aspects of DNN hyperparameters tuning Structuring Machine Learning Projects

0x24_NLP 13

【NLP】feature提取【NLP】【Python】新词发现 word2vec 【NLP】应用 RNN LSTM 【NLP】基本数据结构【NLP】关键词提取【NLP】文本分类【HanLP】NER流程【NLP】NLTK 【HanLP】分词、词性标注、NER 【NLP】LDA模型与实现

0x25_CV 9

【CNN】介绍【CNN】实现【DeepDream】初学【CNN】face recognition 【CNN】Object Localization 【OpenCV1】基本操作【OpenCV3】直方图、频域【CV】数字图像处理【OpenCV2】滤波器、边缘、轮廓

0x26_torch 5

【pytorch】【进行中】基本配置【pytorch】【进行中】建立模型【pytorch】【进行中】hub 【pytorch】【进行中】运算符【pytorch】【进行中】data

0x31_降维 10

【PCA】理论与实现【KernelPCA】理论与实现【LLE】理论与实现【Isomap】理论与实现【FA】理论与实现【ICA】理论与实现【MDS】Python实现【特征选择】【SVD】分解【有监督降维】LDA

0x32_聚类 5

【聚类】汇总【Kmeans】理论与实现【层次聚类】理论与实现【DBSCAN】理论与实现【GMM】理论与实现

0x33_图模型 9

【协同过滤】原理与实现【PageRank】简介【强化学习】简介【规则学习】简介【networkx】图挖掘包【图挖掘】社区检测【Apriori】关联规则【CQL】总结neo4j 【Spectral Clustering】谱聚类

0x41_统计模型 9

【统计推断】理论与实现【相关分析】理论与实现【回归分析】理论与实现【statsmodels】Quantile regression 【statsmodels】WLS加权最小二乘法【statsmodels】OLS最小二乘法【Kalman】卡尔曼滤波【statsmodels】（进阶）(补全中) 【ridge&lasso】理论与实现

0x42_概率论 7

常见统计分布随机变量的数字特征 law of large numbers 参数估计概率测度简介概率统计趣题信息熵

0x43_时间序列 10

【时间序列】总览【描述时序】趋势、季节和随机性【描述时序】指数平滑法【统计时序1】工具【统计时序2】平稳性【ARIMA】理论与实现【统计时序】GARCH 【统计时序】Granger因果检验【统计时序】非平稳数据的处理【时间序列】马尔科夫法

0x44_随机过程 2

【随机过程】【随机过程】1

0x51_代数与分析 13

【代数1】线性空间【代数2】线性映射【代数3】多项式【解析几何】【集合】定义、序偶、可列【Real analysis(1)】范数、测度和距离【代数系统】群、环、域【集合】开集、度量空间勒贝格测度【Real analysis(3)】Sequence in Metric Space 【Real analysis(4)】级数，巴拿赫空间与希尔伯特空间【Real analysis(5)】连续性与拓扑多元微积分【集合】其它

0x52_方程 2

常微分方程二阶线性偏微分方程

0x53_复分析与积分变换 8

【Complex Analysis0】基本概念【Complex Analysis1】极限、微分、解析【Complex Analysis2】Julia set 【Complex Analysis3】共形映射【Complex Analysis4】积分【Complex Analysis5】级数、留数【fourier】傅里叶变换【积分变换】拉普拉斯变换

0x55_数值计算 7

【数值计算】数值逼近【数值计算】数值线性代数【数值计算】数值常微分方程【解方程】scipy.optimize.solve 【数值计算】若干简介【插值】scipy.interpolate 【数值积分】scipy.integrate

0x56_最优化 11

【最优化】理论篇【线性最优化】理论篇【非线性无约束最优化】理论【最优化】应用场景【整数规划】理论【多目标最优化】理论【约束非线性优化】拉格朗日法与KKT 【最小二乘估计】scipy.optimize.leastsq 【cvxopt】最优化库（持续更新中）【最优化】scipy.optimize.fmin 【动态最优化】变分法

0x59_应用数学 10

【离散数学1】数理逻辑【离散数学3】格和布尔代数【应用数学】博弈论【排队论】基本概念【AHP】层次分析法原理与Python实现【流形】基本概念【模糊论】基本概念【隐写术】入门知识大全数学模型【逻辑学】连锁悖论、真值度、超赋值理论与认知主义

0x60_启发式算法 8

【GA】遗传算法【PSO】粒子群算法【ACA】蚁群算法【IA】免疫优化算法【DE】差分进化算法【AFSA】人工鱼群算法【SA】模拟退火算法【智能算法】混合智能算法

0x70_可视化 11

【plotly】多图表【plotly】基本图表【matplotlib】设置【matplotlib】面向对象绘图【matplotlib】绘图方法汇总1 【Python】绘图方法汇总2 【Matplotlib】3D视图【matplotlib】键鼠响应事件【matplotlib】动画【pyecharts】漂亮的可视化【tkinter】GUI设计

0x80_数据结构与算法 21

【算法】知识体系【算法】线性表【堆、栈、队列】Queue & Stack & heapq 【数据结构3】hash 【树】定义、表示、最小生成树【数据结构5】Tree实现【图论】欧拉图、汉密尔顿图【数据结构7】Graph 【算法理论6】排序算法（附Python实现）【算法理论5】递归【最小生成树问题】Prim和Kruskal 【概率论】趣味小题【Python数据结构3】Binary Search 【数据结构算法】动态规划【Python数据结构5】Binary Search Tree 【Python】【算法题集1】 LeetCode刷题精选篇 LeetCode刷题大全【Python】【算法题集2】【Python】【算法题集3】生成迷宫

0xa0_蒙特卡洛方法 6

【Mento Carlo 1】背后的数学理论【Mento Carlo 2】随机数发生器【Mento Carlo 3】给定分布生成随机数【Python】【scipy】Random Variable 【Python】【numpy】random随机数生成【探索】曲面上均匀随机采样

0xb0_Python语法 19

【Python】基本数据类型【Python】运算符&math 【string】字符串&正则【Python】sys&os&subprocess 【Python】copy 【Python】open打开【Python】异常和错误【加速】multiprocessing多线程、多进程、并行、numba 【Python】datetime 【Python】pickle&json序列化【Python】collection&itertools 【Python标准库】heapq&bisect 【Python】zip 【加密】算法和实践【Python】【pynput】键鼠控制【Python】爬虫【python】web 【python】socket 【Python】magic黑魔法

0xd0_设计模式 7

【Python】【面向对象】继承&多态【Python】【面向对象】字段&方法【Python】【面向对象】类的特殊成员【decorator】装饰器【Python】设计模式【Python】【面向对象】BIF 重构

【丢】【spark】模型持久化

2019年10月06日 Author:Guofei

文章归类: 文章编号: 173

版权声明：本文作者是郭飞。转载随意，但需要标明原文链接，并通知本人
原文链接：https://www.guofei.site/2019/10/06/spark_serialize.html

PickleSerializer

准备你的模型

from sklearn import linear_model

lm=linear_model.LinearRegression()
x=np.random.rand(1000,1)
y=x+0.1*np.random.rand(1000,1)
lm.fit(x,y)

模型转为文本

from pyspark import PickleSerializer
ps=PickleSerializer()
model_str=ps.dumps(obj=lm)
# 是一个 byte 类型的数据，然后可以存到hive了
# 存hive略，要先用 str(model_str) 转为str，然后存hive
# 从hive读取时，用 eval() 转回 Byte 格式

文本转模型

from pyspark import PickleSerializer
ps=PickleSerializer()
model_load=ps.loads(model_str)
model_load.predict([[0.1]])

另外

这个可以序列化 iterator，不过还没试过

ps.dump_stream
ps.load_stream

MarshalSerializer：faster than PickleSerializer but supports fewer datatypes

您的支持将鼓励我继续创作！

WeChatQR

AliPayQR

qr_wechat