Anjhon, 但行好事,莫问前程

  • 首页
  • 周刊
  • 搜索
Docker (3)
VPN (3)
Linux (3)
虚拟机 (1)
PD (2)
Cursor (2)
Cursor Free VIP (1)
Cloudflare (1)
无限邮箱 (1)
破解 (1)
Homebrew (1)
MongoDB (1)
数据库 (1)
DBeaver (1)
MPC (1)
Agent (1)
分布式训练 (1)
单机多卡 (1)
LLM (3)
python (2)
logging (1)
OpenAI (1)
思考 (4)
pandas (2)
内存溢出 (1)
Mac (1)
定时任务 (1)
死亡 (2)
方法 (1)
大数据 (6)
Spark (3)
SparkSQL (1)
SparkCore (1)
Spark部署 (2)
Hive (1)
MapReduce (1)
Hadoop (2)
YARN (1)
集群部署 (2)
HDFS (1)
hadoop安装 (1)
flink安装 (1)
zookeeper安装 (1)
SQL (1)
人生 (1)
人生七年 (1)
机器学习 (9)
推荐系统 (1)
双塔模型 (1)
问题记录 (1)
读书笔记 (6)
纳瓦尔宝典 (1)
LLMs (2)
大语言模型 (3)
RAG (2)
检索增强生成 (2)
文档问答 (1)
Llama (1)
ChatGLM (1)
娱乐至死 (1)
深度学习 (2)
transformers (2)
Prompt (2)
提示词 (2)
如何阅读一本书 (1)
notionic (1)
Blog (1)
技术精要 (1)
张俊林 (1)
蛤蟆先生去看心理医生 (1)
心理学 (4)
电子榨菜 (1)
感想 (5)
docker (1)
艾滋病 (1)
HIV (1)
预训练模型 (1)
hugging face (1)
导航地图 (1)
样本不平衡 (1)
SMOTE (1)
欠采样 (1)
过采样 (1)
特征工程 (2)
数据预处理 (2)
异常值 (1)
箱型图 (1)
异常检测 (1)
四分位 (1)
实战 (1)
lightgbm (1)
分类算法 (5)
算法大赛 (1)
Python数据处理三板斧 (3)
matplotlib (1)
seaborn (1)
可视化 (1)
模型评估 (1)
模型选择 (1)
Quora (1)
Chrome (1)
日落 (1)
扫街 (1)
摄影 (2)
周末 (1)
pytorch (1)
速查 (4)
框架 (1)
前端 (2)
CSS (1)
JS (1)
JavaScript (1)
numpy (1)
Mac软件 (2)
开源 (1)
博客 (1)
Notion (2)
GitHub (3)
GitHub Desktop (2)
博客搭建 (1)
随想 (1)
随便一说 (2)
AI绘画 (1)
SD (1)
stable-diffusion-weiui (1)
Stable Diffusion (1)
Sklearn (2)
模型调用 (1)
调参 (1)
相机 (1)
Z30 (1)
尼康 (1)
简悦 (1)
阅读插件 (1)
吐槽 (1)
ChatGPT (1)
AI (1)
伦理 (1)
AI写作 (1)
英语 (12)
阅读 (1)
工具 (1)
成长 (5)
社交 (1)
对话 (1)
教育 (1)
办公 (2)
自动化 (2)
Excel (2)
评分 (1)
熵权法 (1)
层次分析法 (1)
AHP (1)
评分算法 (1)
python-docx (1)
Word (1)
词根词缀 (1)
记单词 (1)
爬虫 (1)
蜘蛛 (1)
Selenium (1)
Scrapy (1)
戒烟 (1)
幸福感 (1)
Alfred (1)
效率提升 (1)
进度条 (1)
notion (1)
Vscode (1)
代码冲突 (1)
插件 (1)
豆瓣读书 (1)
豆瓣电影 (1)
项目排期 (1)
岸见一郎 (1)
古贺史健 (1)
斯科特派克 (1)
ARIMA (1)
时序模型 (1)
预测模型 (2)
Holt-Winters (1)
指数平滑 (1)
十大词类 (10)
语法 (1)
聚类 (1)
optics (1)
树模型 (4)
XGBoost (1)
GBDT (1)
boosting (3)
Adaboost (1)
RF (1)
决策树 (1)
ID3 (1)
C4.5 (1)
CART (1)
集成学习 (1)
bagging (1)
贝叶斯 (1)
朴素贝叶斯 (1)
Bayesian (1)
KNN (1)
K近邻 (1)
SVM (1)
支持向量机 (1)
逻辑回归 (1)
logistic (1)
线性回归 (1)
LR (1)
回归算法 (1)
损失函数 (1)
正则化 (1)
优化函数 (1)
向量矩阵 (1)
git (1)
虚拟环境 (1)
python基础 (3)
进程 (1)
线程 (1)
Spark SQL

Spark SQL

SparkSQL 是 Spark 的一个模块,专为处理结构化数据而设计,提供了对 SQL 查询的支持,使得用户可以通过 SQL 或 DataFrame API 进行高效的数据处理和分析。SparkSQL 允许无缝地在结构化数据(如 JSON、Parquet、Hive 表)和 RDD 之间进行转换,集成了 Catalyst 优化器和 Tungsten 执行引擎,从而实现查询优化和高效执行。此外,SparkSQL 还支持与多种数据源的集成,使其在大数据处理和分析领域具有广泛的应用。

Spark Core

Spark Core

Spark Core 是 Apache Spark 的核心模块,提供了对分布式内存计算和数据处理的基础支持,基于 RDD(Resilient Distributed Dataset)这一基本数据抽象,实现了高效的并行计算和容错机制。通过 SparkContext 与集群交互,DAG Scheduler 和 Task Scheduler 调度任务执行,Block Manager 管理数据块的存储和传输,用户可以通过丰富的 RDD API 构建和执行复杂的数据处理任务。Spark Core 支持批处理、交互式查询、机器学习和图计算等多种应用场景,是 Spark 生态系统的基础。

Spark 开篇

Spark 开篇

Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的API提高了开发速度。Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用 程序计算数据。Spark 集成了多种大数据工具和框架,如 Kafka、Cassandra、HBase、HDFS 等,形成了一个强大的大数据处理生态系统。Spark 的统一编程模型和强大的性能使其成为大数据分析、实时流处理和机器学习等领域的重要工具。

Hive

Hive

Apache Hive 是一个用于大数据处理的开源数据仓库工具,最初由Facebook开发并于2010年贡献给Apache软件基金会。它设计的主要目的是使数据分析人员能够通过类SQL语言(即HiveQL)在Hadoop分布式文件系统 (HDFS) 上执行大规模数据查询和分析。Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。

Hadoop MapReduce & YARN

Hadoop MapReduce & YARN

MapReduce是Hadoop中的分布式计算组件,它可以以分散->汇总(聚合)模式执行分布式计算任务MapReduce可供Java、Python等语言开发计算程序。YARN(Yet Another Resource Negotiator)是Hadoop 2.x版本引入的资源管理框架,用于集群资源管理和任务调度。它将MapReduce的资源管理和任务调度功能抽象出来,提供一个通用的资源管理平台,可以支持多种分布式计算框架。

Hadoop HDFS

Hadoop HDFS

Hadoop HDFS (Hadoop Distributed File System) 是一个分布式文件系统,设计用于在大型数据集上进行高吞吐量的数据存储和访问。它是 Hadoop 生态系统的重要组成部分,支持大规模数据处理和分析。 为什么需要分布式存储? 数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。 分布式组合在一起可以达到1+1>2的效果

  • 关于
  • 友链
  • 书架
  • 听歌
  • 牢骚
© 2021 - 2025 | Anjhon

本站原创内容基于 CC BY-SA 4.0 共享, 转载注明出处.