Anjhon, 但行好事,莫问前程

  • 首页
  • 周刊
  • 搜索
MongoDB (1)
数据库 (1)
DBeaver (1)
MPC (1)
Agent (1)
PD (1)
分布式训练 (1)
单机多卡 (1)
Docker (2)
LLM (3)
Cursor (1)
python (2)
logging (1)
OpenAI (1)
思考 (4)
pandas (2)
内存溢出 (1)
Mac (1)
定时任务 (1)
死亡 (2)
方法 (1)
大数据 (6)
Spark (3)
SparkSQL (1)
SparkCore (1)
Spark部署 (2)
Hive (1)
MapReduce (1)
Hadoop (2)
YARN (1)
集群部署 (2)
HDFS (1)
Linux (2)
hadoop安装 (1)
flink安装 (1)
zookeeper安装 (1)
SQL (1)
人生 (1)
人生七年 (1)
机器学习 (9)
推荐系统 (1)
双塔模型 (1)
问题记录 (1)
读书笔记 (6)
纳瓦尔宝典 (1)
LLMs (2)
大语言模型 (3)
RAG (2)
检索增强生成 (2)
文档问答 (1)
Llama (1)
ChatGLM (1)
娱乐至死 (1)
深度学习 (2)
transformers (2)
Prompt (2)
提示词 (2)
如何阅读一本书 (1)
notionic (1)
Blog (1)
技术精要 (1)
张俊林 (1)
蛤蟆先生去看心理医生 (1)
心理学 (4)
电子榨菜 (1)
感想 (5)
docker (1)
艾滋病 (1)
HIV (1)
预训练模型 (1)
hugging face (1)
导航地图 (1)
样本不平衡 (1)
SMOTE (1)
欠采样 (1)
过采样 (1)
特征工程 (2)
数据预处理 (2)
异常值 (1)
箱型图 (1)
异常检测 (1)
四分位 (1)
实战 (1)
lightgbm (1)
分类算法 (5)
算法大赛 (1)
Python数据处理三板斧 (3)
matplotlib (1)
seaborn (1)
可视化 (1)
模型评估 (1)
模型选择 (1)
Quora (1)
Chrome (1)
日落 (1)
扫街 (1)
摄影 (2)
周末 (1)
pytorch (1)
速查 (4)
框架 (1)
前端 (2)
CSS (1)
JS (1)
JavaScript (1)
numpy (1)
Mac软件 (2)
开源 (1)
博客 (1)
Notion (2)
GitHub (3)
GitHub Desktop (2)
博客搭建 (1)
随想 (1)
随便一说 (2)
AI绘画 (1)
SD (1)
stable-diffusion-weiui (1)
Stable Diffusion (1)
Sklearn (2)
模型调用 (1)
调参 (1)
相机 (1)
Z30 (1)
尼康 (1)
简悦 (1)
阅读插件 (1)
吐槽 (1)
ChatGPT (1)
AI (1)
伦理 (1)
AI写作 (1)
英语 (12)
阅读 (1)
工具 (1)
成长 (5)
社交 (1)
对话 (1)
教育 (1)
办公 (2)
自动化 (2)
Excel (2)
评分 (1)
熵权法 (1)
层次分析法 (1)
AHP (1)
评分算法 (1)
python-docx (1)
Word (1)
词根词缀 (1)
记单词 (1)
爬虫 (1)
蜘蛛 (1)
Selenium (1)
Scrapy (1)
戒烟 (1)
幸福感 (1)
Alfred (1)
效率提升 (1)
进度条 (1)
notion (1)
Vscode (1)
代码冲突 (1)
插件 (1)
豆瓣读书 (1)
豆瓣电影 (1)
项目排期 (1)
岸见一郎 (1)
古贺史健 (1)
斯科特派克 (1)
ARIMA (1)
时序模型 (1)
预测模型 (2)
Holt-Winters (1)
指数平滑 (1)
十大词类 (10)
语法 (1)
聚类 (1)
optics (1)
树模型 (4)
XGBoost (1)
GBDT (1)
boosting (3)
Adaboost (1)
RF (1)
决策树 (1)
ID3 (1)
C4.5 (1)
CART (1)
集成学习 (1)
bagging (1)
贝叶斯 (1)
朴素贝叶斯 (1)
Bayesian (1)
KNN (1)
K近邻 (1)
SVM (1)
支持向量机 (1)
逻辑回归 (1)
logistic (1)
线性回归 (1)
LR (1)
回归算法 (1)
损失函数 (1)
正则化 (1)
优化函数 (1)
向量矩阵 (1)
git (1)
虚拟环境 (1)
python基础 (3)
进程 (1)
线程 (1)
【小记】Mac 在 DBeaver 中连接 MongoDB

【小记】Mac 在 DBeaver 中连接 MongoDB

根据官方教程进行连接,但是还是有很多坑,于是记录一下。

MPC

MPC

MPC 全称 Model Context Protocol ,是由 Claude 母公司 Anthropic 于 2024 年 11 月提出的一种开放协议,它标准化了应用程序如何向LLMs提供上下文。 MCP 作为一种标准化协议,极大地简化了大语言模型与外部世界的交互方式,使开发者能够以统一的方式为 AI 应用添加各种能力。 MCP 遵循客户端-服务器架构,其中主机应用程序可以连接到多个服务器

【小记】在 Docker 中多卡并行训练深度学习模型

【小记】在 Docker 中多卡并行训练深度学习模型

在深度学习训练中,训练方式根据并行策略的不同分为模型并行和数据并行。 在 N 卡上使用 torch 进行数据并行训练时,又有两种不同的选择:torch.nn.DataParallel(DP)、torch.nn.DistributedDataParallel(DDP)。 今天的重点是在 Docker 中使用 torch.nn.DataParallel(DP) 进行单机多卡训练。

【小记】Docker 无法进入容器问题

【小记】Docker 无法进入容器问题

docker 无法进入容器问题解决小记

用 Cursor 开发了一个导航网站

用 Cursor 开发了一个导航网站

Cursor 已经火了一段时间了,在刚发布的时候进行了试用,但说实话给我的冲击感并不强烈,甚至觉得这不就是一节简单的 AI 写代码工具吗,同样的功能其他 vscode 插件也能实现;当时还一直在使用通义灵码,甚至后来还尝试过将 Deepseek 接入到 vscode, 同样用着还不赖。直到前段时间又看到铺天盖地的营销,决定再去试用一番,顺便上网看看教程,进行更全面的了解;

Python 中的日志模块 logging

Python 中的日志模块 logging

Python 中的日志模块 logging 使用技巧与应用

OpenAI 12 天发布会发布了啥

OpenAI 12 天发布会发布了啥

OpenAI 于 12 月 5 日开启为期 12 天的系列发布活动,每天发布一个产品或样品,涵盖多个令人期待的 AI 工具和功能升级。包括 o1 满血版上线及 ChatGPT Pro 订阅服务、强化微调技术、Sora 正式版及新版本、ChatGPT Canvas 全面开放、与苹果合作将 ChatGPT 集成到 Apple Intelligence、高级语音模型增强、推出 ChatGPT Projects 功能、ChatGPT Search 全面升级免费开放、o1 推理模型开放 API、通过电话和 WhatsApp 使用 ChatGPT、ChatGPT 与 Mac 应用深度集成以及发布最新一代推理模型 o3 和 o3--mini。

1202-1208

1202-1208

有人在犟

大模型问答——pandas 读取大文件爆内存问题

大模型问答——pandas 读取大文件爆内存问题

在数据大小(32G)和服务器 内存 大小(360G)差 10 被的情况下,使用 pandas 来读取数据,但是在读取数据的时候会导致内存被占满最终导致 python 脚本被 kill。原因定位。

Mac定时任务

Mac定时任务

crontab 是 Linux 和 Unix 系统中的一个用来设置周期性任务调度的工具,它的全称是 "cron table"。crontab 文件包含了 cron 进程需要执行的任务列表,并指定任务的执行时间。cron 进程会根据 crontab 文件中的配置,在指定的时间自动执行任务。

0920-0930

0920-0930

有人恐惧

0824-0831

0824-0831

有人离开

【转载】Crony Beliefs

【转载】Crony Beliefs

简介不了

Spark SQL

Spark SQL

SparkSQL 是 Spark 的一个模块,专为处理结构化数据而设计,提供了对 SQL 查询的支持,使得用户可以通过 SQL 或 DataFrame API 进行高效的数据处理和分析。SparkSQL 允许无缝地在结构化数据(如 JSON、Parquet、Hive 表)和 RDD 之间进行转换,集成了 Catalyst 优化器和 Tungsten 执行引擎,从而实现查询优化和高效执行。此外,SparkSQL 还支持与多种数据源的集成,使其在大数据处理和分析领域具有广泛的应用。

Spark Core

Spark Core

Spark Core 是 Apache Spark 的核心模块,提供了对分布式内存计算和数据处理的基础支持,基于 RDD(Resilient Distributed Dataset)这一基本数据抽象,实现了高效的并行计算和容错机制。通过 SparkContext 与集群交互,DAG Scheduler 和 Task Scheduler 调度任务执行,Block Manager 管理数据块的存储和传输,用户可以通过丰富的 RDD API 构建和执行复杂的数据处理任务。Spark Core 支持批处理、交互式查询、机器学习和图计算等多种应用场景,是 Spark 生态系统的基础。

Spark 开篇

Spark 开篇

Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的API提高了开发速度。Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用 程序计算数据。Spark 集成了多种大数据工具和框架,如 Kafka、Cassandra、HBase、HDFS 等,形成了一个强大的大数据处理生态系统。Spark 的统一编程模型和强大的性能使其成为大数据分析、实时流处理和机器学习等领域的重要工具。

Hive

Hive

Apache Hive 是一个用于大数据处理的开源数据仓库工具,最初由Facebook开发并于2010年贡献给Apache软件基金会。它设计的主要目的是使数据分析人员能够通过类SQL语言(即HiveQL)在Hadoop分布式文件系统 (HDFS) 上执行大规模数据查询和分析。Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。

Hadoop MapReduce & YARN

Hadoop MapReduce & YARN

MapReduce是Hadoop中的分布式计算组件,它可以以分散->汇总(聚合)模式执行分布式计算任务MapReduce可供Java、Python等语言开发计算程序。YARN(Yet Another Resource Negotiator)是Hadoop 2.x版本引入的资源管理框架,用于集群资源管理和任务调度。它将MapReduce的资源管理和任务调度功能抽象出来,提供一个通用的资源管理平台,可以支持多种分布式计算框架。

Hadoop HDFS

Hadoop HDFS

Hadoop HDFS (Hadoop Distributed File System) 是一个分布式文件系统,设计用于在大型数据集上进行高吞吐量的数据存储和访问。它是 Hadoop 生态系统的重要组成部分,支持大规模数据处理和分析。 为什么需要分布式存储? 数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。 分布式组合在一起可以达到1+1>2的效果

Linux软件安装实践

Linux软件安装实践

Linux 软件安装实践;记录了 zookeeper、Tomcat、Nginx、Hadoop、SQL、Spark、Flink 等软件的安装和遇到的问题,以供学习和参考;均用 Ubuntu 系统安装。

  • 关于
  • 友链
  • 书架
  • 听歌
  • 牢骚
© 2021 - 2025 | Anjhon

本站原创内容基于 CC BY-SA 4.0 共享, 转载注明出处.