Anjhon, 但行好事,莫问前程

  • 首页
  • 周刊
  • 搜索
MongoDB (1)
数据库 (1)
DBeaver (1)
MPC (1)
Agent (1)
PD (1)
分布式训练 (1)
单机多卡 (1)
Docker (2)
LLM (3)
Cursor (1)
python (2)
logging (1)
OpenAI (1)
思考 (4)
pandas (2)
内存溢出 (1)
Mac (1)
定时任务 (1)
死亡 (2)
方法 (1)
大数据 (6)
Spark (3)
SparkSQL (1)
SparkCore (1)
Spark部署 (2)
Hive (1)
MapReduce (1)
Hadoop (2)
YARN (1)
集群部署 (2)
HDFS (1)
Linux (2)
hadoop安装 (1)
flink安装 (1)
zookeeper安装 (1)
SQL (1)
人生 (1)
人生七年 (1)
机器学习 (9)
推荐系统 (1)
双塔模型 (1)
问题记录 (1)
读书笔记 (6)
纳瓦尔宝典 (1)
LLMs (2)
大语言模型 (3)
RAG (2)
检索增强生成 (2)
文档问答 (1)
Llama (1)
ChatGLM (1)
娱乐至死 (1)
深度学习 (2)
transformers (2)
Prompt (2)
提示词 (2)
如何阅读一本书 (1)
notionic (1)
Blog (1)
技术精要 (1)
张俊林 (1)
蛤蟆先生去看心理医生 (1)
心理学 (4)
电子榨菜 (1)
感想 (5)
docker (1)
艾滋病 (1)
HIV (1)
预训练模型 (1)
hugging face (1)
导航地图 (1)
样本不平衡 (1)
SMOTE (1)
欠采样 (1)
过采样 (1)
特征工程 (2)
数据预处理 (2)
异常值 (1)
箱型图 (1)
异常检测 (1)
四分位 (1)
实战 (1)
lightgbm (1)
分类算法 (5)
算法大赛 (1)
Python数据处理三板斧 (3)
matplotlib (1)
seaborn (1)
可视化 (1)
模型评估 (1)
模型选择 (1)
Quora (1)
Chrome (1)
日落 (1)
扫街 (1)
摄影 (2)
周末 (1)
pytorch (1)
速查 (4)
框架 (1)
前端 (2)
CSS (1)
JS (1)
JavaScript (1)
numpy (1)
Mac软件 (2)
开源 (1)
博客 (1)
Notion (2)
GitHub (3)
GitHub Desktop (2)
博客搭建 (1)
随想 (1)
随便一说 (2)
AI绘画 (1)
SD (1)
stable-diffusion-weiui (1)
Stable Diffusion (1)
Sklearn (2)
模型调用 (1)
调参 (1)
相机 (1)
Z30 (1)
尼康 (1)
简悦 (1)
阅读插件 (1)
吐槽 (1)
ChatGPT (1)
AI (1)
伦理 (1)
AI写作 (1)
英语 (12)
阅读 (1)
工具 (1)
成长 (5)
社交 (1)
对话 (1)
教育 (1)
办公 (2)
自动化 (2)
Excel (2)
评分 (1)
熵权法 (1)
层次分析法 (1)
AHP (1)
评分算法 (1)
python-docx (1)
Word (1)
词根词缀 (1)
记单词 (1)
爬虫 (1)
蜘蛛 (1)
Selenium (1)
Scrapy (1)
戒烟 (1)
幸福感 (1)
Alfred (1)
效率提升 (1)
进度条 (1)
notion (1)
Vscode (1)
代码冲突 (1)
插件 (1)
豆瓣读书 (1)
豆瓣电影 (1)
项目排期 (1)
岸见一郎 (1)
古贺史健 (1)
斯科特派克 (1)
ARIMA (1)
时序模型 (1)
预测模型 (2)
Holt-Winters (1)
指数平滑 (1)
十大词类 (10)
语法 (1)
聚类 (1)
optics (1)
树模型 (4)
XGBoost (1)
GBDT (1)
boosting (3)
Adaboost (1)
RF (1)
决策树 (1)
ID3 (1)
C4.5 (1)
CART (1)
集成学习 (1)
bagging (1)
贝叶斯 (1)
朴素贝叶斯 (1)
Bayesian (1)
KNN (1)
K近邻 (1)
SVM (1)
支持向量机 (1)
逻辑回归 (1)
logistic (1)
线性回归 (1)
LR (1)
回归算法 (1)
损失函数 (1)
正则化 (1)
优化函数 (1)
向量矩阵 (1)
git (1)
虚拟环境 (1)
python基础 (3)
进程 (1)
线程 (1)
记第一次推荐开发实践遇到的问题

记第一次推荐开发实践遇到的问题

自从入行以来,从来没有重视过内存管理这块的东西,但这次真的是该遭的罪一点没落下的全体验了一遍。试问苍天饶过谁。由于预测时的全量用户为 1.5 亿,数据量实在太大,而且服务器上没有 GPU 资源,所以只能通过开启多进程的方式来进行预测。在 python 中开启多进程无果后,只能想办法曲线救国,最终通过 shell 脚本将数据拆分然后循环调用 python 脚本,这个过程中可以将拆分后的数据的起始行数和数据量通过参数传递给python,最终以这样的方式成功开启了多进程。但随后遇到了另外一个问题:内存溢出导致的部分进程被 kill。

Transformer温习整理

Transformer温习整理

Transformer 是由谷歌于 2017 年在 Attention Is All You Need 中首次提出。Transformer的提出在很大程度上改变了自然语言处理领域的局面,取代了传统的循环神经网络和卷积神经网络在语言模型、机器翻译等任务中的地位。

机器学习导航地图

机器学习导航地图

在学习的过程中,本站整理记录了一些机器学习相关的内容和文章,但看起来稍显杂乱,故此专门以机器学习的基本流程为主线,制作了本站机器学习相关的内容进行导航跳转。(持续更新)

机器学习样本不平衡问题

机器学习样本不平衡问题

样本不平衡问题是在生产过程中普遍存在的问题,在很多场景中样本的比例极度失衡,如果不进行处理,那么模型最终的效果可能不尽如人意。本篇收集整理了常用的样本平衡手段和方法。

机器学习特征工程

机器学习特征工程

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。所以机器学习的大部分时间都是在处理数据的过程中,掌握好特征工程的思路和方法,有更高的概率能获得高质量数据。

机器学习异常值识别和处理方法(附代码)

机器学习异常值识别和处理方法(附代码)

异常值可能是在数据采集、数据记录、数据提取等步骤中产生的,异常值的出现会对模型学习进行干扰,所以需要进行特殊处理。而在实际的生产环境中的异常值更是五花八门。

天猫复购预测-挑战赛——Top 0.5%

天猫复购预测-挑战赛——Top 0.5%

根据原数据构建了67个特征,尝试了多种算法和多次参数调优最终得分0.6925,记录过程分享一下。感觉数据指标还可以再优化,调参也还有进步空间,可以进一步优化提升。

机器学习模型评估方法

机器学习模型评估方法

在选择算法进行建模的时候,每种类型的算法中都有如此多可以用,我们如何选择一个最契合当前数据的模型?模型训练完之后,我们如何知道这个模型的效果?本文整理了机器学习中一些常用的评估方法

Sklearn速查

Sklearn速查

本篇笔记收集整理了一些sklearn常用方法(不包含算法的调用,算法调用详见上一篇)的调用、参数详解和调用案例,仅供学习记录和快速查询,还在持续更新中。

  • 关于
  • 友链
  • 书架
  • 听歌
  • 牢骚
© 2021 - 2025 | Anjhon

本站原创内容基于 CC BY-SA 4.0 共享, 转载注明出处.