激活函数和GLU LLaMA系列用的FFN层现在是SwishGLU,这里Swish是个激活函数,GLU是个线性单元,二者合起来是SwishGLU。 FFN Transformer中原始的FFN长这样: \[ FFN(x) = ReLU(xW_1+b_1)W_2+b_2 \] 两个线性层中间夹了个relu激活函数 写成模型代码就是: 123x = up_proj(x)x = relu(x)x = dow 2024-10-29 AI
如果python的类变量和实例变量名字一样会如何? python中类变量是属于类的,不属于具体的对象,所有对象共享一个类变量。类变量可以通过类名.变量名访问,也可以通过实例化后的对象.变量名访问。那么,如果我给对象的变量起的名字和类变量同名会如何?我们写代码测试一下: 12345678910111213141516171819202122class Foo: name = "hello" # <- 类变量 d 2024-10-21 python
openssh key格式转换 在使用Openssh > 7.8版本生成私钥时,默认的私钥格式是OPENSSH格式,而低版本是RSA格式,这导致部分旧版的ssh应用无法识别新的私钥。 OPENSSH格式开头: -----BEGIN OPENSSH PRIVATE KEY----- 旧版的RSA格式开头: -----BEGIN RSA PRIVATE KEY----- 我遇到这个问题是因为,在maven中使用wa 2024-10-04 学开发 > java
优化器:从SGD到Adam到AdamW 1. SGD 随机梯度下降(stochastic gradient descent,SGD) 输入数据为(x, y)组成的pair,模型参数是\(W\),随机选择一批样本组成一个batch,输入模型计算loss:\(L=f(X, Y;W)\),并求出梯度,更新参数时: \(W=W-lr*\frac{\partial L}{\partial W}\) 这就是随机梯度下降。 2. Adam 2024-09-29 AI
使用docker运行anyconnect 某司的专用虚拟网络是用的思科公司的anyconnect,我在docker中安装他,以免干扰我的环境。 步骤: 拉取docker镜像 1docker pull ubuntu 运行docker容器 1docker exec -itd --cap-add NET_ADMIN --privileged --name vpn ubuntu bash 进入docker容器,安装必要的依赖包 123 2024-09-08 linux
似然(likelihood)和NLLLoss 博主在学习的过程中,一直看到负对数似然函数(NLLLoss,negative log likelihood loss),虽然知道怎么计算,但是一直不清楚为什么叫似然。今天通过学习对似然和机器学习模型训练有了全新的理解,故记录在此。 本文主要参考:似然(likelihood)和概率(probability)的区别与联系 1. 交叉熵(CrossEntropyLoss)和NLLLoss的联系 2024-09-03 AI
deepspeed从入门到放弃 本文并不讲解deepspeed的原理以及用法,只是澄清几个deepspeed中的技术细节。 启动deepspeed训练可以通过运行deepspeed --nproc-per-node 4 xxx.py ...,这样就会启动4个进程来运行xxx.py deepspeed启动进程后如何知道是几号进程? 答:deepspeed启动进程会自动传入一个参数--local_rank=<ra 2024-09-01
让你的ubuntu像windows一样丝滑的小工具们 本人使用的系统是Ubuntu 20.04,如果是22.04会更加丝滑 1. 终端复制粘贴 Ubuntu默认的复制粘贴是Ctrl+Shift+C,而我习惯了Ctrl+C,同时windows的终端是支持鼠标右键复制粘贴的,非常方便。 对于后者,鼠标右键单击复制/粘贴,在Ubuntu 更新版本的终端中已经内置了,但是20.04还没有这个功能,想用只能自己修改并编译代码,因此放弃。 对于前者,在 2024-08-15 linux
剑指offer刷题记录 秋招在即,在此记录本人的刷题记录,记录一下基本解题思路,希望评论区的各位仅聚焦题目内容本身讨论 不要讨论其他问题,尤其是某些人不要透漏我的个人信息。 剑指offer problem set在leetcode cn版已经下架,因此题目列表参考已经被GitCode1开源社区收录的力扣【剑指offer】题目汇总与总结 数组 2024/8/3 (1)剑指offer03.数组中重复的数字 2024-08-04 力扣
vscode自定义标题栏内容 在vscode中,标题栏显示当前打开的文件名,但是对我来说,我不关心文件名,更关心是打开了哪个workspace/host,因此,意图修改。 在vscode中配置window.title这一项 首先默认的配置如下: 1${dirty}${activeEditorShort}${separator}${rootName 2024-08-02 工具使用