Zecheng's Blog

New post every day (with probability 0.000000003).

CS224Day-05

Pretraining

Lecture9- Pretraining Pretraining byte-pair encoding algorithm(BPE编码) BPE 的关键特点 优点 解决 OOV 问题:未登录词可拆分为词表中的子词(如 “unhappiness” 拆为 “un + happy + ness”),大幅减少 OOV 率; 词表效率高:子词比字符长、比单词短,既...

CS224Day-04

Attention Transformer Pretraining and Post-training (RLHF, SFT, DPO)

Lecture 7-9 机器翻译 seq2seq Attention Transformer Pretraining and Post-training (RLHF, SFT, DPO) LSTM RNN存在梯度消失和梯度爆炸问题(vanishing/exploding gradients) 梯度消失:由于梯度趋于零, 导致神经网络无法基于梯度更新参数 因而不能很好的更新隐状态, 失去了...

CS224Day-03

LSTM

Lecture 6 LSTM LSTM LSTM这个很难记的网络,由Hochreiter和Schmidhuber这两位很难记的作者在1997年提出,主要就是为了解决RNN的梯度消失问题。 在RNN的经典结构中,每一步都会有一个隐层状态,即hidden state,我们记第t步的hidden state为ht ,在LSTM中,作者增加了一个cell state,记为ct。 二者是...

CS224Day-02

Dependency Parsing HW && RNNs

Lecture 4-6 Dependency Parsing HW && RNNs Dependency Parsing HW 把最后的Assignment2写完了,下面是最后的run.py跑分结果以及代码: #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ CS224N 2023-2024: Homework 2 r...

CS224Day-01

Word Vectors and Language Models

Lecture 1-3 Word Vectors and Language Models && Dependency Parsing 如何让计算机处理自然语言 one-hot 后来,人们开始对词汇进行 「离散的表示」 ,即 「one-hot」 表示。这种方式也曾一度推动了NLP中许多任务,取得了一定的效果。然后这种方式很明显有几个问题 a. 词汇太多,用one-hot...

CS336Day-01

PyTorch && Resource Accounting

Lecture 2 PyTorch && Resource Accounting FP32 float32 float32 是default精度,也被叫做fp32 单精度,默认设置。每个数据用 32 个 bit 存储,也就是 4 个 byte The float32 data type (also known as fp32 or single precision) ...

保研机试训练Day-32

随机训练

LeetCode 2444. 统计定界子数组的数目 给你一个整数数组 nums 和两个整数 minK 以及 maxK 。 nums 的定界子数组是满足下述条件的一个子数组: 子数组中的 最小值 等于 minK 。 子数组中的 最大值 等于 maxK 。 返回定界子数组的数目。 子数组是数组中的一个连续部分。 思路 双指针算法,每次固定右边去计算有多少个合法的左端点。...

保研机试训练Day-31

Huffman树 && 排序不等式 && 绝对值不等式 && 推公式

Huffman树 合并果子 在一个果园里,达达已经将所有的果子打了下来,而且按果子的不同种类分成了不同的堆。 达达决定把所有的果子合成一堆。 每一次合并,达达可以把两堆果子合并到一起,消耗的体力等于两堆果子的重量之和。 可以看出,所有的果子经过 n−1 次合并之后,就只剩下一堆了。 达达在合并果子时总共消耗的体力等于每次合并所耗体力之和。 因为还要花大力气把这些果子搬回家,所以...

保研机试训练Day-30

贪心

贪心 区间选点 给定 N 个闭区间 [ai,bi],请你在数轴上选择尽量少的点,使得每个区间内至少包含一个选出的点。 输出选择的点的最小数量。位于区间端点上的点也算作区间内。 #include<iostream> #include<algorithm> using namespace std; const int N = 100010; int n; st...

保研机试训练Day-29

状态压缩DP && 树形DP && 记忆化搜索 && 数位统计DP

状态压缩DP 最短Hamilton路径 给定一张 n 个点的带权无向图,点从 0∼n−1 标号,求起点 0 到终点 n−1 的最短 Hamilton 路径。 Hamilton 路径的定义是从 0 到 n−1 不重不漏地经过每个点恰好一次。 #include<iostream> #include<algorithm> #include<cstring>...