最近搜索
暂无搜索记录
热搜
JAVA
大数据
分布式
Python
人工智能
爬虫
WEB
JavaScript
认证
课时01
LLaMA 概述
11分2秒
课时02
训练 LLaMA 使用的数据集
13分42秒
课时03
LLaMA 大模型整体架构
20分1秒
课时04
Input Embedding 模块
17分45秒
课时05
为什么需要归一化
17分24秒
课时06
深入理解归一化对于大模型的重要性
13分33秒
课时07
批量归一化 Batch Normalization
7分34秒
课时08
层归一化 Layer Normalization
12分34秒
课时09
均方根层归一化 RMS Normalization
9分52秒
课时10
绝对位置编码
10分41秒
课时11
相对位置编码
10分17秒
课时12
旋转位置编码 RoPE
19分6秒
课时13
SwiGLU 激活函数
14分20秒
课时14
语言模型与 Causal Self Attention
16分14秒
课时15
KV cache 是如何提高计算效率的
12分40秒
课时16
MHA -> MQA -> GQA
16分1秒
课时17
构建模型参数类 ModelArgs
14分26秒
课时18
LLaMA 整体架构 Transformer 类
24分12秒
课时19
预计算 RoPE 需要的 mθ
23分2秒
课时20
将 X 按两个值一组进行分组
13分55秒
课时21
对 Token 应用旋转矩阵
22分7秒
课时22
RMSNorm 归一化的代码实战
11分35秒
课时23
EncoderBlock 的代码实现
12分4秒
课时24
封装 Self Attention 类的初始化函数
13分3秒
课时25
Self Attention 中应用 RoPE 和对 KV 进行缓存
12分18秒
课时26
应用公式完成 Self Attention 的计算
15分4秒
课时27
针对 GQA 对 K 和 V 拷贝多份
10分45秒
课时28
计算 FFN 中隐藏层节点数量
10分5秒
课时29
FFN 中 3 个矩阵以及 SwishGLU 的运算实现
6分57秒
课时30
加载 checkpoint 文件
15分15秒
课时31
加载分词器、model模型及模型参数
12分2秒
课时32
测试模型加载程序
8分17秒
课时33
模型需要 generate 函数
更新时间:2024-08-13
10分22秒
课时34
准备模型推理需要的 tokens 张量
更新时间:2024-08-13
22分58秒
课时35
模型生成结果并解码 response 文本
更新时间:2024-08-13
20分0秒
课时36
调试错误及得到运行结果
更新时间:2024-08-13
10分4秒
课时37
何为推理策略
更新时间:2024-08-14
7分20秒
课时38
Greedy Search 贪婪搜索
更新时间:2024-08-14
6分7秒
课时39
Beam Search 集束搜索
更新时间:2024-08-14
11分15秒
课时40
Temperature 超参数
更新时间:2024-08-14
9分13秒
课时41
Random Sampling 随机采样
更新时间:2024-08-14
3分16秒
课时42
基于 Top K 的随机采样策略
更新时间:2024-08-14
6分52秒
课时43
基于 Top P 的随机采样策略
更新时间:2024-08-14
10分20秒
课时44
代码实战 Top P 采样策略
更新时间:2024-08-14
15分9秒
课时45
对比测试 Top P 采样策略
更新时间:2024-08-14
14分15秒