Deep Dive into LLMs like ChatGPT

May 31, 2025

学习源

step1-pretraining data (internet)

在文本中训练会得到一个 base model。

step2-tokenization

raw text into symbols ,we call them tokens
tiktokenizer: 可以用于测试一段文本在某个模型下可以被分成几个 token

step3-neural network training

inference:generating new data from the model
模型的参数和 token 是什么关系？
regurgitation？返流会导致 token 的预测偏离原本的材料，如何解决？
大模型的预训练数据一般会有截止时间，并不包含最新的信息。
当你只有基本模型的时候，想要创建 llm assiatant 可以采用给大模型身份设定，及回答示例作为 prompt。

step4-post training

turn the llm into a assistant
post-training data (conversations)
hallucinations, tool use, knowledge/working memory
如何解决 ai 胡编乱造的问题：
- 利用现有的文章，转换成问题。再通过对比正确答案和模型之间的回答，如果模型回答错误，不确定性高度增加，可以在训练集中增加上对于该问题的回答是对不起，我不知道。
- 可以通过允许模型自行搜索。可以在自己的 prompt 后面加上 use the web search to make sure，就会在回答中增加信息源。
- 直接在上下文中提供的信息 context，相对比于模型的 memory，回复的答案可以增加模型的准确度和质量。《重新读一遍总是可以更好的做总结，这是其中运行的哲学》
- prompt 中涉及到计算的部分，或者想要得到精准数字结果的时候，类似于让 ai 去做心算，容易出错，可以让模型使用自己擅长的工具，use code。如：模型不擅长数数，可以在 prompt 加上 use code，他可以将问题转化成其擅长的复制粘贴及 python 算法等。models 不能看到 characters，只能看到 token。且不擅长数数，比如 rasberry 中有几个 r，很多模型都只能数出 2 个 r，也有一些模型用硬编码的形式把答案写在模型中。ß
- models need tokens to think。
step5-reinforcement learning
- post training 之后会有 supervised finetuning model 产生 sfm, 接下来针对 sfm 进行强化学习。
- 这个阶段训练后得到的是 reinforcement learning model。
- DeepSeek-R1：发布的文章说明在强化学习提高模型回复准确率的过程中，模型的思考过程变长，通过不同角度的多维度思考，会让结果输出的质量更高。
- reasoning model 实质调用的是强化学习模型，
- 如果担心数据安全的问题，可以找到托管 ai 模型的网站，比如《together.ai》，里面可以选择各种大模型进行测试。
- AlphaGo：supervised learning 与 reinforcement learning 是不同的，前者类似于模仿最强者的学习，能力会不断提升，但是会达到一个顶峰后停止进步。而强化学习则是可以一直上升。
reinforcement learning from human feedback (RLHF)
- rl 与 rlhf 有哪些区别？奖励机制是一样的吗？
- 无法有明确标准答案的东西，比如笑话好不好笑这种，比较适合用 rlhf。在数学和代码之外的创意性行为中。
- base model:hyperbolic, 有很多基础模型。
- 本地运行可以使用 LM studio

step1-pretraining data (internet)

step2-tokenization

step3-neural network training

step4-post training

step5-reinforcement learning

reinforcement learning from human feedback (RLHF)

Search