Deep Dive into LLMs like ChatGPT
step1-pretraining data (internet)
step2-tokenization
- raw text into symbols ,we call them tokens
- tiktokenizer: 可以用于测试一段文本在某个模型下可以被分成几个 token
step3-neural network training
- inference:generating new data from the model
- 模型的参数和 token 是什么关系?
- regurgitation?返流会导致 token 的预测偏离原本的材料,如何解决?
- 大模型的预训练数据一般会有截止时间,并不包含最新的信息。
- 当你只有基本模型的时候,想要创建 llm assiatant 可以采用给大模型身份设定,及回答示例作为 prompt。
step4-post training
- turn the llm into a assistant
- post-training data (conversations)
- hallucinations, tool use, knowledge/working memory
- 如何解决 ai 胡编乱造的问题:
- 利用现有的文章,转换成问题。再通过对比正确答案和模型之间的回答,如果模型回答错误,不确定性高度增加,可以在训练集中增加上对于该问题的回答是对不起,我不知道。
- 可以通过允许模型自行搜索。可以在自己的 prompt 后面加上 use the web search to make sure,就会在回答中增加信息源。
- 直接在上下文中提供的信息 context,相对比于模型的 memory,回复的答案可以增加模型的准确度和质量。《重新读一遍总是可以更好的做总结,这是其中运行的哲学》
- prompt 中涉及到计算的部分,或者想要得到精准数字结果的时候,类似于让 ai 去做心算,容易出错,可以让模型使用自己擅长的工具,use code。如:模型不擅长数数,可以在 prompt 加上 use code,他可以将问题转化成其擅长的复制粘贴及 python 算法等。models 不能看到 characters,只能看到 token。且不擅长数数,比如 rasberry 中有几个 r,很多模型都只能数出 2 个 r,也有一些模型用硬编码的形式把答案写在模型中。ß
- models need tokens to think。
step5-reinforcement learning
- post training 之后会有 supervised finetuning model 产生 sfm, 接下来针对 sfm 进行强化学习。
- 这个阶段训练后得到的是 reinforcement learning model。
- DeepSeek-R1:发布的文章说明在强化学习提高模型回复准确率的过程中,模型的思考过程变长,通过不同角度的多维度思考,会让结果输出的质量更高。
- reasoning model 实质调用的是强化学习模型,
- 如果担心数据安全的问题,可以找到托管 ai 模型的网站,比如《together.ai》,里面可以选择各种大模型进行测试。
- AlphaGo:supervised learning 与 reinforcement learning 是不同的,前者类似于模仿最强者的学习,能力会不断提升,但是会达到一个顶峰后停止进步。而强化学习则是可以一直上升。
reinforcement learning from human feedback (RLHF)
- rl 与 rlhf 有哪些区别?奖励机制是一样的吗?
- 无法有明确标准答案的东西,比如笑话好不好笑这种,比较适合用 rlhf。在数学和代码之外的创意性行为中。
- base model:hyperbolic, 有很多基础模型。
- 本地运行 可以使用 LM studio