Yuan's Blog

Deep Dive into LLMs like ChatGPT

step1-pretraining data (internet)

  • 在文本中训练会得到一个 base model。

step2-tokenization

  • raw text into symbols ,we call them tokens
  • tiktokenizer: 可以用于测试一段文本在某个模型下可以被分成几个 token

step3-neural network training

  • inference:generating new data from the model
  • 模型的参数和 token 是什么关系?
  • regurgitation?返流会导致 token 的预测偏离原本的材料,如何解决?
  • 大模型的预训练数据一般会有截止时间,并不包含最新的信息。
  • 当你只有基本模型的时候,想要创建 llm assiatant 可以采用给大模型身份设定,及回答示例作为 prompt。

step4-post training

  • turn the llm into a assistant
  • post-training data (conversations)
  • hallucinations, tool use, knowledge/working memory
  • 如何解决 ai 胡编乱造的问题:
    • 利用现有的文章,转换成问题。再通过对比正确答案和模型之间的回答,如果模型回答错误,不确定性高度增加,可以在训练集中增加上对于该问题的回答是对不起,我不知道。
    • 可以通过允许模型自行搜索。可以在自己的 prompt 后面加上 use the web search to make sure,就会在回答中增加信息源。
    • 直接在上下文中提供的信息 context,相对比于模型的 memory,回复的答案可以增加模型的准确度和质量。《重新读一遍总是可以更好的做总结,这是其中运行的哲学》
    • prompt 中涉及到计算的部分,或者想要得到精准数字结果的时候,类似于让 ai 去做心算,容易出错,可以让模型使用自己擅长的工具,use code。如:模型不擅长数数,可以在 prompt 加上 use code,他可以将问题转化成其擅长的复制粘贴及 python 算法等。models 不能看到 characters,只能看到 token。且不擅长数数,比如 rasberry 中有几个 r,很多模型都只能数出 2 个 r,也有一些模型用硬编码的形式把答案写在模型中。ß
    • models need tokens to think。

    step5-reinforcement learning

    • post training 之后会有 supervised finetuning model 产生 sfm, 接下来针对 sfm 进行强化学习。
    • 这个阶段训练后得到的是 reinforcement learning model。
    • DeepSeek-R1:发布的文章说明在强化学习提高模型回复准确率的过程中,模型的思考过程变长,通过不同角度的多维度思考,会让结果输出的质量更高。
    • reasoning model 实质调用的是强化学习模型,
    • 如果担心数据安全的问题,可以找到托管 ai 模型的网站,比如《together.ai》,里面可以选择各种大模型进行测试。
    • AlphaGo:supervised learning 与 reinforcement learning 是不同的,前者类似于模仿最强者的学习,能力会不断提升,但是会达到一个顶峰后停止进步。而强化学习则是可以一直上升。

    reinforcement learning from human feedback (RLHF)

    • rl 与 rlhf 有哪些区别?奖励机制是一样的吗?
    • 无法有明确标准答案的东西,比如笑话好不好笑这种,比较适合用 rlhf。在数学和代码之外的创意性行为中。
    • base model:hyperbolic, 有很多基础模型。
    • 本地运行 可以使用 LM studio