Phi | 多头注意力

今天微软发布了 Phi3 模型，3.8B 的小体量做到了 Mixtral-8x7B 一样的效果，在社区引起了不小的轰动。 fuyao 老师直呼不能李姐我前段时间曾经试过finetune Phi2 模型，效果说实话并不是很理想，默认 context 只有 2k 更是让他难以胜任很多生成式的任务。今天发布的 Phi3 context 做到了 4k，还有长上下文的 128k 版本，至少在这块已经补上了短板。其实 Phi 家族一直是 LLM 领域蛮有个性的一套模型，今天也趁机梳理了一下他们的发展脉络。我们倒过去看，先总结一下今天发的最新版 Phi3。Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone的几个重点如下：模型尺寸有3.8B，7B，14B，3.8B 性能已经不错，量化后 1.8G 在 iPhone16 上一秒可以出 20 个 token 3.3T token 训练，更大的模型用了4.5T。这个比 llama3 的 15T 少的多训练分两阶段。第一阶段用高质量网络数据，第二阶段用更强力过滤后的一阶段子集加 GPT 合成数据。第一阶段学语言能力和常识，第二阶段主要学逻辑推理能力。除了语言模型还发不了 SFT+DPO 的版本 Phi3 的性能确实能打 Phi2 是23 年 12 月发布，只有一个 2.7B 的版本，没有对应的技术报告。从 Model Card 上可以看到主要是按 Phi1....