2025-10-18 11:37
            
        
· 大规模MoE设置(128个专家,具备以下几个特点:上传这个模子的组织叫做「yofo-happy-panda」,表白模子可能具备处置更长上下文的能力;可能支撑多语种或代码夹杂输入;这组参数像是一个基于MoE(Mixture of Experts)夹杂专家架构的高容量模子,20b和120b代表了两个参数版本。· 留意力头多达64个,但键/值头只要8个,意味着模子用的是是Multi-QueryAttention(MQA)。但也有滑动窗口和扩展RoPE。· 36层Transformer,· 上下文窗口为4096,oss代表开源软件,幸运的是?