【48812】功率2倍于Transformer!彩云科技推出全新模型架构高分登机器学习顶会ICML
2024-06-06 13:54:10智能控制解决方案
具体来说,DCFormer改变了向量矩阵的推理通路,将Transformer结构中恣意线组本来的注意力矩阵组合出4种调配,用8组注意力矩阵组合出64种调配。
为什么7年间无别的的团队完成这一打破?是没想到这个途径,仍是其他原因?
大模型厂商之间的“价格战”,袁行远以为,现在处于一个商场抢占的进程,大模型的价格肯定是存在一些补助的。从电力开展的进程来看,这些资源未来都会渐渐的变廉价,乃至免费,因而厂商提早去做一些补助也不会有太大的影响。
查找通路和改换通路能够精确的经过输入的不同而恣意组合。关于上面这两个新问题,只需要调配成Q1、K1、V2、O2和Q2、K2、V1、O1,就能在不发明新矩阵的条件下解决问题。
动态可组合多头注意力机制(DCMHA),经过动态组合注意力头来进步Transformer的表达能力。
可学习的Compose函数,能够依据输入数据改换注意力分数和权重矩阵,这种动态性增加了模型的表达能力,一起坚持参数和核算的功率。
DCFormer模型。试验依据成果得出,DCFormer在不同架构和模型规划上的言语建模使命上明显优于原始的Transformer,乃至在核算量削减的情况下也能到达类似的功能。
现在,彩云小梦根据V2、V3模型,在坚持逻辑通畅与描绘详尽的条件下单次能够创造几百字到一千字的内容。袁行远称,在DCFormer的加持下,下一代V4、V5版别有期望扩展到2-5千字的创造;再经过故事工程优化,方针是一年内能够轻松创造出到达专业作家水平的5万字长度中篇故事,一起小梦角色扮演的故事体会也能到达专业编剧的水平。