长春市晟峰源景观工程有限公司

元始智能RWKV获数千万天使轮融资,不走Transformer寻常路

36氪独家消息,创新大模型架构公司元始智能(RWKV)已完成数千万人民币的天使轮融资,投资方为天际资本。此次融资后,公司估值实现种子轮翻番,融资资金将主要用于团队扩充、新架构迭代及产品商业化落地。

自2022年11月OpenAI发布ChatGPT,引领全球生成式AI浪潮以来,已过去两年有余。Transformer架构与Scaling Law(缩放定律)无疑是这场革命的技术核心。大语言模型(LLM)的涌现智能,源于AI模型参数规模的巨大扩张,从亿级到千亿、万亿,在海量数据的学习后,模型展现出前所未有的智能。

然而,大模型也有其难以克服的“阿喀琉斯之踵”——幻觉和准确率问题。在2024年,随着大模型迭代放缓,学界与工业界对Transformer架构及其缩放定律展开了深入讨论。

元始智能(RWKV)的成立,正是为了寻找超越Transformer架构的新路径。公司联合创始人罗璇表示:“我们不仅是一家大模型公司,更是一家拥有持续创新AI模型底层架构能力的‘黑科技’公司。”

RWKV的创始人彭博,香港大学物理系毕业,曾是量化交易专家。自2020年起,他开始独立开发RWKV这一创新架构和开源项目。2022年底,RWKV发布首个模型,并于2023年6月正式成立商业公司,团队规模从3人扩展到近20人。

与依赖巨额算力和数据的Transformer架构不同,RWKV选择了一条更注重效率和灵活性的技术路线。罗璇表示,Transformer架构在每次对话中,需要从头重新读取全文,并始终记录每个token的状态,这导致计算量大、效率低。而RWKV通过技术突破,实现了无需始终记录每个Token的状态,只需阅读必要部分,计算量大大减少。这种设计结合了Transformer的高效并行训练和RNN的高效推理能力。

尽管RNN(循环神经网络)并非新技术,但RWKV通过改进,证明了其不但效率高于Transformer,且同样具有很强的语言建模能力。彭博认为,这并非RWKV架构的缺陷。人类大脑虽无完美记忆力,但通过少量复读和外部记忆,同样能拥有完美记忆力。RWKV通过强化学习,自动判断何时需要重新阅读前文,这比Transformer“强行记住一切”更为高效。

RWKV的特性也适用于创意性场景,如写作、音乐生成等。在这些领域,模型产出的结果更为创新,AI痕迹更弱。罗璇表示,RWKV的架构更接近人脑的记忆演绎机制,不是简单检索信息,而是通过不断更新和重组来“演绎”,从而生成新内容。

目前,RWKV已完成从0.1B到14B的模型训练,海外社区已发布32B预览模型。在过去两年中,RWKV实现了从RWKV-4到RWKV-7的重要技术突破。最新发布的RWKV-7模型,在同等参数规模下,全面超越Transformer架构性能。

在商业化方面,元始智能的业务分为开源和商业实体两大部分。在GitHub上,RWKV的核心开源项目RWKV-LM已收获超过12900的star,并建立了开发者生态。商业实体方面,元始智能已与国家电网、有鹿机器人等企业达成合作,提供模型授权。

未来,元始智能计划在2025年推出70B及以上参数的RWKV-7和终端部署方案,并探索更大规模的模型。罗璇表示,随着Scaling Laws的转向,预计2025年上半年将迎来新架构的爆发期,元始智能也将加速商业化落地。

我们期待元始智能能够持续创新,引领智能新纪元,为人工智能领域带来更多惊喜。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 [email protected]举报,一经查实,本站将立刻删除。 转载请注明出处:https://6g.ccsfyjg.com/post/22928.html

分享:
扫描分享到社交APP
x

注册

已经有帐号?