元始智能RWKV获数千万天使轮融资，不走Transformer寻常路-长春市晟峰源景观工程有限公司

36氪独家消息，创新大模型架构公司元始智能（RWKV）已完成数千万人民币的天使轮融资，投资方为天际资本。此次融资后，公司估值实现种子轮翻番，融资资金将主要用于团队扩充、新架构迭代及产品商业化落地。

自2022年11月OpenAI发布ChatGPT，引领全球生成式AI浪潮以来，已过去两年有余。Transformer架构与Scaling Law（缩放定律）无疑是这场革命的技术核心。大语言模型（LLM）的涌现智能，源于AI模型参数规模的巨大扩张，从亿级到千亿、万亿，在海量数据的学习后，模型展现出前所未有的智能。

然而，大模型也有其难以克服的“阿喀琉斯之踵”——幻觉和准确率问题。在2024年，随着大模型迭代放缓，学界与工业界对Transformer架构及其缩放定律展开了深入讨论。

元始智能（RWKV）的成立，正是为了寻找超越Transformer架构的新路径。公司联合创始人罗璇表示：“我们不仅是一家大模型公司，更是一家拥有持续创新AI模型底层架构能力的‘黑科技’公司。”

RWKV的创始人彭博，香港大学物理系毕业，曾是量化交易专家。自2020年起，他开始独立开发RWKV这一创新架构和开源项目。2022年底，RWKV发布首个模型，并于2023年6月正式成立商业公司，团队规模从3人扩展到近20人。

与依赖巨额算力和数据的Transformer架构不同，RWKV选择了一条更注重效率和灵活性的技术路线。罗璇表示，Transformer架构在每次对话中，需要从头重新读取全文，并始终记录每个token的状态，这导致计算量大、效率低。而RWKV通过技术突破，实现了无需始终记录每个Token的状态，只需阅读必要部分，计算量大大减少。这种设计结合了Transformer的高效并行训练和RNN的高效推理能力。

尽管RNN（循环神经网络）并非新技术，但RWKV通过改进，证明了其不但效率高于Transformer，且同样具有很强的语言建模能力。彭博认为，这并非RWKV架构的缺陷。人类大脑虽无完美记忆力，但通过少量复读和外部记忆，同样能拥有完美记忆力。RWKV通过强化学习，自动判断何时需要重新阅读前文，这比Transformer“强行记住一切”更为高效。

RWKV的特性也适用于创意性场景，如写作、音乐生成等。在这些领域，模型产出的结果更为创新，AI痕迹更弱。罗璇表示，RWKV的架构更接近人脑的记忆演绎机制，不是简单检索信息，而是通过不断更新和重组来“演绎”，从而生成新内容。

目前，RWKV已完成从0.1B到14B的模型训练，海外社区已发布32B预览模型。在过去两年中，RWKV实现了从RWKV-4到RWKV-7的重要技术突破。最新发布的RWKV-7模型，在同等参数规模下，全面超越Transformer架构性能。

在商业化方面，元始智能的业务分为开源和商业实体两大部分。在GitHub上，RWKV的核心开源项目RWKV-LM已收获超过12900的star，并建立了开发者生态。商业实体方面，元始智能已与国家电网、有鹿机器人等企业达成合作，提供模型授权。

未来，元始智能计划在2025年推出70B及以上参数的RWKV-7和终端部署方案，并探索更大规模的模型。罗璇表示，随着Scaling Laws的转向，预计2025年上半年将迎来新架构的爆发期，元始智能也将加速商业化落地。

我们期待元始智能能够持续创新，引领智能新纪元，为人工智能领域带来更多惊喜。

0.416903884 0.989217236 0.637768892 0.784788279 0.796186484 0.783301656 0.356662015 0.104565564 0.613876726 0.253719478 0.710478203 0.091907235 0.379268378 0.095309391 0.191787447 0.959168439 0.43775345 0.474954874 0.351558949 0.401831057

元始智能RWKV获数千万天使轮融资，不走Transformer寻常路

相关推荐

常琦佳

元始智能RWKV获数千万天使轮融资，不走Transformer寻常路

登录

注册