从 For Web3 到 By Web3 —— AI发展应该如何去中心化
-
一、For Web3
1.1 More 应用(Agent) or 通用模型
-
通用大模型虽然在不断发展,但是离真正满足用户的需求仍然有不小的距离。
-
AI应用的最小单元是Agent,构建一个Agent需要给LLM再组装上额外的知识库、工具以及相应的指示。LLM只是决定了Agent的下限,LLM可以使用的组件才决定了其上限。我们需要更多深度定制的Agent(而不是简单的GPTs)来满足用户的需求,进而通过多Agent的协调合作来实现更复杂的应用场景。
-
通用大模型的训练过程,就是在追求全局最优——多种能力(生成、编程、推理、数学)混合后的最优状态。所以这并不意味着它在局部上就一定优于一些针对性优化的模型。这也是一些MOE(混合专家)模型可以用更小的规模表现出等效于更大规模模型的原理。
-
训练一个小规模的LLM,固然能展示团队的实力,但是未必就能满足实际的场景。不过这也不是团队意愿的问题,训练数据的匮乏限制了训练/微调一个针对性模型的可能性。在确定聚焦的场景后,积累和挑选数据也不是立竿见影的,需要真实用户的交互和反馈。
1.2 TypoX AI
所以我们打造了TypoX AI这个平台
-
让用户能够在AI的协助下更好的进行调研,大大降低了调研门槛,让DYOR不再是一句空话。
-
为了实现这一目标,我们建构了专属的RAG(检索增强生成)框架,为LLM配置了Web3知识库和实时检索工具,可以认为我们打造了一款服务于Web3行业的Perplexity AI。
-
在RAG的加持下,我们总能得到质量优于原生LLM的输出,这恰好满足了我们进一步训练和微调模型的数据需要(训练/微调模型总是需要质量更高的问答对)。同时这些真实的交互数据也体现出了用户的偏好,使得模型能够更贴近社区的需求。
二、By Web3
2.1 AI发展到底应该怎么去中心化?
-
如果LLM模式的AI发展到极致,那最后留给人发挥的空间是什么?
至少需求还是由人提出的。实际上人将长期作为需求方存在,因为目前的生成式模型还是没有自主意识的,依然需要由人类来提出问题。 -
更一般地来说,模型依然是通过从Experience中学习,来提升在具体Task上的Performance。即使当前的LLM的能力相对于最初的生成Task早已溢出,但是对其溢出的能力的优化依然脱离不了这一框架:
提出问题: 确立Task,积累针对于该Task的数据(用于训练和测试);
解决问题: 在数据上训练,优化模型在具体Task上的表现,从而完成新的工作。
I. 算力去中心化的发展受限
物理规律限制了模型训练和部署(解决问题)的去中心化路径。通信成本是无法克服的瓶颈,相较于集中的算力集群,显卡网络更像是一座座孤岛。 小规模的显卡群基本只能部署生图模型和10B级别的LLM,模型训练上的差距只会更大。这不仅是效率问题,更是能力问题。 AI发展在一定时间内可能都无法摆脱对于集中化高质量算力的依赖。
II. 需求(评价&数据)的去中心化
很多人聚焦于硬件问题,却忽视了数据的重要性,实际上对于训练数据的规模和质量只会逐步提升。
- 本轮AI的发展是基于语言模型的 Scaling Law,即模型规模越大,能力越强。更大的模型,就需要更多的数据用于训练;
- 一个模型是无法从其本身生成的内容中学习更多的。 小规模的LLM可以使用GPT4等更大体量模型生成的数据来进行训练/微调,而GPT4级别的头部模型需要的数据质量只会更高。
谁掌握了数据,谁就掌握了AI发展的话语权。目前AI发展话语权是由少部分行业精英掌握的,这是通过树立评估标准、建立训练数据库来实现的。如果不能提出新的需求,那等来的将是更多打榜的通用型模型,用户所真正需要的场景将无法得到解决。
是时候由用户来提出自己对于AI发展的需求了。为了实现这一目标,我们需要建立用户自己的评价体系,进而构建专属的训练数据库,以此来获得对于AI发展方向的话语权。
2.2 TypoCurator
目前对于通用大模型有一些评价手段,但是针对具体AI应用的评价手段还很匮乏。针对于一些有明确答案标准的场景,比如意图识别场景(用户的需求应该调用哪一个DApp/DAgent),需要建构对应的标签数据库,以此来进行针对性的评价和优化。
由此我们最新推出了TypoCurator这个产品,借助Ton生态广泛的用户群体,通过社区分工的形式来构建聚焦于Web3场景的标签数据库,为我们之后训练Web3 AI OS做数据准备。对于普通用户而言,只要完成日常答题/标注任务,即可获得 $TPX 奖励。
2.3 Agent Arena (Soon)
除了标签数据之外,有大量的应用场景是没有明确标准的。比如根据项目信息生成调研报告,在保证事实清晰的基础上,依然会存在关注重点、行文逻辑和风格等问题。这些需要用户来进行对比选择。
受到LMSYS Arena的启发,我们即将推出Agent Arena。用户将在不知道Agent信息的情况下进行对比选择,帮助我们实现对Agent和模型的评估。早期将聚焦于Web3的行业场景,用户的评价将帮助我们更好地优化TypoX AI,从而更好地服务于Web3行业。
我们在LMSYS Arena的基础上,将评估对象从通用模型进一步推广到Agent,同时对于机制进行了进一步优化,降低了作弊和偏见风险。我们希望为AI开发者提供公允的评价体系和参考,以及定制化的AB测试流程,从而促进整个AI应用生态的发展。
-