TypoCurator 数据集
-
#数据集地址
https://huggingface.co/datasets/typox-ai/Typo_Intent_OS!数据集说明
3383组关于Web3知识库的问题和答案对,用于训练和测试应用于Web3场景的AI模型。
-
数据格式
- prompt:AI生成的问题。
- completion:被多数用户选中的候选答案。
-
Example:
{ "prompt": "What is a primary advantage of using a decentralized finance (DeFi) platform?", "completion": "Direct peer-to-peer transactions without intermediaries." }
数据来源
这个数据集包含AI生成的问题以及多个候选答案。 由我们Web3产品的C端用户进行选择评估心目中认为最正确的答案,选择人数最多的选项被认为是completion标注。
为了确保这些评估的质量,我们使用了激励机制来引导用户最诚意的答案。此外,我们还预设了一些带有已知答案的种子题目,以筛选用户。只有在这些种子题目上表现优异的用户,其选择才会被计入。标注方法(简短)
- 使用TypoX进行问题与备选答案生成。
- TypoX是一个具备Web3知识库的Rag系统, https://www.typox.ai/
- 通过TypoCurator telegram miniapp由用户进行选择评估。https://t.me/typocurator_bot
3. 每道题的评估人数至少为300人。
4. 选择人数最多的选项需占比超过75%才被认为是completion标注。
5. 若某问题的任何选项都未达到75%,则该问题会继续被评估,直到满足有选项达到80%。
6. 若某问题的答题人数超过1000人,但仍未有选项达到75%,则该问题会被标记为无效问题。
7. 为了确保数据质量,我们预设了500道一些带有已知答案的种子问题,只有在这些种子问题上表现优异的用户,其选择才会被计入。
8. 目前数据集中的问题评估人数平均为453人,completion答案平均占比78.9%,且经过了两轮的我司内部审核。English version:
-
-
-
不错的项目,这很web3