GitHub - leeguandong/MiniLLaMA3: llama3的迷你版本,包括了数据,tokenizer,pt的全流程llama3的迷你版本,包括了数据,tokenizer,pt的全流程. Contribute to leeguandong/MiniLLaMA3 development by creating an account on GitHub.https://github.com/leeguandong/MiniLLaMA31.数据预处理,包括去重,shuffle,划分数据集
数据格式:
{ "prompt": "对于花园街,你有什么了解或看法吗?", "response": "花园街(是香港油尖旺区的一条富有特色的街道,位于九龙旺角东部,北