LLMs之data：synthetic-data-generator的简介、安装和使用方法、案例应用之详细攻略

synthetic-data-generator的简介

1、核心功能和优势

2、特点

synthetic-data-generator的安装和使用方法

1、安装

pip安装

安装依赖项

运行应用

2、使用方法

快速入门

环境变量配置

可选的API提供商和模型配置：

Argilla集成

synthetic-data-generator的案例应用

synthetic-data-generator的简介

2024年12月，合成数据生成器 (Synthetic Data Generator) 是一款强大的工具，用于创建高质量数据集，以训练和微调语言模型。它利用 distilabel 和大型语言模型 (LLM) 的能力，生成符合特定需求的合成数据。
synthetic-data-generator是一个高效、灵活且易于使用的工具，它降低了创建高质量数据集的门槛，使得即使没有专业数据科学背景的用户也能快速生成满足特定需求的训练数据，从而显著加速 AI 模型的开发和部署。其对多种任务的支持以及与 Hugging Face Hub 和 Argilla 的集成，更是进一步提升了其实用性和价值。

GitHub地址：GitHub - argilla-io/synthetic-data-generator: Build datasets using natural language

1、核心功能和优势

>> 高质量数据集生成：该工具能够生成用于训练和微调语言模型的高质量数据集，显著提升模型性能。
>> 基于LLM和distilabel：它巧妙地结合了大型语言模型 (LLM) 的强大文本生成能力和 distilabel 框架的合成数据生成技术，保证了数据的质量和多样性。
>> 定制化能力强：用户可以根据自身需求，精确描述目标应用的特性，从而生成高度定制化的数据集。
>> 迭代式开发：支持迭代式地创建和改进样本数据集，方便用户逐步完善数据质量，最终获得理想的数据集。
>> 支持多种任务：目前支持文本分类、用于监督微调的聊天数据以及检索增强生成 (Retrieval Augmented Generation, RAG) 等多种任务，应用范围广泛。
>> 便捷的数据集管理：生成的完整数据集可以轻松地推送到 Hugging Face Hub 和/或 Argilla 平台，方便后续的模型训练和数据管理。
>> 加速AI开发流程：通过简化数据集创建过程，该工具极大地加快了 AI 开发流程，缩短了从概念到模型部署的时间。

2、特点

>> 使用自然语言构建数据集：您可以用自然语言描述所需数据集的特性。
>> 迭代式数据集构建：支持迭代式地创建和改进样本数据集。
>> 大规模数据集生成：能够生成完整规模的数据集。
>> 支持多种任务：支持文本分类、监督微调的聊天数据和检索增强生成 (Retrieval Augmented Generation, RAG) 等任务。
>> Hugging Face Hub 和 Argilla 集成：生成的的数据集可以轻松地推送到 Hugging Face Hub 和 Argilla 平台。
>> 可定制性：基于distilabel，您可以轻松更改LLM或流水线步骤。
>> 多种API支持：支持Hugging Face、OpenAI、Ollama和VLLM等多种API提供商和模型。

synthetic-data-generator的安装和使用方法

1、安装

pip安装

pip install synthetic-dataset-generator

安装依赖项

创建虚拟环境：python -m venv .venv

激活虚拟环境：source .venv/bin/activate

安装依赖项：
pip install -e .
pdm install

运行应用

python app.py

2、使用方法

快速入门

from synthetic_dataset_generator import launch
launch()

环境变量配置

为了自定义生成过程，您可以设置以下环境变量：

>>HF_TOKEN：您的Hugging Face令牌，用于将数据集推送到Hugging Face Hub并从Hugging Face推理端点生成免费补全。可以在examples文件夹中找到一些配置示例。

MAX_NUM_TOKENS：生成的令牌最大数量，默认为2048。

MAX_NUM_ROWS：生成的最多行数，默认为1000。

DEFAULT_BATCH_SIZE：生成数据集使用的默认批量大小，默认为5。

可选的API提供商和模型配置：

MODEL：用于生成数据集的模型，例如meta-llama/Meta-Llama-3.1-8B-Instruct、gpt-4o、llama3.1等。

API_KEY：用于生成API的API密钥，例如hf_...、sk-...等。如果未提供，则默认为HF_TOKEN环境变量。

OPENAI_BASE_URL：任何与OpenAI兼容的API的基本URL，例如https：//api.openai.com/v1/。

OLLAMA_BASE_URL：任何与Ollama兼容的API的基本URL，例如http：//127.0.0.1：11434/。

HUGGINGFACE_BASE_URL：任何与Hugging Face兼容的API的基本URL，例如TGI服务器或专用推理端点。如果您想使用无服务器推理，只需设置MODEL。

VLLM_BASE_URL：任何与VLLM兼容的API的基本URL，例如http：//localhost：8000/。

为了使用特定模型专门生成补全，请在前面提到的环境变量后面添加_COMPLETION。例如，您可以使用MODEL_COMPLETION和OPENAI_BASE_URL_COMPLETION。

SFT和聊天数据生成：不支持OpenAI端点。此外，您需要根据其提示模板，基于模型系列进行配置，使用正确的TOKENIZER_ID和MAGPIE_PRE_QUERY_TEMPLATE环境变量。

TOKENIZER_ID：用于magpie管道的tokenizer ID，例如meta-llama/Meta-Llama-3.1-8B-Instruct。

Argilla集成

可以通过设置以下环境变量将数据集推送到Argilla进行进一步整理：

ARGILLA_API_KEY：您的Argilla API密钥。

ARGILLA_API_URL：您的Argilla API URL。

3、在线测试

合成数据是人工生成的信息，能够模拟真实世界的数据。它通过扩充或增强数据集来克服数据的局限性。这是一款用户友好型应用程序，采用无代码方式利用大型语言模型（LLM）创建自定义数据集。最棒的是：它拥有简单易懂的分步流程，让数据集创建变得轻松无比，无需任何技术知识，任何人都能在几分钟内创建数据集和模型。合成数据生成器会根据你自定义的提示，通过合成数据管道生成适用于您用例的数据集。在后台，这由 distilabel 和免费的 Hugging Face 文本生成 API 提供支持，但我们无需担心这些复杂性，只需专注于使用用户界面即可。

地址：https://huggingface.co/spaces/argilla/synthetic-data-generator