volver a tutoriales

Cómo entrenar su propio ChatGPT con sus datos

Aprenda a entrenar su propio ChatGPT con sus datos personalizados utilizando ChatBotKit Datasets. Siga las instrucciones paso a paso para crear y configurar conjuntos de datos, añadir archivos e integraciones y crear registros de conjuntos de datos. ¡Empieza a crear tu propio bot conversacional de IA hoy mismo!

ChatGPT, un término acuñado por OpenAI, se utiliza a menudo como cajón de sastre para describir cualquier modelo lingüístico de gran tamaño (LLM). Se trata de una interfaz de chatbot que permite la comunicación con modelos de IA de forma conversacional. Hoy, vamos a discutir cómo puedes entrenar tu propio "ChatGPT" con datos personalizados usando ChatBotKit Datasets.

Before we proceed, let's understand what datasets are in the context of AI.

¿Qué son los conjuntos de datos?

A dataset is a structured collection of data that can be used to provide additional context and information to your AI bot. It could include information on a variety of topics, such as product information, customer service queries, or general knowledge. Bots access datasets as needed during a conversation to generate responses based on user input and the data.

Guía paso a paso para utilizar los conjuntos de datos de ChatBotKit

1. Creación de un conjunto de datos

En primer lugar, debe crear un nuevo conjunto de datos siguiendo estos pasos:

  1. Go to "Datasets" from the navigation bar.
  2. Haga clic en el botón "Crear conjunto de datos".
  3. Asigne un nombre a su conjunto de datos y facilite una descripción.
  4. Guarde el conjunto de datos haciendo clic en el botón "Crear".

2. Configuración de opciones avanzadas

ChatBotKit provides several advanced options you can configure, including:

  • Número máximo de registros: El número máximo de tokens a utilizar para los nuevos registros.
  • Número máximo de registros y tokens de búsqueda: El número máximo de registros y tokens a utilizar para cada búsqueda de conjunto de datos.
  • Instrucciones de coincidencia y no coincidencia: Instrucciones bot opcionales para utilizar cuando se encuentra o no una coincidencia de registro de conjunto de datos.
  • Visibilidad del conjunto de datos: Especifique si desea que su conjunto de datos sea público o privado.

3. Añadir archivos a conjuntos de datos

Los conjuntos de datos pueden tener archivos adjuntos, que proporcionan información y contexto adicionales. Los tipos de archivo admitidos son .txt, .md, .csv, .json, .jsonl, .docx y .pdf. Estos archivos se dividen automáticamente en registros, manteniendo el conjunto de datos organizado y actualizado.

4. Añadir integraciones

To automate the population of your datasets, you can take advantage of a variety of integrations. For instance, our Sitemap integration, also known as website importer, allows you to import data directly from your website into your dataset. Our Notion integration, known as Notion importer, enables you to seamlessly import data from your Notion documents. These integrations can significantly simplify the process of maintaining and updating your datasets, thus enhancing the performance and effectiveness of your bot.

5. Creación de un registro de conjunto de datos

También puede crear registros manualmente siguiendo estos pasos:

  1. Con el conjunto de datos seleccionado, haga clic en el botón "Crear registro".
  2. Especifique el texto del registro, teniendo en cuenta el número total de fichas.
  3. Guarde el nuevo registro del conjunto de datos haciendo clic en el botón "Crear".

Recuerde que si el registro de su conjunto de datos tiene más de un párrafo, puede dividirlo en varios registros.

Palabras finales

By following these steps, you can successfully create and train your own ChatGPT-like bot using your custom data with ChatBotKit Datasets. Remember to experiment, iterate, and improve your datasets and models over time to achieve the best results. Happy training!