Перейти к содержимому

Поиск в больших текстах. Вопросы и ответы по своим данным

  • автор:
Здесь мы освоим новейшую технологию — векторные базы данных. Они нужны, чтобы использовать AI-модели, например, ChatGPT, на ваших данных. В этом уроке мы научимся искать отрывок текста по смыслу. И построим чат-бот по вашим вопросами и ответам.

Знакомство с эмбеддингами и векторными базами данных

Важная информация

На бесплатном тарифе Pinecone недоступно создание Namespace-ов. Вы сможете загружать вектора, но они не будут находиться ни в каком namespace. Для целей обучения это не играет роли. Ссылка на справку.

На бесплатном тарифе OpenAI возможно создание 3-х всего лишь эмбеддингов в минуту. Чтобы снять этот лимит, необходимо привязать нероссийскую карту. Ссылка на справку.

Ценообразование (на август 2023)

OpenAI Embeddings. $0,0001 за 1000 токенов (примерно 750 английских слов). Ссылка на цены.

Pinecone. Бесплатная квота 100 000 векторов.

Документация

Эмбеддинги OpenAI (описание, API)

Описание методов API Pinecone

Поиск по тексту

Упражнения

Возьмите вот этот файл и добавьте недостающие узлы (отмечены стикерами):

Финальный процесс

Финальный процесс можно скачать ниже:

Вопросы и ответы (Q&A-ассистент)

Упражнения

Возьмите вот этот файл и добавьте недостающие узлы (отмечены стикерами):

Финальный процесс

Финальный процесс можно скачать ниже:

Ресурсы для работы

Векторная база данных Pinecone

Статья с интервью для поиска и документ на её основе

Таблица в Google Sheets с вопросами и ответами

Процесс по работе с API Pinecone:

Процесс с рекурсивным текстовым сплиттером:

Метки:
Мои курсы выходят в открытый доступ!