Здесь мы освоим новейшую технологию — векторные базы данных. Они нужны, чтобы использовать AI-модели, например, ChatGPT, на ваших данных. В этом уроке мы научимся искать отрывок текста по смыслу. И построим чат-бот по вашим вопросами и ответам.
Знакомство с эмбеддингами и векторными базами данных
Важная информация
На бесплатном тарифе Pinecone недоступно создание Namespace-ов. Вы сможете загружать вектора, но они не будут находиться ни в каком namespace. Для целей обучения это не играет роли. Ссылка на справку.
На бесплатном тарифе OpenAI возможно создание 3-х всего лишь эмбеддингов в минуту. Чтобы снять этот лимит, необходимо привязать нероссийскую карту. Ссылка на справку.
Ценообразование (на август 2023)
OpenAI Embeddings. $0,0001 за 1000 токенов (примерно 750 английских слов). Ссылка на цены.
Pinecone. Бесплатная квота 100 000 векторов.
Документация
Эмбеддинги OpenAI (описание, API)
Описание методов API Pinecone
Поиск по тексту
Упражнения
Возьмите вот этот файл и добавьте недостающие узлы (отмечены стикерами):
Финальный процесс
Финальный процесс можно скачать ниже:
Вопросы и ответы (Q&A-ассистент)
Упражнения
Возьмите вот этот файл и добавьте недостающие узлы (отмечены стикерами):
Финальный процесс
Финальный процесс можно скачать ниже:
Ресурсы для работы
Векторная база данных Pinecone
Статья с интервью для поиска и документ на её основе
Таблица в Google Sheets с вопросами и ответами
Процесс по работе с API Pinecone:
Процесс с рекурсивным текстовым сплиттером: