Видео ассистент
Описание
В современном мире люди всё чаще общаются с техникой голосом: мы спрашиваем у телефона погоду, включаем музыку, ищем информацию. Но обычные голосовые помощники отвечают только звуком или текстом. Мне стало интересно сделать ассистента, который не просто говорит ответ, а ещё показывает видеоряд — например, чтобы в технопарке или на интерактивной стойке это выглядело как «живой» помощник. Целью проектной работы является создание программного видео ассистента, который принимает голосовой вопрос пользователя, преобразует его в текст, получает ответ от языковой модели и воспроизводит этот ответ голосом, параллельно показывая видео. Для достижения цели были поставлены следующие задачи: • изучить, как работают голосовые ассистенты и какие этапы обработки речи в них есть; • реализовать запись аудио с микрофона и определение момента, когда человек начал и закончил говорить (VAD); • подключить распознавание речи (STT) через облачный сервис; • подключить генерацию ответа (языковая модель / чат-бот); • подключить синтез речи (TTS) и вывод звука на колонки; • реализовать воспроизведение видео во время ответа ассистента; • сделать хранение короткой истории диалога, чтобы ответы были более связными; • провести тестирование и описать результаты.
Презентация
Открыть презентациюКомментарии 0
Пока нет комментариев