Работаю с ИИ и можно сказать, что занимаюсь исследованием различных возможностей и кейсов применения для себя и бизнеса. И давно мучает вопрос касательно обучения, а именно извлечения информации полезной для себя из видеоматериалов, как полноценно извлечь, если сам пишешь конспект то упираешься в фильтры своего мозга, тема знакомая возьмешь новое, мимо чего то пройдешь и не заметишь с первого раза, с третьего уже лучше понял и написал конспект пошаговый, что делать, как делать, какие риски. Когда появилась транскрибация стало проще, чтобы не смотреть часы, можно транскрибировать и получаешь конспект, можно потом через ИИ его структурировать, поработать и получить ответы на свои вопросы, например через Notebooklm. Но проблема осталась с визуальной составляющей... если автор на видео показывает, что-то то часть действий он может не озвучивать и для него это будет само собой разумеющееся на автомате, а для меня, когда я попробую повторить для получения аналогичного результата, что-то точно пойдет не так, потому что нет пояснения, а почему нужно было так или иначе делать. Или допустим другая ситуация, слова автора расходятся с его движениями в интерфейсе программы... и тут в голове будет диссонанс. Знаю, что компьютерное зрение есть у Gemini, можно загружать в чат и получать описание того, что ИИ видит на экране, это работает с небольшими по длительности ролики. Так же есть в Google Ai Studio модели PRO и Flash которые обладают компьютерным зрением и имеют контекстное окно в миллион токенов, но работая с ним натыкаешься на ограничения по размеру файлов, длительность роликов, а так же забывания чтобы было в начале ролика. с Openrouter пока ничего толкового не вышло. Цель оцифровать любой учебный курс и сформировать грамотный конспект, который уже тестировать в качестве рабочей гипотезы или формировать из раличных материалов гипотезы и тестировать. Темы примения различные: программирование, алготрейдинг (криптоботы), SEO, контекстная реклама, создание сайтов, написание статей, психология, автоматизации различных сервисов n8n, извлечения промтов из видео и т.д.. Один из простых вариантов способа реализации, к которому пришел я: 1. транскрибация аудиодорожки с точным посекундным таймлайном в json 2. в зависимости от динамики видео разрезать видео на 1 скриншот в 2-5 сек или посекудно или если криптотрейдинг, скальпинг какой-нибудь каждые 250-500 мс - и отправлять на распознование ИИ недорогой модели в json с таймлайном. 3. затем через ИИ обработать полученный материал с соответствующим промтом. Может уже кто-то решает этот вопрос как-то по другому?
вроде это то, что вы хотите: [Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic] https://v32.skladchik.org/threads/w...-video-v-konspekt-lifetime-propractic.503730/
Здесь по факту только часть - транскрибация аудиодорожки и работа с текстом, а компьютерного зрения, что именно происходит на картинке в видео не распознает.