100% извлечение информации из учебных курсов для конспектирования

djmax · 26 фев 2026

Работаю с ИИ и можно сказать, что занимаюсь исследованием различных возможностей и кейсов применения для себя и бизнеса. И давно мучает вопрос касательно обучения, а именно извлечения информации полезной для себя из видеоматериалов, как полноценно извлечь, если сам пишешь конспект то упираешься в фильтры своего мозга, тема знакомая возьмешь новое, мимо чего то пройдешь и не заметишь с первого раза, с третьего уже лучше понял и написал конспект пошаговый, что делать, как делать, какие риски.

Когда появилась транскрибация стало проще, чтобы не смотреть часы, можно транскрибировать и получаешь конспект, можно потом через ИИ его структурировать, поработать и получить ответы на свои вопросы, например через Notebooklm. Но проблема осталась с визуальной составляющей... если автор на видео показывает, что-то то часть действий он может не озвучивать и для него это будет само собой разумеющееся на автомате, а для меня, когда я попробую повторить для получения аналогичного результата, что-то точно пойдет не так, потому что нет пояснения, а почему нужно было так или иначе делать. Или допустим другая ситуация, слова автора расходятся с его движениями в интерфейсе программы... и тут в голове будет диссонанс.

Знаю, что компьютерное зрение есть у Gemini, можно загружать в чат и получать описание того, что ИИ видит на экране, это работает с небольшими по длительности ролики. Так же есть в Google Ai Studio модели PRO и Flash которые обладают компьютерным зрением и имеют контекстное окно в миллион токенов, но работая с ним натыкаешься на ограничения по размеру файлов, длительность роликов, а так же забывания чтобы было в начале ролика. с Openrouter пока ничего толкового не вышло.

Цель оцифровать любой учебный курс и сформировать грамотный конспект, который уже тестировать в качестве рабочей гипотезы или формировать из раличных материалов гипотезы и тестировать.

Темы примения различные: программирование, алготрейдинг (криптоботы), SEO, контекстная реклама, создание сайтов, написание статей, психология, автоматизации различных сервисов n8n, извлечения промтов из видео и т.д..

Один из простых вариантов способа реализации, к которому пришел я:
1. транскрибация аудиодорожки с точным посекундным таймлайном в json
2. в зависимости от динамики видео разрезать видео на 1 скриншот в 2-5 сек или посекудно или если криптотрейдинг, скальпинг какой-нибудь каждые 250-500 мс - и отправлять на распознование ИИ недорогой модели в json с таймлайном.
3. затем через ИИ обработать полученный материал с соответствующим промтом.

Может уже кто-то решает этот вопрос как-то по другому?

Cubinec · 26 фев 2026

вроде это то, что вы хотите:
[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]
https://v32.skladchik.org/threads/w...-video-v-konspekt-lifetime-propractic.503730/

djmax · 26 фев 2026

Cubinec сказал(а): ↑

вроде это то, что вы хотите:
[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]
https://v32.skladchik.org/threads/w...-video-v-konspekt-lifetime-propractic.503730/
Нажмите, чтобы раскрыть...

Здесь по факту только часть - транскрибация аудиодорожки и работа с текстом, а компьютерного зрения, что именно происходит на картинке в видео не распознает.

ProPractic · 26 фев 2026

Привет. Но в ближайшем будущем это планируется добавить, так что, возможно, это актуально.

djmax · 26 фев 2026

Всем спасибо, победил