100% извлечение информации из учебных курсов для конспектирования

Тема в разделе "Свободное общение", создана пользователем djmax, 26 фев 2026.

  1. 26 фев 2026
    #1
    djmax
    djmax ЧКЧлен клуба
    Работаю с ИИ и можно сказать, что занимаюсь исследованием различных возможностей и кейсов применения для себя и бизнеса. И давно мучает вопрос касательно обучения, а именно извлечения информации полезной для себя из видеоматериалов, как полноценно извлечь, если сам пишешь конспект то упираешься в фильтры своего мозга, тема знакомая возьмешь новое, мимо чего то пройдешь и не заметишь с первого раза, с третьего уже лучше понял и написал конспект пошаговый, что делать, как делать, какие риски.

    Когда появилась транскрибация стало проще, чтобы не смотреть часы, можно транскрибировать и получаешь конспект, можно потом через ИИ его структурировать, поработать и получить ответы на свои вопросы, например через Notebooklm. Но проблема осталась с визуальной составляющей... если автор на видео показывает, что-то то часть действий он может не озвучивать и для него это будет само собой разумеющееся на автомате, а для меня, когда я попробую повторить для получения аналогичного результата, что-то точно пойдет не так, потому что нет пояснения, а почему нужно было так или иначе делать. Или допустим другая ситуация, слова автора расходятся с его движениями в интерфейсе программы... и тут в голове будет диссонанс.

    Знаю, что компьютерное зрение есть у Gemini, можно загружать в чат и получать описание того, что ИИ видит на экране, это работает с небольшими по длительности ролики. Так же есть в Google Ai Studio модели PRO и Flash которые обладают компьютерным зрением и имеют контекстное окно в миллион токенов, но работая с ним натыкаешься на ограничения по размеру файлов, длительность роликов, а так же забывания чтобы было в начале ролика. с Openrouter пока ничего толкового не вышло.

    Цель оцифровать любой учебный курс и сформировать грамотный конспект, который уже тестировать в качестве рабочей гипотезы или формировать из раличных материалов гипотезы и тестировать.

    Темы примения различные: программирование, алготрейдинг (криптоботы), SEO, контекстная реклама, создание сайтов, написание статей, психология, автоматизации различных сервисов n8n, извлечения промтов из видео и т.д..

    Один из простых вариантов способа реализации, к которому пришел я:
    1. транскрибация аудиодорожки с точным посекундным таймлайном в json
    2. в зависимости от динамики видео разрезать видео на 1 скриншот в 2-5 сек или посекудно или если криптотрейдинг, скальпинг какой-нибудь каждые 250-500 мс - и отправлять на распознование ИИ недорогой модели в json с таймлайном.
    3. затем через ИИ обработать полученный материал с соответствующим промтом.

    Может уже кто-то решает этот вопрос как-то по другому?
     
    2 пользователям это понравилось.
  2. 26 фев 2026
    #2
    Cubinec
    Cubinec ЧКЧлен клуба
    1 человеку нравится это.
  3. 26 фев 2026
    #3
    djmax
    djmax ЧКЧлен клуба
    Здесь по факту только часть - транскрибация аудиодорожки и работа с текстом, а компьютерного зрения, что именно происходит на картинке в видео не распознает.
     
    Последнее редактирование: 26 фев 2026
    1 человеку нравится это.
  4. 26 фев 2026
    #4
    ProPractic
    ProPractic ОргОрганизатор (А)
    Привет. Но в ближайшем будущем это планируется добавить, так что, возможно, это актуально.
     
    1 человеку нравится это.
  5. 26 фев 2026
    #5
    djmax
    djmax ЧКЧлен клуба
    Всем спасибо, победил :)