Доступно

[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

Тема в разделе "Бизнес и свое дело", создана пользователем ProPractic, 28 янв 2026.

Цена: 273240р.
Взнос: 4600р.
98%

Основной список: 67 участников

Статус обсуждения:
Комментирование ограничено.
  1. 8 фев 2026
    #61
    ProPractic
    ProPractic ОргОрганизатор (А)
    Здравствуйте, друзья!

    Хотел бы сказать, что поиск по документам полностью готов. То есть вы можете искать не только подходящий файл, но и прямо внутри него.
    Также сейчас я полностью закончил Model Content Protocol инструменты, которые позволят вашим агентам искать в этой базе данных. Постараюсь в ближайшее время обновить демонстрационное видео, сфокусировавшись на обновлениях. :)
     
    1 человеку нравится это.
  2. 8 фев 2026
    #62
    NoytAlex
    NoytAlex ЧКЧлен клуба

    Если я правильно понял, то можно будет подключить NotebookLM ?
    Или как вариант, подключить штатно в софт?
     
    1 человеку нравится это.
  3. 8 фев 2026
    #63
    ProPractic
    ProPractic ОргОрганизатор (А)
    Добрый день! Насколько я знаю, в NotebookLM нет возможности напрямую подключить внешний Model Context Protocol сервер.

    Но если вы подключите к Claude Code или подобному локальному софту специальный навык или программный мостик с NotebookLM, думаю, это будет вполне возможно.

    Если говорить про другой локальный софт — приложения для чатов с нейронками, которые поддерживают этот протокол (Claude Code, Claude Desktop, ChatBox и им подобные), — вы без проблем сможете подключить мой софт как локальный MCP-сервер. :)

    Вы сможете использовать все инструменты, включая поиск по всей базе, поиск конкретных микрофонных заметок, аудио- и видеофайлов, а также получение файлов целиком в контекст модели. Также доступно внесение пользовательских заметок к одной записи или ко многим сразу массово.

    Агент сможет открыть запись на нужном отрезке ;)
     
  4. 8 фев 2026
    #64
    necrem
    necrem ДолжникДолжник
    С инфопротектора аудио -- не проблема! Для этого нужен второй комп и китайский usb Audio capture. А вот с видео печалька)) хотя я встречал видео тиснутые из инфопротектора
     
    2 пользователям это понравилось.
  5. 8 фев 2026
    #65
    PlatonXXL
    PlatonXXL ЧКЧлен клуба
    @ProPractic, здравствуйте.

    Я переживаю будет ли у меня работать на компе. Его характеристики:

    Процессор Intel(R) Core(TM) i5-9400F CPU @ 2.90GHz 2.90 GHz

    Оперативная память 16,0 ГБ

    Память 932 GB HDD ST1000DM010-2EP102, 477 GB SSD Samsung SSD 970 PRO 512GB

    Видеоадаптер NVIDIA GeForce GTX 1650 (4 GB)
    Тип системы 64-разрядная операционная система, процессор x64

    Выпуск Windows 10 Pro
    Версия 22H2
    Дата установки ‎21.‎09.‎2022
    Сборка ОС 19045.6332
     
    1 человеку нравится это.
  6. 9 фев 2026
    #66
    ProPractic
    ProPractic ОргОрганизатор (А)
    Добрый день, @PlatonXXL !
    По характеристикам всё хорошо! У программы модель одна, квантованная (~1.5 GB), и на GTX 1650 4GB она обычно без проблем помещается — так что работать должна без проблем.
    Скорость будет ниже, чем на RTX 3050, на которой я проводил дополнительные тесты но для обычной транскрибации всё нормально.

    Постобработку можно будет сделать по API - но там поможет следующий бонус ;)
     
  7. 9 фев 2026
    #67
    PlatonXXL
    PlatonXXL ЧКЧлен клуба
    @ProPractic, здравствуйте.
    Чтобы программа обрабатывала локально документы. Какие модели нужно будет установить на комп?
    Переживаю, что не потянет.
     
    1 человеку нравится это.
  8. 9 фев 2026
    #68
    ProPractic
    ProPractic ОргОрганизатор (А)
    @PlatonXXL , Добрый день!
    Чтобы было нормальное распознавание, вашей видеокарты хватит вполне. Но если хочется еще и взаимодействовать с этими документами и использовать локальные модели на своем компьютере без доступа в интернет, железо нужно куда мощнее.

    Здесь самый простой, наверное, и дешевый вариант — либо Mac Mini на 16 или 24 гигабайта объединенной памяти, или же 5060 Ti на 16 гигабайт видеопамяти. Но будет приятный бонус за отзыв, который поможет вам на старте.

    К примеру, вот этот текст жирным курсивом в стиле тегов складчика форматировала модель, которая занимает около 10 гигабайт видеопамяти.

    А глобально вообще потолка нет. Если вы хотите очень мощные модели запускать, нужно покупать домой серверную стойку.

    Тут дело в том, что через интернет эти модели стоят копейки. Когда я говорю «копейки», я действительно имею в виду несколько центов в день расходов при какой-либо работе.

    Не пользоваться ими можно разве что если у вас есть какая-то супер конфиденциальная информация или же вы AI энтузиаст, как я. ;)
     
    1 человеку нравится это.
  9. 9 фев 2026
    #69
    PlatonXXL
    PlatonXXL ЧКЧлен клуба
    Я правильно понял. Что ставлю ваш софт и подключаюсь к модели по интернету.
    Потому что я сейчас установил для телеграмм бота модель Llama3.2
    И бот виснет. Не тянет.
     
    1 человеку нравится это.
  10. 9 фев 2026
    #70
    ProPractic
    ProPractic ОргОрганизатор (А)
    Да, вы все верно поняли.

    Локальное распознавание речи требует мало ресурсов, и его можно сделать даже на самой простой видеокарте. А вот какая-то обработка текста — даже банальное исправление знаков пунктуации или чистка от слов-паразитов (например, «э») — уже достаточно ресурсоемко. Поэтому лучше отдать это облачным моделям, буквально за копейки.
     
  11. 10 фев 2026
    #71
    PlatonXXL
    PlatonXXL ЧКЧлен клуба
    @ProPractic , здравствуйте.

    Я правильно понимаю, что Вы сделали аналог
    Typeless и Wispr Flow ?
     
    1 человеку нравится это.
  12. 10 фев 2026
    #72
    ProPractic
    ProPractic ОргОрганизатор (А)
    Добрый день! Я бы сказал, что указанные приложения классом ниже. Да, в своей идее они похожи. То, что сделал я и указанные вами приложения.

    Однако, у нас есть больше возможностей, в частности, обработка видеофайлов, пакетная обработка видеофайлов.

    Вы можете перетянуть туда целую папку. И пока программа работает, когда она уже начала работу, вы можете докидывать туда и докидывать новые видео файлы, сформировав большую очередь обработки, допустим, на вечер или на ночь.

    У нас есть постобработка для больших файлов. И есть еще локальная постобработка. У нас есть очень хороший механизм поиска внутри файла. Я его еще не показывал. Я его сделал как раз за текущую неделю.

    И есть Model Content Protocol Server, что может существенно облегчить задачу, если вы будете использовать какого-то агента для работы с вашей информацией и не искать это руками.
     
  13. 10 фев 2026
    #73
    Anna555sumkina
    Anna555sumkina ЧКЧлен клуба
    а диаризация предусмотрена?
     
    1 человеку нравится это.
  14. 10 фев 2026
    #74
    Atlantius
    Atlantius ЧКЧлен клуба
    @ProPractic уточни пожалуйста про поиск, о котором упоминаешь в видео обзоре, он будет гибридный (Hybrid Search, метод Reciprocal Ranked Fusion) или только по семантике?
     
  15. 10 фев 2026
    #75
    Anna555sumkina
    Anna555sumkina ЧКЧлен клуба
    ещё вопрос-там работа в многопотоке предусмотрена? виспер не сильно грузит гпу если карточка нормальная
     
    1 человеку нравится это.
  16. 10 фев 2026
    #76
    Atlantius
    Atlantius ЧКЧлен клуба
    спасибо что ознакомился с складчиной, к сожалению, из описания не понять ее смысл, автор в комментариях более подробно изложил смысл. Если кратко, то там нет схем, нет "не устойчивого способа", нет халявы и нет "незаконного использования".
    Там есть официальное использование любой топовой ИИ со своего аккаунта в браузере, ну то есть, как пример: у тебя аккаунт в Gemeni/Grok/ChatGPT, ты открываешь браузер, авторизуешься в своем аккаунте, в своем софте ты указываешь какую ИИ использовать (ту в которой авторизовался в браузере) и запускаешь в работу твой софт, твой софт отправляет запросы в ИИ, которая открыта в браузере. Да, на каждом аккаунте есть лимиты, но никто не мешает иметь несколько аккаунтов, а если взять Gemeni, или aistudio.google.com - там контекстное окно в миллион токенов.
    Если не сложно, посмотри пожалуйста подробнее, спасибо
     
    1 человеку нравится это.
  17. 10 фев 2026
    #77
    ProPractic
    ProPractic ОргОрганизатор (А)
    Как мне кажется, для совещаний, если у нас 2–3 участника, этого вполне будет достаточно.

    Допустим, для модели постобработки диаризация бывает не нужна – она отлично понимает, что кто‑то другой задаёт вопрос.
    Приведу пример на ведение лекции: я в Teams веду 3‑часовую онлайн‑лекцию, студент поднимает руку, и я говорю: «Да, вот вижу у Алены вопрос, Алена, пожалуйста, слушайте». Далее говорит Алена. Нормальная модель постобработки может сделать реплики Алены, понимая, что другой участник задаёт вопрос или ещё что‑то.

    Это, конечно, сложнее, чем если данные будут размечены. Диаризация сама по себе – тонкая штука: она разрезает голос по тональностям, то есть на несколько спикеров. При разном качестве записи не факт, что результат будет точным. Я подумаю об этом, но пока не погружался глубоко в эти дебри, но буду смотреть в эту сторону. Знаю, у конкурентов это уже реализовано.

    Если отвечать про многопоточную обработку: она происходит следующим образом – я понимаю, что железо у всех совершенно разное. Ни в коем случае мы не параллелим работу в Whisper. Параллельно в 2, в 3, в 4 потока — нет. Исключительно последовательная обработка.

    Система работает так: первый файл заходит в Whisper, сразу после выхода из него начинается постобработка. Если это постобработка через облачный LLM, она идёт в отдельном потоке, пока видеокарта уже активно обрабатывает следующий файл. То есть у Whisper всегда только один файл на обработке – сделано специально, чтобы избежать перегрузки системы.

    Если стоит локальная постобработка, мы сейчас работаем исключительно с LLM Studio. Там появилась действительно параллельная обработка в 3–4 части: если загружена одна модель, она может обрабатывать 3–4 входа, если контекстное окно позволяет. Это достаточно неплохо работает. Я всё это сейчас тестирую и ввожу.

    Но какой‑то магии ждать не стоит. Так что коротко: обработка в многопотоке предусмотрена, но умная и без перегрузки системы.
     
  18. 10 фев 2026
    #78
    ProPractic
    ProPractic ОргОрганизатор (А)
    Я постараюсь перечитать эту тему и уже обсуждение ответа автора.

    Сейчас допустим, в чат‑Gpt на подписке можно подключить Visual Studio Code через Cline. Там прямо появилась опция авторизоваться.
    У Google Gemini, есть свой собственный плагин в VS Code.

    Поэтому честно сказать: я не вижу смысла писать об этом — я так понимаю, это сделано через автоматизацию браузера, авторизацию через свои аккаунты и автоматическую отправку запросов. Это выполнено как агентская система, скорее всего.
    Но они сейчас и так дают доступ туда. Я думаю, что через какое-то время мы сможем авторизоваться в любом приложении под своим аккаунтом.

    В общем буду читать))
     
    1 человеку нравится это.
  19. 10 фев 2026
    #79
    Anna555sumkina
    Anna555sumkina ЧКЧлен клуба
    тут вопрос к скорости обработки. у меня виспер с нвидеа 3060 обрабатывает с локальной диаризацией со скоростью примерно 1час работы=24 часа видео, средняя нагрузка гпу 10%, вроде бы не грех бы было и ускорить. поэтому возник вопрос про многопоток.
     
    1 человеку нравится это.
  20. 10 фев 2026
    #80
    ProPractic
    ProPractic ОргОрганизатор (А)
    Я не возьмусь точно сказать, какое будет соотношение, но думаю, что примерно 1:30 или 1:40 на видеокарте 3060. Без диаризации считаю, что процесс будет идти быстрее; плюс у меня квантованная версия модели — она легче и по идее должна тратить меньше вычислительных мощностей.

    Как вариант, предлагаю утилизировать видеопамять и вычислительную мощность уже в постобработку, если объем видеопамяти позволяет :)
    Сейчас я перешел на 5060ti 16gb и в восторге какие вещи могут длеать Qwen3 14b или Gpt-oss-20b локально.
     
    1 человеку нравится это.
Статус обсуждения:
Комментирование ограничено.