[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

ProPractic · 8 фев 2026

Здравствуйте, друзья!

Хотел бы сказать, что поиск по документам полностью готов. То есть вы можете искать не только подходящий файл, но и прямо внутри него.
Также сейчас я полностью закончил Model Content Protocol инструменты, которые позволят вашим агентам искать в этой базе данных. Постараюсь в ближайшее время обновить демонстрационное видео, сфокусировавшись на обновлениях.

NoytAlex · 8 фев 2026

ProPractic сказал(а): ↑

Есть ModelContextProtocol сервер: можно подключить агента, и он будет искать в этих данных и пользоваться этой информацией как-либо. Можно его попросить, чтобы он открыл эти текста через программу распознавания их, ну или как-то переработал и выдал что-то новое из этого.

В будущем будет поиск внутри самого документа. Также я планирую добавить плеер, но это будет в последующих обновлениях, чтобы можно было прямо проматывать к тому моменту, где кто-то что-то говорит.
Нажмите, чтобы раскрыть...

Если я правильно понял, то можно будет подключить NotebookLM ?
Или как вариант, подключить штатно в софт?

ProPractic · 8 фев 2026

NoytAlex сказал(а): ↑

Если я правильно понял, то можно будет подключить NotebookLM ?
Или как вариант, подключить штатно в софт?
Нажмите, чтобы раскрыть...

Добрый день! Насколько я знаю, в NotebookLM нет возможности напрямую подключить внешний Model Context Protocol сервер.

Но если вы подключите к Claude Code или подобному локальному софту специальный навык или программный мостик с NotebookLM, думаю, это будет вполне возможно.

Если говорить про другой локальный софт — приложения для чатов с нейронками, которые поддерживают этот протокол (Claude Code, Claude Desktop, ChatBox и им подобные), — вы без проблем сможете подключить мой софт как локальный MCP-сервер.

Вы сможете использовать все инструменты, включая поиск по всей базе, поиск конкретных микрофонных заметок, аудио- и видеофайлов, а также получение файлов целиком в контекст модели. Также доступно внесение пользовательских заметок к одной записи или ко многим сразу массово.

Агент сможет открыть запись на нужном отрезке

necrem · 8 фев 2026

Kaliostro666 сказал(а): ↑

@ProPractic, добрый день!
Подскажите, а делает ли Ваша программа конспекты с видео, защищенных инфопротектором?)
Нажмите, чтобы раскрыть...

С инфопротектора аудио -- не проблема! Для этого нужен второй комп и китайский usb Audio capture. А вот с видео печалька)) хотя я встречал видео тиснутые из инфопротектора

PlatonXXL · 8 фев 2026

@ProPractic, здравствуйте.

Я переживаю будет ли у меня работать на компе. Его характеристики:

Процессор Intel(R) Core(TM) i5-9400F CPU @ 2.90GHz 2.90 GHz

Оперативная память 16,0 ГБ

Память 932 GB HDD ST1000DM010-2EP102, 477 GB SSD Samsung SSD 970 PRO 512GB

Видеоадаптер NVIDIA GeForce GTX 1650 (4 GB)
Тип системы 64-разрядная операционная система, процессор x64

Выпуск Windows 10 Pro
Версия 22H2
Дата установки ‎21.‎09.‎2022
Сборка ОС 19045.6332

ProPractic · 9 фев 2026

PlatonXXL сказал(а): ↑

Видеоадаптер NVIDIA GeForce GTX 1650 (4 GB)
Нажмите, чтобы раскрыть...

PlatonXXL сказал(а): ↑

Процессор Intel(R) Core(TM) i5-9400F CPU @ 2.90GHz 2.90 GHz
Оперативная память 16,0 ГБ
Память 932 GB HDD ST1000DM010-2EP102, 477 GB SSD Samsung SSD 970 PRO 512GB
Нажмите, чтобы раскрыть...

Добрый день, @PlatonXXL !
По характеристикам всё хорошо! У программы модель одна, квантованная (~1.5 GB), и на GTX 1650 4GB она обычно без проблем помещается — так что работать должна без проблем.
Скорость будет ниже, чем на RTX 3050, на которой я проводил дополнительные тесты но для обычной транскрибации всё нормально.

Постобработку можно будет сделать по API - но там поможет следующий бонус

PlatonXXL · 9 фев 2026

@ProPractic, здравствуйте.
Чтобы программа обрабатывала локально документы. Какие модели нужно будет установить на комп?
Переживаю, что не потянет.

ProPractic · 9 фев 2026

PlatonXXL сказал(а): ↑

@ProPractic, здравствуйте.
Чтобы программа обрабатывала локально документы. Какие модели нужно будет установить на комп?
Переживаю, что не потянет.
Нажмите, чтобы раскрыть...

@PlatonXXL , Добрый день!
Чтобы было нормальное распознавание, вашей видеокарты хватит вполне. Но если хочется еще и взаимодействовать с этими документами и использовать локальные модели на своем компьютере без доступа в интернет, железо нужно куда мощнее.

Здесь самый простой, наверное, и дешевый вариант — либо Mac Mini на 16 или 24 гигабайта объединенной памяти, или же 5060 Ti на 16 гигабайт видеопамяти. Но будет приятный бонус за отзыв, который поможет вам на старте.

К примеру, вот этот текст жирным курсивом в стиле тегов складчика форматировала модель, которая занимает около 10 гигабайт видеопамяти.

А глобально вообще потолка нет. Если вы хотите очень мощные модели запускать, нужно покупать домой серверную стойку.

Тут дело в том, что через интернет эти модели стоят копейки. Когда я говорю «копейки», я действительно имею в виду несколько центов в день расходов при какой-либо работе.

Не пользоваться ими можно разве что если у вас есть какая-то супер конфиденциальная информация или же вы AI энтузиаст, как я.

PlatonXXL · 9 фев 2026

ProPractic сказал(а): ↑

@PlatonXXL , Добрый день!
Чтобы было нормальное распознавание, вашей видеокарты хватит вполне. Но если хочется еще и взаимодействовать с этими документами и использовать локальные модели на своем компьютере без доступа в интернет, железо нужно куда мощнее.

Здесь самый простой, наверное, и дешевый вариант — либо Mac Mini на 16 или 24 гигабайта объединенной памяти, или же 5060 Ti на 16 гигабайт видеопамяти. Но будет приятный бонус за отзыв, который поможет вам на старте.

К примеру, вот этот текст жирным курсивом в стиле тегов складчика форматировала модель, которая занимает около 10 гигабайт видеопамяти.

А глобально вообще потолка нет. Если вы хотите очень мощные модели запускать, нужно покупать домой серверную стойку.

Тут дело в том, что через интернет эти модели стоят копейки. Когда я говорю «копейки», я действительно имею в виду несколько центов в день расходов при какой-либо работе.

Не пользоваться ими можно разве что если у вас есть какая-то супер конфиденциальная информация или же вы AI энтузиаст, как я.
Нажмите, чтобы раскрыть...

Я правильно понял. Что ставлю ваш софт и подключаюсь к модели по интернету.
Потому что я сейчас установил для телеграмм бота модель Llama3.2
И бот виснет. Не тянет.

ProPractic · 9 фев 2026

PlatonXXL сказал(а): ↑

Я правильно понял. Что ставлю ваш софт и подключаюсь к модели по интернету.
Потому что я сейчас установил для телеграмм бота модель Llama3.2
И бот виснет. Не тянет.
Нажмите, чтобы раскрыть...

Да, вы все верно поняли.

Локальное распознавание речи требует мало ресурсов, и его можно сделать даже на самой простой видеокарте. А вот какая-то обработка текста — даже банальное исправление знаков пунктуации или чистка от слов-паразитов (например, «э») — уже достаточно ресурсоемко. Поэтому лучше отдать это облачным моделям, буквально за копейки.

PlatonXXL · 10 фев 2026

@ProPractic , здравствуйте.

Я правильно понимаю, что Вы сделали аналог
Typeless и Wispr Flow ?

ProPractic · 10 фев 2026

PlatonXXL сказал(а): ↑

@ProPractic , здравствуйте.

Я правильно понимаю, что Вы сделали аналог
Typeless и Wispr Flow ?
Нажмите, чтобы раскрыть...

Добрый день! Я бы сказал, что указанные приложения классом ниже. Да, в своей идее они похожи. То, что сделал я и указанные вами приложения.

Однако, у нас есть больше возможностей, в частности, обработка видеофайлов, пакетная обработка видеофайлов.

Вы можете перетянуть туда целую папку. И пока программа работает, когда она уже начала работу, вы можете докидывать туда и докидывать новые видео файлы, сформировав большую очередь обработки, допустим, на вечер или на ночь.

У нас есть постобработка для больших файлов. И есть еще локальная постобработка. У нас есть очень хороший механизм поиска внутри файла. Я его еще не показывал. Я его сделал как раз за текущую неделю.

И есть Model Content Protocol Server, что может существенно облегчить задачу, если вы будете использовать какого-то агента для работы с вашей информацией и не искать это руками.

Anna555sumkina · 10 фев 2026

а диаризация предусмотрена?

Atlantius · 10 фев 2026

@ProPractic уточни пожалуйста про поиск, о котором упоминаешь в видео обзоре, он будет гибридный (Hybrid Search, метод Reciprocal Ranked Fusion) или только по семантике?

Anna555sumkina · 10 фев 2026

ещё вопрос-там работа в многопотоке предусмотрена? виспер не сильно грузит гпу если карточка нормальная

Atlantius · 10 фев 2026

ProPractic сказал(а): ↑

Добрый день! Я перечитал описание темы несколько раз и не понял, что именно предлагается. Это, вероятно, авторские методики использования хороших моделей без оплаты. Я не сторонник таких подходов: халявные лазейки рано или поздно закрываются, а это не устойчивый способ. У нас ничего подобного не будет. Похоже, там нет API и приходится копировать через чат. Если хотите экономить, можно делать постобработку локальными моделями на своей видеокарте либо вовсе пропустить её...
Нажмите, чтобы раскрыть...

спасибо что ознакомился с складчиной, к сожалению, из описания не понять ее смысл, автор в комментариях более подробно изложил смысл. Если кратко, то там нет схем, нет "не устойчивого способа", нет халявы и нет "незаконного использования".
Там есть официальное использование любой топовой ИИ со своего аккаунта в браузере, ну то есть, как пример: у тебя аккаунт в Gemeni/Grok/ChatGPT, ты открываешь браузер, авторизуешься в своем аккаунте, в своем софте ты указываешь какую ИИ использовать (ту в которой авторизовался в браузере) и запускаешь в работу твой софт, твой софт отправляет запросы в ИИ, которая открыта в браузере. Да, на каждом аккаунте есть лимиты, но никто не мешает иметь несколько аккаунтов, а если взять Gemeni, или aistudio.google.com - там контекстное окно в миллион токенов.
Если не сложно, посмотри пожалуйста подробнее, спасибо

ProPractic · 10 фев 2026

Anna555sumkina сказал(а): ↑

например совещание идёт-сделал записиь, а потом из неё удобно в 1 промт получил протокол, отчёт, аналитику и прочее.
Нажмите, чтобы раскрыть...

Anna555sumkina сказал(а): ↑

ещё вопрос-там работа в многопотоке предусмотрена? виспер не сильно грузит гпу если карточка нормальная
Нажмите, чтобы раскрыть...

Как мне кажется, для совещаний, если у нас 2–3 участника, этого вполне будет достаточно.

Допустим, для модели постобработки диаризация бывает не нужна – она отлично понимает, что кто‑то другой задаёт вопрос.
Приведу пример на ведение лекции: я в Teams веду 3‑часовую онлайн‑лекцию, студент поднимает руку, и я говорю: «Да, вот вижу у Алены вопрос, Алена, пожалуйста, слушайте». Далее говорит Алена. Нормальная модель постобработки может сделать реплики Алены, понимая, что другой участник задаёт вопрос или ещё что‑то.

Это, конечно, сложнее, чем если данные будут размечены. Диаризация сама по себе – тонкая штука: она разрезает голос по тональностям, то есть на несколько спикеров. При разном качестве записи не факт, что результат будет точным. Я подумаю об этом, но пока не погружался глубоко в эти дебри, но буду смотреть в эту сторону. Знаю, у конкурентов это уже реализовано.

Если отвечать про многопоточную обработку: она происходит следующим образом – я понимаю, что железо у всех совершенно разное. Ни в коем случае мы не параллелим работу в Whisper. Параллельно в 2, в 3, в 4 потока — нет. Исключительно последовательная обработка.

Система работает так: первый файл заходит в Whisper, сразу после выхода из него начинается постобработка. Если это постобработка через облачный LLM, она идёт в отдельном потоке, пока видеокарта уже активно обрабатывает следующий файл. То есть у Whisper всегда только один файл на обработке – сделано специально, чтобы избежать перегрузки системы.

Если стоит локальная постобработка, мы сейчас работаем исключительно с LLM Studio. Там появилась действительно параллельная обработка в 3–4 части: если загружена одна модель, она может обрабатывать 3–4 входа, если контекстное окно позволяет. Это достаточно неплохо работает. Я всё это сейчас тестирую и ввожу.

Но какой‑то магии ждать не стоит. Так что коротко: обработка в многопотоке предусмотрена, но умная и без перегрузки системы.

ProPractic · 10 фев 2026

Atlantius сказал(а): ↑

спасибо что ознакомился с складчиной, к сожалению, из описания не понять ее смысл, автор в комментариях более подробно изложил смысл. Если кратко, то там нет схем, нет "не устойчивого способа", нет халявы и нет "незаконного использования".
Там есть официальное использование любой топовой ИИ со своего аккаунта в браузере, ну то есть, как пример: у тебя аккаунт в Gemeni/Grok/ChatGPT, ты открываешь браузер, авторизуешься в своем аккаунте, в своем софте ты указываешь какую ИИ использовать (ту в которой авторизовался в браузере) и запускаешь в работу твой софт, твой софт отправляет запросы в ИИ, которая открыта в браузере. Да, на каждом аккаунте есть лимиты, но никто не мешает иметь несколько аккаунтов, а если взять Gemeni, или aistudio.google.com - там контекстное окно в миллион токенов.
Если не сложно, посмотри пожалуйста подробнее, спасибо
Нажмите, чтобы раскрыть...

Я постараюсь перечитать эту тему и уже обсуждение ответа автора.

Сейчас допустим, в чат‑Gpt на подписке можно подключить Visual Studio Code через Cline. Там прямо появилась опция авторизоваться.
У Google Gemini, есть свой собственный плагин в VS Code.

Поэтому честно сказать: я не вижу смысла писать об этом — я так понимаю, это сделано через автоматизацию браузера, авторизацию через свои аккаунты и автоматическую отправку запросов. Это выполнено как агентская система, скорее всего.
Но они сейчас и так дают доступ туда. Я думаю, что через какое-то время мы сможем авторизоваться в любом приложении под своим аккаунтом.

В общем буду читать))

Anna555sumkina · 10 фев 2026

тут вопрос к скорости обработки. у меня виспер с нвидеа 3060 обрабатывает с локальной диаризацией со скоростью примерно 1час работы=24 часа видео, средняя нагрузка гпу 10%, вроде бы не грех бы было и ускорить. поэтому возник вопрос про многопоток.

ProPractic · 10 фев 2026

Anna555sumkina сказал(а): ↑

тут вопрос к скорости обработки. у меня виспер с нвидеа 3060 обрабатывает с локальной диаризацией со скоростью примерно 1час работы=24 часа видео, средняя нагрузка гпу 10%, вроде бы не грех бы было и ускорить. поэтому возник вопрос про многопоток.
Нажмите, чтобы раскрыть...

Я не возьмусь точно сказать, какое будет соотношение, но думаю, что примерно 1:30 или 1:40 на видеокарте 3060. Без диаризации считаю, что процесс будет идти быстрее; плюс у меня квантованная версия модели — она легче и по идее должна тратить меньше вычислительных мощностей.

Как вариант, предлагаю утилизировать видеопамять и вычислительную мощность уже в постобработку, если объем видеопамяти позволяет
Сейчас я перешел на 5060ti 16gb и в восторге какие вещи могут длеать Qwen3 14b или Gpt-oss-20b локально.