[Авторская] [Windows|MacOS] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic] [Повтор-1]

intelligent man · 16 апр 2026

@ProPractic,
Деление на спикеров, у вас есть такое? Например, когда берем в расшифровку интервью с ютуба.

ProPractic · 16 апр 2026

intelligent man сказал(а): ↑

@ProPractic,
Деление на спикеров, у вас есть такое? Например, когда берем в расшифровку интервью с ютуба.
Нажмите, чтобы раскрыть...

@intelligent man привет!
Разделение диалога на спикеров с помощью модели называется диаризация, и, на мой взгляд, это не очень надёжная история, потому что при перепадах интонаций она может посчитать, что в диалоге появились лишние спикеры.

В целом, я пока что не смотрел в эту сторону, и такой функции пока что нет.

Я смотрю в сторону добавления анализа видеоряда через извлечение и работу со скриншотами, а также на разные автоматизации с помощью внедрения агентских пайплайнов.

ProPractic · 22 апр 2026

Всем добрый день.
Хотел предупредить, чтобы вы не теряли. Уже две недели я пытаюсь получить аккаунт Apple разработчика, с тем чтобы мы могли подписать приложение сертификатом Apple разработчика, чтобы вы на макбуках могли использовать приложение.

Сейчас приложение под macOS полностью готово и фактически его можно использовать на macOS, но на чужих машинах этот билд будет работать всего одну неделю.

Таким образом, эта история будет исключительно про тестирование, и чтобы иметь возможность выдать вам нормальную, полноценно работающую программу, и чтобы вам не пришлось скачивать свежие билды раз в 6 дней, мне необходим этот аккаунт.
Возникли некоторые сложности, связанные со сменой региона Apple ID, но сейчас я уже веду переписку со службой поддержки Apple. Я добрался до людей, и мы решаем эту проблему.

Скоро я получу этот сертификат, смогу подписать приложение, и мы сразу же стартуем.
Ориентировочная дата — 10 дней, то есть нам нужно будет ещё примерно 10 дней на это.

lifecoder · 26 апр 2026

@ProPractic
Можно пофантазировать?
Сценарий. ходишь по комнате в гарнитуре. Надиктовываешь мысли. Потом говоришь "симсим" резюмируй. После условного слова "симсим" нейросеть на компьютере передает голосом краткое содержание всего текста. Потом говоришь симсим отметь этот блок как важный и помести в текстовый файл в папку с названием важное и текущей датой. Что и выполняется на компьютере. Ну или еще куда-то в базу знаний. например в обсидиане или программе с базой заметок разделенных по категориям. Такое может применяться - реализуемо? Стоит реализации, есть потенциал?
То есть прямая обратная связь голосом, в виде более емкой версии блока мыслей на какую-то тему. Ну и, возможно, получение дополнительной информации налету. И, может быть, проверка по запросу на логику и достоверность. В финале - категоризация и помещение в базу.

lifecoder · 26 апр 2026

И еще один вопрос: не планируется ли интеграция с Обсидиан?
И еще один )
Возможно что-то пропустил в описании.
Сохраняется ли возможность ввода информации с помощью печати (или настройка гибридного способа - где-то печатаешь, где-то голосом для упорядочивания информации, например). Есть привычка быстро печатать, может чуть медленнее скорости размеренной речи ( +редактировать проще) и не уверен, что переход полностью на голос даст значимое увеличение продуктивности. Набирать + редактировать может оказаться, в ряде сценариев, быстрее и рациональнее, чем надиктовывать и редактировать.
Пока печатал этот текст добавил, убавил, исправил... несколько раз.

П.С.
Не особо понимаю как совмещать.
Есть проработанная база в Обсидиан. Потом добавится еще одна база внутри этой программы... И наступит хаос вместо покоя.

intelligent man · 26 апр 2026

ProPractic сказал(а): ↑

Вы берете папку с 10-часовым видео-курсом, перетаскиваете файлы в окно программы и спокойно идете заваривать чай. Whisper Voice Machine начинает "слушать" эти файлы в ускоренном режиме, пока вы отдыхаете. Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос.

Вы можете получить великолепного качества перевод, субтитры, красиво форматированный конспект, или даже отслеживать указать папки для авто-отслеживания...
Нажмите, чтобы раскрыть...

1) Есть один видеофайл с длительностью 6 часов. Ваша программа, берёт файлы с какой максимальной продолжительностью по времени?
2) Видеофайл, там спикер разговаривает и показывает слайды. Я понимаю, что голос пойдёт в расшифровку. Но, спикер показывает слайды с текстом. Они как-то идут в расшифровку?
3) Я правильно понимаю, что получу полный и очищенный текст видео? Это один файл. И второй файл — это краткий конспект? Например, я не хочу читать краткий конспект. Хочу, чтобы мне его озвучили. Как это сделать?
4) Какая нейросеть, лучше всего переводит на русский язык?

Просто скажите программе отслеживать определенные папки на вашем компьютере и обрабатывать новое автоматически! (NEW! Включая скриншоты)
Нажмите, чтобы раскрыть...

5) Например, я закинул файл в данную папку. Как быстро программа увидит файл и приступит к работе? Старт будет через 1 минуту или через 30 минут?

ProPractic · 1 май 2026

lifecoder сказал(а): ↑

А когда планируется старт?
Нажмите, чтобы раскрыть...

@lifecoder
Добрый день, спасибо за интерес.
Старт планируется, как только я получу сертификат разработчика Apple. Сейчас я общаюсь с живыми людьми из службы поддержки Apple.
Я выслал им кучу личных документов. У меня уже приняли деньги две недели назад и даже прислали письмо-подтверждение о том, что я теперь сертифицированный разработчик Apple.

Но доступ к сертификату я так и не получил. У них забуксовал backend из-за того, что я менял регион с России на Казахстан. Пять лет назад, когда я переезжал, я этого не сделал и поменял данные прямо перед оплатой сертификата.

Поэтому у них там всё застопорилось, и мы пытаемся разобраться в ситуации. Я думаю, проблем не должно быть — это просто бюрократия. К сожалению, нужно ещё немножко подождать.
Программа полностью функциональна, и я готов её отдать. Она будет работать на macOS и Windows. Единственное, на macOS она будет работать в виде сборки не больше недели.

Потому что такова политика Apple, и мне нужно подписать её своим сертификатом разработчика, который я по-прежнему жду.

==============

lifecoder сказал(а): ↑

@ProPractic
Можно пофантазировать?
Сценарий. ходишь по комнате в гарнитуре. Надиктовываешь мысли. Потом говоришь "симсим" резюмируй. После условного слова "симсим" нейросеть на компьютере передает голосом краткое содержание всего текста. Потом говоришь симсим отметь этот блок как важный и помести в текстовый файл в папку с названием важное и текущей датой. Что и выполняется на компьютере. Ну или еще куда-то в базу знаний. например в обсидиане или программе с базой заметок разделенных по категориям. Такое может применяться - реализуемо? Стоит реализации, есть потенциал?
То есть прямая обратная связь голосом, в виде более емкой версии блока мыслей на какую-то тему. Ну и, возможно, получение дополнительной информации налету. И, может быть, проверка по запросу на логику и достоверность. В финале - категоризация и помещение в базу.
Нажмите, чтобы раскрыть...

Очень прикольная идея.

Сейчас у меня это реализовано в формате сложного промта постобработки. Если я в начале голосового сообщения говорю кодовую фразу, соответственно, на постобработке будет не просто постобработка, а будет сделано то, что я пожелал.

Допустим, перевод на английский язык, какой-то кодовый пример модель может написать или сделать еще что-то. Здесь вопрос в том, что нужно использовать для таких вещей более дорогие, более качественные модели, которые понимают, что мы «ломаем пятую стену» и что в одних случаях нужно действовать так, а в других — совершенно иначе.

Сейчас нечто подобное уже есть.

Однако чтобы идти в многоэтапный диалог, нужна несколько иная система. Эта штука уже превращается из умного диктофона в агентский инструмент, где мы общаемся с агентом голосом.

Такое технически можно сделать, но точно не на локальных моделях, и я бы здесь сделал отдельное приложение.

Вероятно, это диалоговые модели, которые сейчас есть у OpenAI и Google Gemini, способные вызывать в фоне инструменты. То есть ты говоришь: «Слушай, а что там у нас сегодня по заказам?»

Она фоном вызывает обращение к базе данных, собирает информацию и через 10 секунд отвечает: «Дорогой друг, с заказами всё круто, 10 заказов сегодня».

Ты спрашиваешь: «А какие?» И она опять делает уточнение, вызывает фоном инструменты и отвечает. Такую систему можно собрать, но я не вижу здесь интеграции с моим приложением.

Для моего приложения я вижу агентские функции, планирую их, но это будет в отдаленном будущем, где тексты, курсы и видеоматериалы могут обрабатываться в несколько этапов для получения более сложных вещей.

lifecoder сказал(а): ↑

И еще один вопрос: не планируется ли интеграция с Обсидиан?
И еще один )
Возможно что-то пропустил в описании.
Сохраняется ли возможность ввода информации с помощью печати (или настройка гибридного способа - где-то печатаешь, где-то голосом для упорядочивания информации, например). Есть привычка быстро печатать, может чуть медленнее скорости размеренной речи ( +редактировать проще) и не уверен, что переход полностью на голос даст значимое увеличение продуктивности. Набирать + редактировать может оказаться, в ряде сценариев, быстрее и рациональнее, чем надиктовывать и редактировать.
Пока печатал этот текст добавил, убавил, исправил... несколько раз.

П.С.
Не особо понимаю как совмещать.
Есть проработанная база в Обсидиан. Потом добавится еще одна база внутри этой программы... И наступит хаос вместо покоя.
Нажмите, чтобы раскрыть...

Сейчас я работаю так: нажимаю горячую клавишу (она у меня забиндена на мышь), включается диктофон. Я наговариваю свою мысль, нажимаю опять эту же клавишу, диктофон останавливается, происходит распознавание, постобработка, и потом текст вставляется под курсор. Я выделяю его жирным курсивом, а если что-то не нравится — подправляю руками.

Если понимаю, что делаю это очень часто, я донастраиваю промты. В целом это можно совмещать без проблем, но сама программа не является редактором текста, и контент вставляется туда, где находится курсор.

Также теоретически есть опция сделать промт, который будет использовать `placeholder` с содержимым буфера обмена. То есть можно что-то выделить мышью, скопировать в буфер и надиктовать текст.

При постобработке будет учитываться и содержание буфера обмена, и системный промт, и то, что ты надиктовал. Но это сложный кейс: здесь нужна очень хорошая модель, которая не затупит и не исказит всё.

ProPractic · 1 май 2026

lifecoder сказал(а): ↑

П.С.
Не особо понимаю как совмещать.
Есть проработанная база в Обсидиан. Потом добавится еще одна база внутри этой программы... И наступит хаос вместо покоя.
Нажмите, чтобы раскрыть...

@lifecoder
Я планирую скоро курс по Obsidian, где мы будем работать с агентами искусственного интеллекта. Так уж получилось, что я преподаю на восьмимесячных курсах про искусственный интеллект и кодовые агенты для заработка и жизни. Мы сейчас очень детально с ребятами это разбираем, а я собираюсь как раз-таки упаковать это в свой курс и обновить его.

Я понял, что время пришло. Почти полная автоматизация ведения заметок, перелинковки, дистилляция знаний в деньги — в какой-то хороший классный контент для YouTube, для социальных сетей, а также в платный контент в виде курсов. Идеально интегрируется с приложением

ProPractic · 1 май 2026

intelligent man сказал(а): ↑

1) Есть один видеофайл с длительностью 6 часов. Ваша программа, берёт файлы с какой максимальной продолжительностью по времени?
2) Видеофайл, там спикер разговаривает и показывает слайды. Я понимаю, что голос пойдёт в расшифровку. Но, спикер показывает слайды с текстом. Они как-то идут в расшифровку?
3) Я правильно понимаю, что получу полный и очищенный текст видео? Это один файл. И второй файл — это краткий конспект? Например, я не хочу читать краткий конспект. Хочу, чтобы мне его озвучили. Как это сделать?
4) Какая нейросеть, лучше всего переводит на русский язык?
5) Например, я закинул файл в данную папку. Как быстро программа увидит файл и приступит к работе? Старт будет через 1 минуту или через 30 минут?
Нажмите, чтобы раскрыть...

@intelligent man
Привет! В этом и прелесть, что логического ограничения по таймингам нет. Программа великолепно обрабатывает трехчасовые видеолекции, которые я провожу вживую (записи из мероприятий Teams). У предыдущего потока, я знаю, были и пятичасовые записи.

После этого программа извлекает аудиодорожку из видео, удаляет тишину (есть специальный механизм для этого) и распознает речь. Языком распознавания признаются первые 10 секунд аудиодорожки.

Затем распознанный материал по частям проходит постобработку. Можно сделать так, чтобы постобработка была более качественной: к каждой части «пришиваться» целая.

Тогда модель потратит больше токенов, но при этом вы получите очень качественную постобработку. Можно делать обработку полностью по частям: контекстное окно будет маленьким, токенов потратится меньше, и это даже можно развернуть локально на какой-нибудь мощной видеокарте.

Вы получаете полный текст, и в зависимости от промпта постобработки он может быть даже идеально синхронизирован с таймингами — например, можно получить качественные субтитры в формате SRT.

Из программы вы можете выгрузить данные в виде сырого текста Whisper, в виде постобработанного текста, в виде абзацев с таймингами и в формате SRT.

В большинстве из этих форматов информация может быть добыта даже агентами через MCP-инструменты. Например, Claude Code может автоматизировать задачи, связанные с обработкой большого количества видеоматериалов через мой софт.

Если вам нужны summary, озвучка или подобные вещи — вы можете просто взять весь текст и отправить его в ChatGPT, Qwen или DeepSeek — они сделают вам отличное резюме.
Хотя я уже думаю в этом направлении

Сейчас все модели достаточно неплохо справляются с переводом на русский язык, здесь проблем не будет. Если вы возьмете «копеечную» Gemini 2.5 Flash lite, она справится с этим вполне нормально.

Обработку можно настроить по расписанию: например, таймером каждые 15 минут или по будильнику — скажем, в 12 дня и в 12 ночи.

Или можно запускать очередь вручную: программа сама увидит, что нового появилось, и начнет обработку. На дроп-зону можно кинуть как пачку файлов, так и несколько папок.

Также можно добавлять новые файлы, когда очередь уже запущена. Очередь можно поставить на паузу, но сессия не сохраняется: если приложение будет перезапущено, очередь не восстановится.

evgennsk154 · 1 май 2026

Прошло уже много времени с момента записи в складчину, уже есть сомнения надо ли оно мне.
Чтобы развеять эти сомнения, вы сможете записать какое-то демо как работает программа, как выполняются заявленные функции, чтобы все снова вспомнить и понять, что это действительно нужно?

ProPractic · 1 май 2026

evgennsk154 сказал(а): ↑

Прошло уже много времени с момента записи в складчину, уже есть сомнения надо ли оно мне.
Чтобы развеять эти сомнения, вы сможете записать какое-то демо как работает программа, как выполняются заявленные функции, чтобы все снова вспомнить и понять, что это действительно нужно?
Нажмите, чтобы раскрыть...

ProPractic сказал(а): ↑

Свежие скрины приложения
и немного устаревшие демо видео (будут свежие позже)
Нажмите, чтобы раскрыть...

@evgennsk154
Добрый день! Вы не знакомились вот с этими материалами? Они немножечко устарели: возможностей сейчас стало больше, и всё работает. Я как раз думаю о том, что скоро буду записывать новые материалы с пояснениями по программе.

lifecoder · 1 май 2026

@ProPractic
Спасибо за ответы. Интересно. Рад, что программа расширилась, есть планы на дальнейший апгрейд.и, похоже, многое совпадает с тем, что хочу потестировать.
Возможно сделаю надстройки под свои локальные хотелки, если сам принцип подойдет.

По развитию. Многие курсы строятся вокруг объяснения схем, майндкарт и т.д.
Планируется вместе с выдергиванием текста из видео выдергивание скриншотов к этому тексту?

По Обсидиану непонятно пока что конкретно думаете сделать. Мысли есть, возможно тоже попробую пощупать, добавить автоматизацию поиска и структурирования информации. С интересом жду новостей.

Наверное для комфортной работы с программой нужен более-менее нормальный микрофон, типа Maono PD200 ?

I_Wings · 1 май 2026

Добрый день!
Вы пишите "Так уж получилось, что я преподаю на восьмимесячных курсах про искусственный интеллект и кодовые агенты для заработка и жизни." А ваш курс есть на складчине? Или где его можно посмотреть?

ProPractic · 3 май 2026

@lifecoder,

lifecoder сказал(а): ↑

Планируется вместе с выдергиванием текста из видео выдергивание скриншотов к этому тексту?
Нажмите, чтобы раскрыть...

Безусловно, это планируется. Это мой следующий шаг после локализации приложения на английский язык и упаковки в macOS сборку.

lifecoder сказал(а): ↑

По Обсидиану непонятно пока что конкретно думаете сделать. Мысли есть, возможно тоже попробую пощупать, добавить автоматизацию поиска и структурирования информации. С интересом жду новостей.
Нажмите, чтобы раскрыть...

Андрей Карпатый LLM Wiki - Можно просто забить вот этот запрос в DeepSeek, Qwen или в ChatGPT и спросить, что это такое. Я планирую об этом рассказать, но не так, как это делают в роликах на YouTube, а на самом деле копнуть глубоко.

lifecoder сказал(а): ↑

Наверное для комфортной работы с программой нужен более-менее нормальный микрофон, типа Maono PD200 ?
Нажмите, чтобы раскрыть...

Нет, я думаю, что это не понадобится. У меня конденсаторный микрофон для проведения лекций, он подключен по USB, но иногда я его забываю подключать, и я не замечаю какой-то радикальной разницы с микрофоном от веб-камеры.
Главное, чтобы это был нормальный микрофон и уровень сигнала позволял понять, что вообще человек говорит. Логика простая: если, послушав запись на микрофон, вы можете однозначно сказать, о чём эта запись, — значит, этот микрофон подходит.

ProPractic · 3 май 2026

I_Wings сказал(а): ↑

Добрый день!
Вы пишите "Так уж получилось, что я преподаю на восьмимесячных курсах про искусственный интеллект и кодовые агенты для заработка и жизни." А ваш курс есть на складчине? Или где его можно посмотреть?
Нажмите, чтобы раскрыть...

Добрый день!
Скоро будет несколько анонсов: следующий курс по Obsidian, большой курс по локальным LLM и курс по OpenCode.
Я планирую сделать анонс трех курсов, и думаю, что это будет вам интересно.

ShangriLa · 4 май 2026

Подскажите, а вы обе версии только одновременно будет раздавать?
Просто нужна в первую очередь под windows, и уже поскорее хочется расхомячиться

Atlantius · 5 май 2026

@ProPractic приветствую, подскажи пожалуйста:
1. планируется расширить перечень типов файлов на вход: MP3, MP4, M4A, OGG, WAV, FLAC, WMA, M4A, FLAC, AAC, WEBM ?
2. планируется ли сделать полный комбайн? имею ввиду, на вход даю видео лекции, а на выходе получаю конспект с картинками/графиками в формате doc/pdf?
3. по чему не делаешь сервис по транскрибации? видел там берут по 6 ₽/за минуту (пример), и нормально себя чувствуют.

intelligent man · 6 май 2026

@ProPractic,

Модель GigaAM-v3 от Сбера — это первая отечественная модель, которая по качеству распознавания русской речи превосходит зарубежные аналоги. Она обучена на огромном корпусе русскоязычных данных и учитывает особенности нашей фонетики.
Нажмите, чтобы раскрыть...

Вы можете добавить данную модель в свою программу?

ProPractic · 7 май 2026

lifecoder сказал(а): ↑

Сделал еще рекламу здесь:
Нажмите, чтобы раскрыть...

@lifecoder, благодарю!

ShangriLa сказал(а): ↑

Подскажите, а вы обе версии только одновременно будет раздавать?
Просто нужна в первую очередь под windows, и уже поскорее хочется расхомячиться
Нажмите, чтобы раскрыть...

@ShangriLa будут лицензии под обе операционных системы, так же MacOS станет доступна и тем, кто был в первом потоке (только ради этого еще раз участвовать не надо

Atlantius сказал(а): ↑

приветствую, подскажи пожалуйста:
1. планируется расширить перечень типов файлов на вход: MP3, MP4, M4A, OGG, WAV, FLAC, WMA, M4A, FLAC, AAC, WEBM ?
2. планируется ли сделать полный комбайн? имею ввиду, на вход даю видео лекции, а на выходе получаю конспект с картинками/графиками в формате doc/pdf?
3. по чему не делаешь сервис по транскрибации? видел там берут по 6 ₽/за минуту (пример), и нормально себя чувствуют.
Нажмите, чтобы раскрыть...

@Atlantius, добрый день!
1. Все эти типы файлов уже поддерживаются
2. А он нужен? Я даю рецепт, как подключить своих агентов, opencode, ChatBox, Claude Desktop и т.п. Тут ведь какая история, одному нужен косперкт в md, другой хочет это сконвертировать в html или в pdf, а кому-то Claude Desktop который через свои навыки это упакует в docx или в pptf

Приложение решает вопрос - медиа на вход - текст на выход, а так же диктовка под курсор, быстрый и удобный поиск и десятки "MCP педалек" для ваших агентов!

3. 6р. за минуту вроде норнмально... НО! У некоторых участников это 6ти часовые лайвы... Это будет достаточно дорого. Учитывая что сейчас все это вообще может происходить локально на железе чуть выше среднего!

intelligent man сказал(а): ↑

Вы можете добавить данную модель в свою программу?
Нажмите, чтобы раскрыть...

Модель GigaAM-v3 от Сбера — это первая отечественная модель, которая по качеству распознавания русской речи превосходит зарубежные аналоги. Она обучена на огромном корпусе русскоязычных данных и учитывает особенности нашей фонетики.

Это достаточно хороший вопрос
Я думаю над тем чтобы добавить "кастомные бекенды" аудио-в-текст. У участника из прошлого потока есть пожелания по альтернативный Whisper доученный на казахский и арабский язык. У вас - вообще альтернативная модель, которая может так же давать точные тайминги... Буду думать

ProPractic · 7 май 2026

Вернулся с новостями. Тим Кук побежден. Сертификат для подписи приложений на руках.
Сборка приложения подписана (теперь это примерно то, что вы качаете с любого сайта, вроде Chatbox, VLC или т.п, и это будет рабоатать как и должно))

Скоро старт.