AKTSER: AI-Powered Telegram Voice Message Summarizer and Transcriber
Overview
AKTSER is a Telegram bot that summarizes long voice messages, converts voice to text, and trims silence from audio, so you can understand a message in seconds instead of minutes.
The name AKTSER comes from Arabic and literally means "to summarize" — the bot is built for people who live in voice notes but don’t always have time to listen to every second.

Waveform and loudness analysis used to fine-tune AKTSER's silence-detection thresholds.
Behind the scenes, I used Python libraries like librosa, numpy, and matplotlib to study volume levels, background noise, and silent segments. This analysis lets AKTSER cut dead air while keeping every important word in the message.
To validate the trimming and summarization pipeline, I created a small test set that mimics real Telegram voice messages in both English and Arabic. The clips below are the same assets I used while developing and tuning AKTSER.
How it looks on phone
Short demo showing the full AKTSER flow: sending a voice note, receiving an optionally trimming silence.
Tap to play / pause
In this example, the original AI-generated message was 18 seconds long. AKTSER's trimming algorithm reduced it to 11 seconds—a 39% reduction—by removing silence while preserving the speech perfectly,
you can listen to the original and trimmed versions below:
audio of an AI-generated voice message with clear speech, used to test AKTSER's basic functionality.
Trimmed version of the audio.
This clip features a speaker who takes long pauses while thinking, which tests AKTSER's ability to handle natural speech patterns and still produce an accurate summary and transcription.
here is the transcription and summary generated by AKTSER for this clip:
Test 2 — a longer voice message with intentional pauses, used to test how AKTSER summarizes and transcribes speech that includes silence and thinking breaks.
ملخص الرسالة الصوتية
الموضوع الرئيسي: نقد آراء الناس حول برنامج (محتاج إضافة اسم البرنامج)
نقاط مهمة:
- يعتقد البعض ان الضيوف لم يكونوا مُجهزين بشكل جيد (محتاج توضيح هل هذا رأي صاحب الرسالة أم رأي الناس)
- الناس لا يستمعون ولا يتابعون، فقط ينتقدون (محتاج توضيح هل هذه وجهة نظر عامة أم رأي شخصي)
- يجد الضيوف مساحات أفضل لنشر معلوماتهم (محتاج إضافة أمثلة على هذه المساحات)
- انتشار المعلومات بشكل واسع يدل على قيمتها (محتاج توضيح كيف يقاس انتشار المعلومة)
ملاحظات:
- عدم وضوح الهدف من الرسالة.
- الحاجة إلى المزيد من التفاصيل: مثل اسم البرنامج، أمثلة على المساحات الأخرى، وكيفية قياس انتشار المعلومة.
- ذكر أمثلة على الانتقادات الموجهة
محتوى الرسالة:
يبدو أن الرسالة تتحدث عن انتقادات وُجهت لبرنامج ما. يعتقد البعض أن الضيوف لم يكونوا مُجهزين بشكل جيد وأنّ الناس ينتقدون البرنامج دون الاستماع أو المتابعة. في المقابل، يجد الضيوف مساحات أخرى أفضل لنشر معلوماتهم بشكل أوسع. يرى صاحب الرسالة أن انتشار المعلومات دليل على قيمتها.
Objectives
- Provide a convenient way to summarize long voice messages on Telegram.
- Offer voice-to-text conversion for easier reading and accessibility.
- Trim silence from audio messages to improve listening experience.
- Support multiple languages for broader usability.
Key Features
Voice Message Summarization
Extracts key points from voice messages using AI.
Voice-to-Text Conversion
Transcribes voice messages into readable text.
Audio Trimming
Removes silent and low-volume parts from voice messages.
Multi-Language Support
Processes voice messages in multiple languages.