Chương 4 — Tạo nhạc & giọng nói
🎵
Thực chiến — 30 giây
Cần nhạc nền + giọng đọc tiếng Việt cho video? Suno ra nhạc — nhưng ElevenLabs đọc tiếng Việt sai dấu, phải dùng Vbee/Viettel. Ăn tiền ở đâu: audiobook / faceless tiếng Việt giọng chuẩn = ngách cạnh tranh ít.
Nhạc nền + giọng đọc là "chất keo" của mọi video. Biết drive Suno + chọn đúng TTS tiếng Việt là lợi thế lớn.
Sau chương này bạn sẽ làm được
- Viết prompt nhạc có cấu trúc (Style field + section tags) thay vì "happy pop".
- Xuất stems để remix/mix.
- Tạo giọng nói + hiểu đạo đức/luật voice cloning.
- Chọn đúng TTS tiếng Việt (ElevenLabs không phải lựa chọn tốt cho tiếng Việt).
01 · Suno — mental model 3 trường
Ở chế độ Custom, Suno có 3 trường: Style (mô tả nhạc) + Lyrics (lời + thẻ cấu trúc) + Title. Hiểu vai trò từng trường là drive được.
02 · Style field — công thức (4-7 mô tả là tối ưu)
Công thức
[Genre/Subgenre], [Tempo/Năng lượng], [Nhạc cụ chính], [Kiểu giọng], [Chất âm/production], [Mood]Ví dụ (bolero Việt):
bolero Việt Nam, chậm rãi tình cảm, guitar thùng + đàn bầu, giọng nữ trầm ấm, thu âm mộc ấm như thập niên 80, hoài niệm
Đừng nhồi tag
4-7 mô tả là ngọt nhất. Quá nhiều tag (10+) làm model rối và ra kết quả không nhất quán. Quy tắc: 1-2 genre + 2-3 nhạc cụ + 1-2 mood. Quan trọng nhất để đầu.
03 · Section tags — điều khiển cấu trúc bài hát
Trong trường Lyrics, dùng thẻ trong ngoặc vuông để báo cấu trúc cho model (đây là thẻ chức năng, không phải lời):
| Thẻ | Tác dụng |
|---|---|
[Intro] | Dạo đầu |
[Verse 1], [Verse 2] | Phiên khúc (đánh số để buộc giai điệu khác nhau) |
[Pre-Chorus] | Xây căng thẳng trước điệp khúc (chìa khoá chuyển mượt) |
[Chorus] | Điệp khúc (lặp lại thẻ để model dùng cùng giai điệu hook) |
[Bridge] | Đoạn cầu nối, thường đổi năng lượng |
[Outro] | Kết, có thể [Outro: fade out] |
[Guitar Solo], [Instrumental] | Đoạn nhạc cụ |
Thẻ tham số theo đoạn (đòn mạnh để ra đúng sound):
[Verse: giọng thì thầm, guitar mộc]
[Bridge: đổi sang năng lượng mạnh, thêm dàn dây]
[Outro: fade out]4 mẹo ra đúng "sound"
- Ghi rõ giới tính/kiểu giọng (
[Female Vocal], thì thầm/belt/spoken). - Neo chất âm/thời đại ("lo-fi tape", "mix radio bóng bẩy").
- Dùng pre-chorus + verse đánh số; lặp
[Chorus]để hook nhất quán. - Đổi một biến mỗi lần (genre → nhạc cụ → giọng), đừng viết lại cả prompt.
Bài viết này chỉ hướng dẫn cấu trúc prompt. Tự viết lời của bạn; đừng dán lời bài hát có bản quyền của người khác vào Suno.
04 · Stems — xuất để mix/remix
Suno (Pro/Premier) xuất tới 12 stem (trống, bass, guitar, keys, synth, dây...) dạng WAV đồng bộ thời gian → kéo vào DAW (Ableton/Logic) để mix lại, thay nhạc cụ, hoặc làm nhạc nền video. Bản free chỉ 2 stem (vocals + instrumental).
05 · Giọng nói — ElevenLabs & đạo đức
ElevenLabs v3 (toàn cầu): 70+ ngôn ngữ, Audio Tags ([whispers], [sighs], [shouts]), hội thoại đa người, dub video giữ giọng gốc.
⚖️ Đạo đức & luật voice cloning (BẮT BUỘC nhớ)
- Chỉ clone giọng bạn sở hữu hoặc có đồng ý bằng văn bản.
- ElevenLabs chặn clone giọng người nổi tiếng / chính trị gia và khoá tài khoản vi phạm.
- ≥12 bang Mỹ có luật voice-cloning (vd ELVIS Act ở Tennessee). VN: dùng hình ảnh/giọng người khác để lừa đảo là vi phạm pháp luật. → Chi tiết: Chương 9.
06 · 🇻🇳 TTS tiếng Việt — dùng tool RIÊNG
ElevenLabs KHÔNG phải lựa chọn tốt cho tiếng Việt
Giọng mặc định hay lai âm tiếng Anh, biểu cảm/clone không sang tốt. Lý do tiếng Việt khó: 6 thanh điệu chỉ thể hiện qua dấu (sai dấu = sai từ), và trộn số/từ viết tắt/tên tiếng Anh làm rối chuẩn hoá văn bản.
| Tool VN | Mạnh ở |
|---|---|
| Vbee | 400+ giọng, voice cloning, chuẩn thanh điệu + giọng vùng miền |
| Viettel AI / FPT.AI | Giọng tự nhiên, tích hợp doanh nghiệp |
| Zalo AI | Giọng Bắc/Nam, miễn phí mức cơ bản |
| VieNeu-TTS (open) | Chạy on-device, clone nhanh |
→ Audiobook/podcast/faceless tiếng Việt: bắt đầu với Vbee/Viettel, không phải ElevenLabs.
07 · Pháp lý nhạc AI 2026 (nói cho chuẩn)
Trạng thái settle (đã verify)
- Warner × Suno: settle (11/2025) → license + tải trả phí từ 2026.
- UMG × Udio: settle (10/2025) → nền tảng "walled garden" có license.
- NHƯNG UMG và Sony VẪN đang kiện Suno (chưa xong). Đừng nói "đã settle hết".
Phân phối (ai nhận nhạc AI):
- Chấp nhận: DistroKid, RouteNote, Amuse, LANDR.
- Từ chối nhạc 100% AI: TuneCore, CD Baby.
- Bản quyền thương mại Suno chỉ áp dụng cho bài tạo khi đang ở gói trả phí — nâng cấp sau không hồi tố bài làm ở free. Giữ ngày tạo + hoá đơn.
08 · Lab: nhạc nền + giọng đọc Việt
Bài thực hành (60 phút)
- Suno: viết Style field theo công thức (vd "lo-fi chill, guitar nhẹ, không lời, thư giãn"); tạo 1 track nhạc nền 1 phút cho video.
- Xuất instrumental stem để làm nền.
- Vbee/Viettel: viết 3 câu giới thiệu tiếng Việt, tạo giọng đọc; kiểm dấu thanh đọc đúng.
- Ghép nhạc nền + giọng đọc (CapCut).
Tiêu chí đạt: 1 đoạn audio sạch (nhạc nền + voiceover Việt rõ dấu), commercial-safe (lời tự viết, giọng không clone người thật).
09 · Bài tập
- Viết Style field cho một bài rap tiếng Việt cổ vũ tinh thần khởi nghiệp (chỉ phần mô tả, tự viết lời).
- Bạn làm kênh kể chuyện ma tiếng Việt (faceless) — chọn TTS nào, vì sao?
👉 Lời giải gợi ý
- Vd Style:
boom-bap rap Việt, tempo vừa, beat trống mạnh + piano u tối, giọng nam rõ chữ, mix hiện đại, năng lượng quyết tâm. Lời tự viết. - Vbee/Viettel/Zalo — đọc tiếng Việt tự nhiên, đúng dấu; ElevenLabs lai âm Anh sẽ phá không khí.
10 · Kiểm tra nhanh
- 3 trường của Suno custom?
- Bao nhiêu mô tả trong Style field là tối ưu?
- Thẻ
[Chorus]lặp lại để làm gì? - Vì sao không dùng ElevenLabs cho tiếng Việt?
- Nhạc AI từ Suno đã hết bị kiện chưa?
👉 Gợi ý đáp án
- Style, Lyrics, Title.
- 4-7 mô tả (1-2 genre + 2-3 nhạc cụ + 1-2 mood).
- Báo model dùng lại cùng giai điệu hook → điệp khúc nhất quán.
- Yếu thanh điệu/dấu tiếng Việt, lai âm Anh → dùng Vbee/Viettel.
- Chưa — Warner/UMG-Udio đã settle nhưng UMG & Sony vẫn kiện Suno.
Ví dụ minh họa (có nguồn)
Nhạc AI & giọng nói thật — link tới bản gốc (mô tả thành tựu, không chép lời bài hát):
- Suno — feed nhạc AI trending: suno.com/explore/feed/trending · Nguồn: Suno
- Udio — discover: udio.com · Nguồn: Udio
- Xania Monet — nghệ sĩ R&B giọng AI (lời do người viết; ký deal ~$3M với Hallwood): Spotify · Billboard · Nguồn: Spotify / Billboard
- Breaking Rust — bài AI từng #1 Billboard Country Digital Song Sales (lưu ý: bảng chỉ tính tải trả phí — xem phân tích của TIME): Spotify · Nguồn: Spotify
- 🇻🇳 Vbee — demo TTS tiếng Việt: vbee.vn · Nguồn: Vbee
- 🇻🇳 Viettel AI — demo chuyển giọng nói: viettelai.vn · Nguồn: Viettel AI
11 · Tóm tắt & đọc tiếp
Mang theo
- Suno: Style field 4-7 mô tả + section tags; xuất stems để mix.
- Voice cloning: chỉ giọng có đồng ý; luật siết mạnh.
- TTS tiếng Việt: Vbee/Viettel/FPT/Zalo, không ElevenLabs.
- Nhạc AI: phân phối qua DistroKid/LANDR; bản quyền chỉ tính khi ở gói trả phí.
Bạn đã tạo được ảnh/video/nhạc/giọng. Nhưng tạo một cái khác với giữ cùng một nhân vật/style qua hàng chục cái. Phần C — kỹ năng cốt lõi: consistency.
→ Chương 5 — Consistency nhân vật & style

Suno Ai Tutorial 2026 (For Complete Beginners)
Suno từ zero, bản 2026.

How to make AI Voiceovers that sound Human (2025 ElevenLabs Text to Speech Tutorial)
Kênh chính thức — voiceover/TTS chuẩn.

Suno Studio Tutorial for Beginners and Pros: Suno AI Music Production in 15 Mins
Suno Studio sâu hơn prompt cơ bản.