Chương 1 — Generative AI là gì?
🧭
Thực chiến — 30 giây
Cùng Midjourney: người gõ "a beautiful girl" ra ảnh nhựa; người biết "drive" ra ảnh bán được. Khác biệt = hiểu ~20% cơ chế bên dưới. Ăn tiền ở đâu: hiểu seed/diffusion = tái lập được nhân vật → làm ra sản phẩm, không phải ăn may từng ảnh.
Hiểu cơ chế bên dưới (dù chỉ 20%) là khác biệt giữa người "gõ cầu may" và người "drive được model".
Sau chương này bạn sẽ
- Phân biệt diffusion (ảnh/video/nhạc) vs LLM (text) — và vì sao điều đó đổi cách bạn prompt.
- Gọi tên đúng các modality (text-to-image, image-to-video...).
- Đọc được bản đồ công cụ 2026 và biết cái nào cho việc gì.
- Có mental model "đạo diễn" để mọi chương sau dễ vào.
01 · Generative AI là gì?
Generative AI (GenAI) = AI tạo ra nội dung mới (ảnh, video, âm thanh, text, code) bằng cách học mẫu từ dữ liệu huấn luyện — thay vì chỉ phân loại/dự đoán.
Khác biệt cốt lõi với AI "truyền thống":
| AI phân tích | Generative AI |
|---|---|
| "Ảnh này là mèo hay chó?" | "Vẽ cho tôi một con mèo phi hành gia" |
| Phân loại, dự đoán | Sinh ra thứ chưa từng tồn tại |
02 · Hai bộ não khác nhau: Diffusion vs LLM
Đây là điều đa số người học bỏ qua — và là lý do prompt ảnh khác hẳn prompt ChatGPT.
Hai cơ chế
LLM (text) — sinh tuần tự, từng token một, đoán từ tiếp theo (autoregressive). Bạn "trò chuyện" với nó.
Diffusion (ảnh/video/nhạc) — bắt đầu từ nhiễu ngẫu nhiên (noise) rồi khử nhiễu dần qua nhiều bước cho đến khi thành hình. Bạn "chỉ đạo" một quá trình ngẫu nhiên hội tụ.
DIFFUSION (ảnh):
Noise ngẫu nhiên → khử nhiễu (step 1) → ... → (step 30) → Ảnh rõ
▲ seed quyết định điểm xuất phát ▲ prompt lái hướng ở mỗi bướcVì sao điều này quan trọng (3 hệ quả thực tế):
- Seed = điểm xuất phát ngẫu nhiên → cùng prompt + cùng seed = cùng ảnh (tái lập được). Đây là chìa khoá consistency (Chương 5).
- Steps = số bước khử nhiễu → nhiều hơn = mịn hơn (đến một ngưỡng), nhưng đắt/chậm hơn.
- Diffusion không "hiểu" câu như người — nó khớp prompt với các vùng đặc trưng đã học. Vì vậy từ khoá + cấu trúc quan trọng hơn ngữ pháp đẹp (Chương 2).
Multimodal: một số model 2026 (Nano Banana/Gemini) kết hợp "hiểu" kiểu LLM + "tạo" kiểu diffusion → cho phép edit bằng hội thoại ("đổi áo sang đỏ"). Xu hướng đang hợp nhất hai bộ não.
03 · Các modality & "hướng" sinh
Gọi tên đúng giúp bạn tìm tool và đọc tài liệu:
| Hướng (direction) | Nghĩa | Ví dụ tool |
|---|---|---|
| text-to-image | Mô tả → ảnh | Midjourney, Flux |
| text-to-video | Mô tả → video (T2V) | Veo, Kling |
| image-to-video | Ảnh tĩnh → chuyển động (I2V) | Kling, Runway |
| text-to-audio / music | Mô tả → nhạc | Suno, Udio |
| text-to-speech (TTS) | Chữ → giọng nói | ElevenLabs, Vbee |
| image-to-image | Ảnh → ảnh (đổi style/edit) | Flux Kontext, Nano Banana |
| text-to-3D | Mô tả → mô hình 3D | Tripo, Meshy |
Quy tắc vàng sẽ gặp lại khắp module
Ảnh tĩnh dễ kiểm soát hơn video. Nên pipeline pro thường là: tạo ảnh "hero" đẹp & đúng ý trước (text-to-image), rồi mới cho nó chuyển động (image-to-video). Đừng cố "text-to-video" mọi thứ từ đầu — khó kiểm soát hơn nhiều (Chương 3).
04 · Bản đồ công cụ 2026 (cập nhật — nhiều thứ vừa đổi)
3 cập nhật khiến tutorial cũ sai
- Sora 2 (OpenAI) đã khai tử (thông báo 3/2026; app đóng 4/2026; API đóng 9/2026). → Dùng Veo 3.1 / Kling 3.0 / Runway Gen-4.
- Midjourney V7/V8 bỏ
--crefvà::→ dùng--oref(nhân vật) +--sref(style). - ElevenLabs yếu tiếng Việt → dùng Vbee/Viettel/FPT/Zalo.
| Modality | Công cụ chính | Mạnh ở |
|---|---|---|
| Ảnh | Midjourney V8.1 | Đẹp nghệ thuật, thẩm mỹ số 1 |
| Flux.2 / Flux Kontext | Photoreal + edit trong ngữ cảnh; có bản open-weight | |
| Nano Banana 2/Pro (Gemini) | Edit bằng hội thoại, giữ nhân vật tốt | |
| Ideogram 3 | Chữ trong ảnh (poster, logo) | |
| Recraft V4 | Vector/SVG thật, in 300 DPI | |
| Adobe Firefly | An toàn bản quyền (có bồi thường IP) | |
| Video | Veo 3.1 | Điện ảnh + audio gốc, extend cảnh |
| Kling 3.0 | Giá/chất lượng tốt, 4K, lip-sync | |
| Runway Gen-4 | Editor mạnh (Act-One, Motion Brush) | |
| Nhạc | Suno v5.5 | Dễ nhất, stems, personas |
| Giọng | ElevenLabs v3 (toàn cầu) · Vbee/Viettel (Việt) | |
| Workflow | ComfyUI (local), Replicate/fal (API), n8n (tự động) |
Đây chỉ là điểm khởi đầu. Mỗi chương sau đào sâu cách dùng từng cái + chọn cái nào khi nào.
05 · Mental model: bạn là "đạo diễn", không phải "hoạ sĩ"
Model không vẽ hộ — nó diễn giải chỉ đạo của bạn. "Chỉ đạo" gồm 3 thứ:
Output chất lượng = Prompt (mô tả) + Reference (ảnh/style tham chiếu) + Params (seed, ratio, steps...)- Prompt — mô tả có cấu trúc (subject + bối cảnh + ánh sáng + style). Chương 2-4.
- Reference — đưa ảnh mẫu để khớp nhân vật/style (
--sref,--oref, IPAdapter). Chương 5. - Params — seed (tái lập), aspect ratio, steps, CFG/stylize.
3 cấp độ thợ (mục tiêu của module)
- Cấp 1: gõ "a beautiful girl" → generic, vô dụng thương mại.
- Cấp 2: prompt có cấu trúc → ảnh đẹp, một lần.
- Cấp 3: consistency (cùng nhân vật/style qua 50 ảnh) + pipeline tự động → sản phẩm bán được.
06 · Cách chọn tool — khung quyết định
Bạn cần tạo gì?
├─ Ảnh nghệ thuật/concept đẹp → Midjourney
├─ Ảnh photoreal / edit ảnh có sẵn → Flux Kontext / Nano Banana
├─ Poster/logo có CHỮ → Ideogram (chữ) / Recraft (vector)
├─ Cần AN TOÀN bản quyền (khách lớn) → Adobe Firefly
├─ Video điện ảnh + thoại → Veo 3.1
├─ Video số lượng nhiều, rẻ → Kling 3.0
├─ Nhạc nền / bài hát → Suno
├─ Giọng đọc tiếng Việt → Vbee / Viettel (KHÔNG ElevenLabs)
└─ Gen hàng loạt tự động → ComfyUI API / Replicate + n8n (Chương 7)Đừng "tool-hopping"
Sai lầm số 1 của người mới: nhảy tool liên tục. Chọn 1 tool cho 1 modality, dùng đến thành thạo, rồi mới mở rộng. Thành thạo 1 tool > biết sơ 10 tool.
07 · Commercial-safe — nguyên tắc nền (chi tiết ở Ch9)
Ngay từ đầu hãy khắc 3 quy tắc (kẻo làm xong không bán được / bị kiện):
- Không clone IP (nhân vật Disney/Marvel...) cho khách thương mại — Disney đang kiện Midjourney.
- Không clone giọng/mặt người thật không có đồng ý — luật deepfake (TAKE IT DOWN Act) siết mạnh.
- Disclose AI khi khán giả mong đợi nội dung thật — YouTube/TikTok/Meta đều bắt buộc nhãn.
→ Đầy đủ + cách làm an toàn: Chương 9.
08 · Bài tập: chọn tool cho use case
Với mỗi nhu cầu, chọn tool + giải thích:
- Shop áo dài cần 50 ảnh sản phẩm trên người mẫu, cùng một gương mặt người mẫu.
- Làm poster sự kiện có dòng chữ tiếng Việt to, rõ.
- Video quảng cáo 8 giây có lời thoại nhân vật.
- Đọc sách nói (audiobook) tiếng Việt.
- Logo vector cho startup (cần file in được).
👉 Lời giải gợi ý
- Tạo nhân vật bằng MJ/Flux rồi giữ consistency bằng LoRA hoặc
--oref(Ch5); cùng gương mặt = bài toán consistency, không phải "gen lại nhiều lần". - Ideogram (mạnh chữ trong ảnh) — MJ hay sai chính tả chữ.
- Veo 3.1 (audio gốc + thoại) — KHÔNG Sora (đã khai tử).
- Vbee/Viettel (TTS Việt) — KHÔNG ElevenLabs.
- Recraft (xuất vector/SVG thật) — không phải PNG raster.
09 · Kiểm tra nhanh
- Diffusion khác LLM ở cơ chế nào?
- Vì sao seed quan trọng?
- Vì sao pipeline pro hay "tạo ảnh trước, cho chuyển động sau"?
- Tool nào KHÔNG nên dùng cho TTS tiếng Việt?
- Sora 2 còn dùng được không?
👉 Gợi ý đáp án
- LLM sinh tuần tự từng token; diffusion khử nhiễu dần từ noise.
- Seed = điểm xuất phát ngẫu nhiên → cùng prompt+seed = tái lập cùng ảnh (nền tảng consistency).
- Ảnh tĩnh dễ kiểm soát hơn video → khoá đúng ý ở ảnh rồi mới animate.
- ElevenLabs (yếu tiếng Việt) — dùng Vbee/Viettel/FPT/Zalo.
- Không — đã khai tử (app 4/2026, API 9/2026); dùng Veo/Kling/Runway.
10 · Thuật ngữ
| Thuật ngữ | Nghĩa nhanh |
|---|---|
| Diffusion | Cơ chế tạo ảnh/video/nhạc bằng khử nhiễu dần từ noise |
| Seed | Điểm xuất phát ngẫu nhiên; cố định để tái lập |
| T2V / I2V | text-to-video / image-to-video |
--sref / --oref | Style Reference / Omni Reference của Midjourney |
| LoRA / ControlNet / IPAdapter | Bộ ba kiểm soát identity/cấu trúc/style (Ch5) |
| Commercial-safe | Nội dung dùng thương mại không dính bản quyền |
11 · Tóm tắt & đọc tiếp
Mang theo
- GenAI = tạo nội dung mới; ảnh/video/nhạc chạy bằng diffusion, text bằng LLM.
- Seed/steps/prompt đều có vai trò vì cơ chế khử nhiễu.
- Pipeline pro: ảnh trước → animate sau; 1 tool/modality đến thành thạo.
- Tool 2026 đã đổi: không Sora, dùng
--oref, TTS Việt riêng.
Hiểu nền rồi — giờ vào kỹ năng đầu tiên & quan trọng nhất: prompt craft cho ảnh.
→ Chương 2 — Tạo ảnh (prompt & tools)

But how do AI images and videos actually work?
Explainer hình ảnh định nghĩa về diffusion (cơ chế tạo ảnh/video). (2025, 1.9M view)

Generative vs Agentic AI: Shaping the Future of AI Collaboration
GenAI khác agentic AI thế nào — đặt đúng bản đồ. (2025, 1.2M view)