Quy trình 4 bước tạo KOC ảo chuyên nghiệp từ con số không năm 2026
Câu hỏi tôi nhận được nhiều nhất khi nói về KOC ảo là: “Tôi không có nền tảng kỹ thuật — tôi có tự làm được không?” Câu trả lời ngắn gọn là: Có. Và quy trình 4 bước dưới đây đã được kiểm chứng thực tế trong nhiều dự án triển khai.
Bước 1: Chuẩn bị ảnh chân dung đạt chuẩn kỹ thuật
Chất lượng ảnh đầu vào quyết định 70% chất lượng video đầu ra. Yêu cầu tối thiểu:
- Góc chụp: Trực diện hoặc nghiêng không quá 15 độ.
- Biểu cảm: Nét mặt trung tính, miệng khép hờ.
- Ánh sáng: Đều hai bên khuôn mặt, không có bóng đổ mạnh.
- Độ phân giải: Tối thiểu 1024×1024 pixel.
- Nền ảnh: Đơn sắc hoặc phẳng giúp HeyGen phân tách khuôn mặt chính xác hơn.

Bước 2: Tạo giọng nói trên <a href="https://deaitinh.com/danh-gia-chi-tiet-elevenlabs-dinh-cao-cong-nghe-chuyen-van-ban-thanh-giong-noi-bang-ai/” style=”color: #0088EE; font-weight: 600; text-decoration: none;”>ElevenLabs
Đăng nhập ElevenLabs, vào “My Voices” → “Add Voice”. Tải lên 5–10 phút âm thanh mẫu (WAV hoặc MP3, không có nhạc nền). Điều chỉnh Stability 50–60% và Similarity 70–80%. Xuất kịch bản thành file WAV 48kHz.
Bước 3: Tạo nhân vật và ghép giọng nói trong HeyGen
Vào HeyGen → “Avatars” → “Photo Avatar” → tải ảnh lên. Chọn “Upload Audio” và tải file WAV từ ElevenLabs. Hoặc kết nối trực tiếp ElevenLabs qua API key trong phần Settings. Điều chỉnh chuyển động đầu ở mức Medium. Xem trước và kết xuất video Full HD 1080p.
Bước 4: Tự động hóa sản xuất với Make.com
Đây là bước biến quy trình thủ công thành dây chuyền tự động:
- Nhập kịch bản mới vào Google Sheets.
- Make.com tự động gửi văn bản lên API ElevenLabs để tạo file âm thanh.
- Make.com lưu file âm thanh vào Google Drive.
- Make.com gửi file âm thanh + Avatar ID lên API HeyGen để tạo video.
- Video hoàn chỉnh được lưu tự động vào thư mục đã định sẵn.
Sau khi thiết lập, toàn bộ bước 2–5 chạy tự động mà không cần can thiệp thủ công.
Lỗi phổ biến và cách khắc phục
| Lỗi | Nguyên nhân | Khắc phục |
|---|---|---|
| Khẩu hình không khớp | File WAV không đúng 48kHz hoặc có tiếng ồn | Xuất lại WAV 48kHz sạch từ ElevenLabs |
| Khuôn mặt biến dạng | Ảnh đầu vào nghiêng quá hoặc ánh sáng không đều | Dùng ảnh trực diện, ánh sáng mềm |
| Giọng nghe như robot | Stability đặt quá cao | Giảm xuống 45–55% |
| Video bị giật | Khoảng lặng đầu/cuối file âm thanh | Cắt bỏ khoảng lặng trước khi tải lên |
Nguồn: HeyGen Documentation 2025; ElevenLabs Documentation 2025; Voiceover-Captions-AI.com 2025; Make.com Automation Blueprint
