Workflow ChatGPT + ElevenLabs + CapCut tạo video hàng loạt

Blog AI 27/05/2026 Hoàng Nhật Mai

Sau khi đã hiểu ElevenLabs là gì, cách tạo giọng nói AI và clone giọng, câu hỏi tiếp theo của hầu hết creator là: làm sao biến những công cụ này thành một quy trình sản xuất video đều đặn, ra nội dung hàng tuần mà không kiệt sức? Bài viết này tổng hợp mẫu prompt viết kịch bản voiceover tự nhiên, công thức kết hợp ChatGPT + ElevenLabs + CapCut và những lưu ý thực chiến để bạn có thể chạy workflow ngay hôm nay.

Vì sao cần một workflow chuẩn thay vì làm thủ công?

Phần lớn người mới gặp ba vấn đề: kịch bản viết ra nghe như văn bản học thuật, giọng AI đọc đều đều không cảm xúc, và mỗi video mất 4-6 giờ dựng. Một workflow chuẩn giải quyết cả ba điểm:

  • ChatGPT đảm nhận khâu lên ý tưởng và viết kịch bản voiceover đúng tone nói chuyện.
  • ElevenLabs chuyển kịch bản thành giọng đọc tiếng Việt tự nhiên, có ngắt nghỉ và cảm xúc.
  • CapCut ghép voiceover với hình ảnh, b-roll, phụ đề và hiệu ứng để xuất video hoàn chỉnh.

Khi ba công cụ phối hợp đúng cách, bạn có thể ra 3-5 video ngắn mỗi tuần chỉ với 1-2 giờ làm việc mỗi ngày.

Mẫu prompt ChatGPT viết kịch bản voiceover tự nhiên

Lỗi phổ biến nhất khi dùng ChatGPT viết kịch bản là prompt quá chung chung kiểu “viết kịch bản video về X”. Kết quả là văn bản dài, trang trọng, đọc lên nghe như báo cáo. Dưới đây là khung prompt đã được tối ưu cho voiceover AI:

Prompt mẫu cho video ngắn TikTok/Reels (30-60 giây)

“Bạn là copywriter chuyên viết kịch bản voiceover cho video ngắn. Hãy viết kịch bản dài 130-150 từ về chủ đề [CHỦ ĐỀ], hướng đến đối tượng [ĐỐI TƯỢNG]. Yêu cầu: (1) Hook trong 3 giây đầu, đặt câu hỏi hoặc nêu vấn đề gây tò mò. (2) Dùng văn nói, câu ngắn 8-15 từ, tránh từ Hán Việt khó. (3) Có 2-3 chỗ ngắt nghỉ tự nhiên, đánh dấu bằng dấu “…”. (4) Kết thúc bằng call-to-action cụ thể. (5) Không dùng emoji, không dùng dấu gạch đầu dòng. Viết liền mạch như đang nói chuyện với một người bạn.”

Prompt mẫu cho video hướng dẫn YouTube (5-8 phút)

“Viết kịch bản voiceover cho video YouTube dài 800-1000 từ về [CHỦ ĐỀ]. Cấu trúc: intro 60 từ (hook + lời hứa giá trị), 3-4 phần chính (mỗi phần 180-220 từ, có ví dụ cụ thể), outro 80 từ (tóm tắt + CTA). Tone: thân thiện, như đang giảng cho người mới. Câu ngắn, ít từ chuyên ngành. Đánh dấu chỗ chuyển section bằng “[NGẮT]” để biên tập viên dễ chia đoạn.”


Mẫu prompt, kịch bản voiceover và workflow ChatGPT + ElevenLabs + CapCut để sản xuất video hàng loạt

Prompt mẫu cho video bán hàng/quảng cáo

“Viết voiceover 45 giây cho video quảng cáo sản phẩm [SẢN PHẨM]. Áp dụng công thức PAS: Problem (10 giây) – Agitate (15 giây) – Solution (20 giây). Giọng văn tự tin nhưng không thúc ép. Có 1 con số cụ thể làm bằng chứng. Kết thúc bằng CTA rõ ràng kèm offer.”

Workflow 5 bước: từ ý tưởng đến video xuất bản

Bước 1: Brainstorm chủ đề bằng ChatGPT

Yêu cầu ChatGPT đưa ra 20 chủ đề video xoay quanh ngách của bạn, kèm hook gợi ý. Chọn 5-7 chủ đề có tiềm năng để làm trong tuần.

Bước 2: Viết kịch bản bằng prompt mẫu

Dùng các prompt ở trên. Sau khi ChatGPT trả kết quả, đọc to lên một lần — nếu có câu nào vấp hoặc nghe gượng, yêu cầu chỉnh lại với hướng dẫn cụ thể: “Viết lại câu thứ 3 ngắn hơn, dùng từ thuần Việt.”

Bước 3: Tạo voiceover bằng ElevenLabs

Dán kịch bản vào ElevenLabs, chọn voice tiếng Việt phù hợp tone video. Một số mẹo để giọng đọc tự nhiên hơn:

  • Dùng dấu phẩy và dấu ba chấm để tạo ngắt nghỉ.
  • Viết số thành chữ ở những đoạn quan trọng (“hai mươi phần trăm” thay vì “20%”).
  • Điều chỉnh thanh Stability ở mức 40-50% cho video kể chuyện, 60-70% cho video hướng dẫn cần ổn định.
  • Tăng Style Exaggeration nếu muốn giọng có cảm xúc rõ hơn, nhưng đừng quá 50% để tránh đọc bị “kịch”.

Nếu một câu nghe chưa ưng, tách câu đó ra render riêng và ghép lại trong CapCut — nhanh hơn re-render toàn bộ.

Bước 4: Dựng video trong CapCut

Import file audio từ ElevenLabs vào CapCut. Quy trình dựng nhanh:

  • Dùng tính năng auto caption của CapCut để tạo phụ đề từ voiceover.
  • Tìm b-roll trên Pexels, Pixabay hoặc dùng AI image để minh họa từng đoạn.
  • Thêm nhạc nền âm lượng -20dB để không át giọng đọc.
  • Áp dụng template chuyển cảnh đã lưu sẵn để rút ngắn thời gian.

Bước 5: Xuất bản và lặp lại

Xuất video 1080p, đăng lên nền tảng đích kèm tiêu đề và mô tả đã chuẩn bị từ trước. Lưu lại kịch bản và file audio gốc — bạn có thể tái sử dụng giọng đọc cho phiên bản dài hơn hoặc dịch sang ngôn ngữ khác bằng ElevenLabs Dubbing.

Tips sản xuất hàng loạt: làm 5 video trong 1 buổi

Bí quyết không phải làm nhanh hơn, mà là batch processing — gom các tác vụ cùng loại làm liên tục:

  • Thứ 2: brainstorm 5 chủ đề, viết 5 kịch bản bằng ChatGPT.
  • Thứ 3: render toàn bộ 5 voiceover trong ElevenLabs, nghe lại và tinh chỉnh.
  • Thứ 4-5: dựng video trong CapCut, mỗi video 30-45 phút nhờ template có sẵn.
  • Thứ 6: duyệt lại, thêm thumbnail, lên lịch đăng cả tuần sau.

Cách này giúp não không phải chuyển ngữ cảnh liên tục, năng suất tăng 2-3 lần so với làm từng video một.

Khi nào nên nâng cấp lên gói trả phí?

Gói miễn phí ElevenLabs đủ cho 10.000 ký tự/tháng, tương đương khoảng 8-10 video ngắn. Nếu bạn đã chạy workflow ổn định, ra video đều đặn và bắt đầu cần clone giọng riêng hoặc dubbing đa ngôn ngữ, gói Creator (khoảng 22 USD/tháng) hoặc Pro sẽ mở khóa toàn bộ tiềm năng. Lời khuyên: chạy thử 2-3 tuần với gói free để xác nhận workflow phù hợp, sau đó mới nâng cấp.

Nếu bạn đã đọc đến đây và muốn dùng thử ElevenLabs với toàn bộ kiến thức đã có, hãy đăng ký qua link affiliate ở các bài trước trong series — vừa ủng hộ nội dung miễn phí, vừa nhận được hướng dẫn cập nhật khi công cụ có tính năng mới. Chúc bạn sản xuất video đều tay và bền vững.

Công cụ liên quan


Công cụ liên quan


Hoàng Nhật Mai

Hoàng Nhật Mai

Founder hệ thống Để AI Tính. Tư vấn và đào tạo doanh nghiệp & cá nhân ứng dụng AI thực chiến vào Marketing và vận hành