Chuyển âm thanh thành văn bản cover

Chuyển giọng nói thành văn bản miễn phí bằng OpenAI whisper trong 3 bước

Kể từ khi đọc được thông tin về mô hình máy học Whisper giúp chuyển giọng nói thành văn bản bởi OpenAI vào tháng 9/2022 tôi nhận thấy đây sẽ là một công nghệ rất thiết thực trong cuộc sống. Sau một thời gian theo dõi và thử nghiệm, tôi cũng đã sử dụng thành công mô hình này với Python trên Google Colab. Nhằm giúp những người không quen thuộc với lập trình cũng có thể sử dụng whisper, tôi viết thư viện python ur_audio_sub và tối giản hết sức các câu lệnh cần thiết giúp chuyển giọng nói thành văn bản. Whisper giúp nhận diện giọng nói từ nhiều ngôn ngữ khác nhau trong đó ~15 ngôn ngữ có tỉ lệ sai số 10%. Trong tutorial này, tôi sẽ hướng dẫn các bạn tạo phụ đề cho youtube video và chuyển đổi file ghi âm thành văn bản chỉ với 3 bước cực kỳ đơn giản.

Đối với tôi, đây là một công cụ rất hữu ích, có thể kể ra 3 ứng dụng thường gặp nhất là (1.) chuyển nội dung cuộc họp từ video thành văn bản để ghi chú và tìm kiếm thông tin dễ dàng, (2.) là tạo phụ đề cho video Youtube / Tiktok (3) chuyển nội dung podcast thành văn bản.

Bài hướng dẫn dưới đây dựa trên thư viện python ur_audio_sub của tôi có trên Github, các bạn có thể tham khảo thêm thông tin tại đây. Mô hình whisper mặc định ở đây là "medium", tutorial này khuyến khích bạn sử dụng Google Colab, giúp các bạn tận dụng sức mạnh của máy ảo Google trong việc train model nhanh chóng vượt trội so với máy tính cá nhân. Đặc biệt, bạn có thể truy cập Google Colab thông qua trình duyệt web trên mọi thiết bị kể cả với smartphone.

Nếu bạn thực hiện tutorial này với máy tính cá nhân thì nên sử dụng model nhẹ hơn như "base" hoặc "small" của whisper để cân bằng độ chính xác với thời gian thực thi.

Chuyển giọng nói thành văn bản trên Google Colab

Bạn có thể xem trực tiếp video demo ngắn này để dễ hình dung trước khi đọc tóm tắt các công đoạn thực hiện như bên dưới.

Hướng dẫn chuyển giọng nói thành văn bản

Bước 1: Thiết lập môi trường Python

  • Truy cập Demo notebook được đính kèm trong thư viện ur_audio_sub > Hình minh hoạ H.1
  • Mở notebook trên Google Colab. Đảm bảo Google Colab được chạy với GPU runtime. > Hình minh hoạ H.2
  • Chạy nhóm dòng lệnh giúp cài đặt các thư viện cần thiết > Hình minh hoạ H.3
open notebook in google colab
H1. Mở demo notebook bằng Google Colab, tạo bản sao vào Drive của bạn
Google%20Colab%20runtime%20GPU
H2. Đảm bảo Google Colab runtime đang sử dụng GPU giúp tăng tốc quá trình train machine learning model.
Chuyển giọng nói thành văn bản trên Google Colab với OpenAI whisper
H3. Chạy nhóm câu lệnh thực hiện cài đặt môi trường python chỉ với 1 click

Bước 2: Tải file âm thanh lên bộ nhớ tạm Google Colab hoặc Google Drive

upload file am thanh
H4. Kết nối/tải file lên Google Colab

Giới thiệu OpenAI & Whisper

OpenAi là công ty nghiên cứu về lĩnh vực trí tuệ nhân tạo được tỉ phú Elon Musk thành lập năm 2015. Sứ mệnh của họ là đảm bảo trí tuệ nhân tạo mang lại lợi ích cho toàn nhân loại.

Whisper là mô hình nhận diện giọng nói đa năng được đào tạo trên tập dữ liệu lớn và đa dạng giúp thực hiện các tác vụ nhận diện giọng nói và dịch ngôn ngữ.

Whisper có tối đa 5 mô hình máy học với dung lượng khác nhau từ bé (tiny) đến lớn (large), cho phép người dung lựa chọn mô hình tối ưu nhằm cân đối tốc độ xử lý với độ chính xác.
Tỉ lệ nhận diện sai của whisper phụ thuộc vào loại ngôn ngữ, bảng dưới đây thể hiện thống kê tỉ lệ sai của từng loại ngôn ngữ khi sử dụng mô hình lớn nhất (large) của whisper. Với tiếng Việt, tỉ lệ này là 10.7% còn đối với tiếng Anh là 4.5%. Tỉ lệ lỗi thấp nhất với tiếng Tây Ban Nha, chỉ với 3.5%.

language breakdown
H5. Tỉ lệ nhận diện sai với model 'large' theo từng ngôn ngữ khác nhau của OpenAI whisper

Như vậy là  tôi đã hướng dẫn xong các bạn thực hiện chuyển giọng nói thành văn bản sử dụng mô hình máy học whisper. Nếu bạn có bất kỳ câu. hỏi nào, hãy để lại comment phía dưới bài viết. Nếu bài viết hữu ích, bạn hãy chia sẻ cảm nghĩ của bạn và giới thiệu tới network của mình.

Bài viết này hữu ích với bạn chứ?

Đánh giá từ 1 đến 5.

Đánh giá phổ biến 4.8 / 5. Số bình chọn: 4

Chưa có ai đánh giá bài viết này! Hãy là người đầu tiên để lại đánh giá.

We are sorry that this post was not useful for you!

Let us improve this post!

Tell us how we can improve this post?

google sheet python
Đọc và xuất dữ liệu Google Sheets với Python & Jupyter Notebook
May 27, 2021
Tôi đã đến với Python như thế nào? Câu chuyện về trải nghiệm các “Tool” phân tích dữ liệu
March 28, 2021
kinh nghiem tu hoc data analysis jpg
10 Kinh nghiệm tự học Data Analysis với Python thành công
October 9, 2022

Leave a Reply

Your email address will not be published. Required fields are marked *