Share
Với sự phát triển không ngừng của khoa học công nghệ, việc tự động nhận diện giọng nói và chuyển thành văn bản không còn chỉ xuất hiện trong những quyển truyện tranh Doraemon mà đã bước ra ngoài đời thực.
Công nghệ bước ra từ truyện tranh - Máy in tiếng nói
Vậy chuyển đổi giọng nói thành văn bản thực chất là gì ? Hiểu đơn giản nó là quá trình chuyển đổi đầu vào bằng giọng nói sau ghi âm trực tiếp hoặc từ các file âm thanh thành văn bản kỹ thuật số dựa trên công nghệ nhận dạng giọng nói.
Trước đây cần có trợ lý/thư ký để ghi chép lại nội dung cần thiết của các cuộc họp, phỏng vấn,… Tuy nhiên việc ghi chép như vậy sẽ tốn rất nhiều thời gian, công sức và rất dễ bị mất mát thông tin trong quá trình ghi chép, nhất là trong những cuộc họp kéo dài nhiều giờ. Ngoài ra, nếu có nhiều người cùng tranh luận trong một cuộc họp, sẽ rất khó để những người thư ký có thể ghi chép lại hết nội dung. Dĩ nhiên bạn có thể ghi âm lại và xử lý sau khi kết thúc cuộc họp để tránh việc bỏ lỡ thông tin quan trọng. Tuy nhiên công việc này thực sự rất nhàm chán, khâu xử lý hậu cần tốn rất nhiều thời gian mà chưa chắc sẽ đem lại hiệu quả cao.
Ghi chép nội dung cuộc họp một cách truyền thống
Công cụ chuyển đổi giọng nói thành văn bản theo thời gian thực sẽ giải quyết tất cả những vấn đề kể trên. Về cơ bản, công cụ này sẽ cho phép chuyển đổi gần như ngay lập tức lời nói của các thành viên trong một cuộc họp thành văn bản, ngoài ra cho phép người đánh giá/chỉnh sửa (reviewer) mà ở đây là các trợ lý hoặc thư ký có thể chỉnh sửa lại nội dung văn bản vừa được chuyển đổi sao cho phù hợp nhất.
Đấy chỉ là một ví dụ cho thấy công cụ chuyển giọng nói thành văn bản thực sự hữu ích trong các cuộc họp, phỏng vấn, … Nhờ những lợi ích và tính năng ưu việt, công cụ này hiện nay đang được ứng dụng ở rất nhiều lĩnh vực khác nhau như: báo chí, truyền thông, giáo dục, khoa học, … Ngoài ra, chúng ta có thể tích hợp và triển khai dễ dàng trên các thiết bị thông minh như điện thoại, laptop.
Chuyển đổi giọng nói thành văn bản đang dần trở thành xu hướng công nghệ được yêu thích trong thời đại 4.0
Để giải thích cho sự ưu việt và tiện lợi của công cụ trên, chúng ta sẽ điểm qua một vài khó khăn đặt ra khi chuyển giọng nói thành văn bản và cách xử lý chúng.
Đầu tiên sẽ là vấn đề nhận diện giọng nói đối với nhiều ngôn ngữ đầu vào khác nhau. Ngoài ra đối với cùng một từ nhưng có rất nhiều cách nói (các mẫu) khác nhau tùy vào từng người. Ví dụ, một người có thể nói “hello", tuy nhiên một người khác có thể nói chậm hơn “heellooo” tạo ra âm thanh dài hơn. Đó đều là cùng nói về một từ. Bài toán nhận diện chính xác từ đầu vào đòi hỏi các mô hình học máy và học sâu mạnh mẽ với một số lượng lớn các mẫu để có thể dự đoán, đưa ra kết quả chuyển đổi chính xác nhất.
Tiếp theo là vấn đề về lỗi chính tả của văn bản sau khi chuyển đổi. Sau khi nhận diện được các từ từ giọng nói đầu vào, chúng sẽ không có dấu câu và sẽ dễ gây ra khó hiểu, nhầm lẫn cho người đọc. Việc sử dụng mô hình học máy để tự động nhận diện dấu câu sau khi chuyển đổi giọng nói sẽ là giải pháp hữu ích cho vấn đề này
Một bài toán nữa đặt ra đó là về mặt trải nghiệm người dùng, ở đây đang nói đến tốc độ xử lý, chuyển đổi âm thanh theo thời gian thực. Âm thanh đầu vào sẽ được chia làm các đoạn nhỏ bởi các đoạn ngắt nghỉ trong nhịp nói của người nói hoặc của đoạn ghi âm(split by silence), sau đó sẽ liên tục được đưa vào bộ xử lý, chuyển đổi sang các đoạn văn bản. Người dùng cuối sẽ thấy văn bản sẽ liên tục được cập nhật theo thời gian thực. Sẽ có một độ trễ nhất định khi xử lý và cập nhật các đoạn văn bản đó. Việc tối ưu, giảm được độ trễ sẽ làm tăng trải nghiệm cho người dùng.
Ứng dụng Speech Translation được thiết kế dưới dạng một website, cho phép chuyển đổi giọng nói hoặc các file ghi âm giọng nói ở nhiều định dạng khác nhau (mp3, m4a, webm, …) thành văn bản (text) ngay tức thì, theo thời gian thực. Ứng dụng này được thiết kế dành riêng cho các cuộc họp, các buổi phỏng vấn với nhu cầu ghi lại nội dung cuộc họp dưới dạng các văn bản.
Các công nghệ nổi bật được sử dụng trong ứng dụng Speech Translation:
Tích hợp học máy để nâng cao độ chính xác khi nhận diện giọng nói
Tích hợp các mô hình dịch của google
Sơ đồ kiến trúc của ứng dụng được mô tả như sau:
Sơ đồ kiến trúc của ứng dụng Speech Translation
Ứng dụng sẽ được sử dụng bởi ba tác nhân chính: diễn giả (speaker), người chỉnh sửa (reviewer) và người dùng cuối (audience).
Với những công nghệ và tính năng kể trên, ứng dụng Speech Translation chắc chắn sẽ là một công cụ đắc lực trong các cuộc họp, các buổi thuyết trình, giúp tối ưu về mặt thời gian đem lại hiệu quả cao.
Và chúng tôi - Rabiloo, tự tin là một công ty công nghệ có thể tạo ra các sản phẩm thực sự hữu dụng phục vụ trong công việc và đời sống của khách hàng. Nếu bạn quan tâm đến ứng dụng chuyển giọng nói thành văn bản hoặc các dịch vụ khác như: phát triển phần mềm, phát triển website, game, trí tuệ nhân tạo…. Xin đừng ngần ngại, hãy liên hệ với chúng tôi, chúng tôi luôn sẵn sàng tư vấn miễn phí mọi thắc mắc của bạn.
Share