MỘT MÔ HÌNH CHÚ Ý NHẸ CHO BÀI TOÁN TÁCH TIẾNG NÓI | Duyên | TNU Journal of Science and Technology

MỘT MÔ HÌNH CHÚ Ý NHẸ CHO BÀI TOÁN TÁCH TIẾNG NÓI

Thông tin bài báo

Ngày nhận bài: 01/10/25                Ngày hoàn thiện: 30/12/25                Ngày đăng: 31/12/25

Các tác giả

1. Nguyễn Thị Duyên Email to author, Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên
2. Hà Thị Nguyệt Ánh, Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên

Tóm tắt


Bài báo này tập trung vào việc phát triển một mô hình tách tiếng nói kênh đơn nhẹ nhưng hiệu quả, nhằm giải quyết thách thức cân bằng giữa chất lượng tách và độ phức tạp tính toán. Chúng tôi đề xuất khai thác backbone SeliNet kết hợp với cơ chế chú ý CBAM (Convolutional Block Attention Module), cho phép mô hình vừa duy trì hiệu năng cao vừa giảm thiểu số lượng tham số và phép tính FLOPs. Nghiên cứu kế thừa các tiến bộ gần đây trong học sâu miền thời gian, đặc biệt là depthwise separable convolutions, bottleneck blocks và Atrous Temporal Pyramid Pooling để nắm bắt ngữ cảnh đa tỷ lệ. Bằng cách tích hợp CBAM, mô hình có khả năng nhấn mạnh các kênh và vị trí thời gian quan trọng, giúp cải thiện đáng kể SI-SNRi, SDRi và các chỉ số chất lượng khác. Các thí nghiệm trên bộ dữ liệu WSJ0-2mix cho thấy mô hình đạt hiệu năng cạnh tranh so với các mạng sâu nặng nề hơn trong khi giảm đáng kể FLOPs và số tham số. Kết quả này mở ra hướng tiếp cận mới cho các hệ thống tách tiếng nói thời gian thực trên thiết bị di động và biên.

Từ khóa


Tách tiếng nói; Bữa tiệc cocktail; Cơ chế chú ý; Mạng nơron; Mô hình nhẹ

Toàn văn:

PDF

Tài liệu tham khảo


[1] A. Mehrish, N. Majumder, R. Bharadwaj, R. Mihalcea, and S. Poria, “A review of deep learning techniques for speech processing,” Information Fusion, vol. 99, 2023, Art. no. 101869.

[2] Y. Luo and N. Mesgarani, “Conv-TasNet: Surpassing ideal time–frequency magnitude masking for speech separation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 27, no. 8, pp. 1256–1266, 2019.

[3] Y. Luo, Z. Chen, and T. Yoshioka, “Dual-path RNN: Efficient long sequence modeling for time-domain single-channel speech separation,” in Proc. ICASSP, 2020, pp. 46–50.

[4] A. Gulati et al., “Conformer: Convolution-augmented Transformer for speech recognition,” in Proc. Interspeech, 2020, pp. 5036-5040.

[5] C. Subakan, M. Ravanelli, S. Cornell, M. Bronzi, and J. Zhong, “Attention is all you need in speech separation,” in Proc. ICASSP, 2021, pp. 21–25.

[6] K. Tan, Y. Zhang, and D. Wang, “Deep learning based real-time speech separation for mobile devices,” IEEE Signal Process. Lett., vol. 28, pp. 1–5, 2021.

[7] Y. Xiang and D. Wang, “Lightweight speech separation with depthwise separable convolutions,” in Proc. ICASSP, 2022, pp. 126–130.

[8] H. Li, L. Chen, and Z. Huang, “Resource-efficient speech enhancement via mobile architectures,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 30, pp. 1234–1247, 2022.

[9] S. Zhang et al., “Designing efficient neural networks for on-device speech separation,” Neural Networks, vol. 157, pp. 98–109, 2023.

[10] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “CBAM: Convolutional block attention module,” in Proc. ECCV, 2018, pp. 3–19.

[11] Z. Yao, W. Pei, F. Chen, G. Lu, and D. Zhang, “Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-Order Latent Domain,” arXiv preprint, 2021.

[12] J. Wang, “An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention,” Interspeech, 2023, pp. 3699-3703.

[13] H. Ma, “A novel end-to-end deep separation network based on the attention mechanism,” IET Signal Processing, vol. 17, no. 2, pp. 1-10, 2023.

[14] K. Wang, H. Zhou, J. Cai, and W. Li, “Time-domain adaptive attention network for single-channel speech separation,” EURASIP J. Audio, Speech, Music Process., vol.21, pp. 1-15, 2023.

[15] A. Défossez, G. Synnaeve, and Y. Adi, “Real time speech enhancement in the waveform domain,” Proc. Interspeech, Sep. 2020, pp. 3291–3295, doi: 10.21437/Interspeech.2020-2309.

[16] Y. Luo and N. Mesgarani, “TasNet: Time-domain audio separation network for real-time, single-channel speech separation,” in Proc. ICASSP, Apr. 2018, pp. 696–700.

[17] S. Wisdom, E. Tzinis, H. Erdogan, R. Weiss, K. Wilson, and J. R. Hershey, “Unsupervised sound separation using mixture invariant training,” Proc. NeurIPS, 2020, pp. 1-12.

[18] H. M. Tan, D.-Q. Vu, and J.-C. Wang, "Selinet: a lightweight model for single channel speech separation," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023, pp. 1-5.

[19] S. Chen, Y. Wu, Z. Chen, J. Wu, J. Li, T. Yoshioka, C. Wang, S. Liu, and M. Zhou, "Continuous speech separation with conformer," in International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 2021, pp. 5749-5753.




DOI: https://doi.org/10.34238/tnu-jst.13724

Các bài báo tham chiếu

  • Hiện tại không có bài báo tham chiếu
Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên
Phòng 408, 409 - Tòa nhà Điều hành - Đại học Thái Nguyên
Phường Tân Thịnh - Thành phố Thái Nguyên
Điện thoại: 0208 3840 288 - E-mail: jst@tnu.edu.vn
Phát triển trên nền tảng Open Journal Systems
©2018 All Rights Reserved