라이브 스트리밍 및 오디오 공유 플랫폼에는 품질 검사, 태깅 및 추천을 위해 이해를 필요로 하는 수많은 오디오/비디오가 있으며, 이는 인력으로 구현하기 어렵습니다. ASR의 실시간 음성 인식 기능은 오디오/비디오 문자 변환 모델을 기반으로 비디오의 오디오(스트림)을 문자로 변환할 수 있습니다. 다양한 입력 소스의 다양한 딜레이 요구 사항을 충족하고, 대량의 오디오/비디오를 빠르게 이해할 수 있도록 하여, 인건비를 크게 줄이고 품질 검사, 정확한 태깅 및 추천을 신속하게 구현합니다.