본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
연구 활동/AI 데이터연구단 과제

[논문 리뷰]LRS3-TED: a large-scale dataset for visual speech recognition

by 꿀먹은데이터 2022. 7. 30.

이번 논문은 Oxford에서 발표했던 Lib- reading 관련 논문이다.

논문을 선정한 이유는 다음과 같다.

  • 립 리딩을 구사하는데 있어 데이터셋을 구축하기 위함.
  • 같은 저자가 발표한 '“Lip reading sentences in the wild'을 읽는데 있어 필요한 논문이라고 생각함.
  • 립 리딩을 영어가 아닌 한국어로 표현할 수 있다면.. 어떻게 접근해야할지 궁금하다.

Abstract

이 논문에서는 시각 및 음성 인식을 위한 새로운 다중 모드 데이터 세트를 소개한다. 여기에는 400시간이 넘는 TED TEDx 비디오의 얼굴 트랙과 해당 자막 및 단어 정렬 경계가 포함된다. 새로운 데이터 세트는 일반 연구에 사용할 수 있는 다른 공개 데이터 세트에 비해 규모가 상당히 크다.

1. Introduction

시각적 음성 인식(립 리딩)은 매우 어려운 작업이며 배우기 힘든 기술이다. 최근 몇 년 동안 심층 신경망 모델의 적용과 대규모 데이터셋의 가용성으로 인해 자동화된 립 리딩 성능에 상당한 진전이 있었다. 그러나 이러한 데이터 세트의 대부분은 몇 가지 제한 사항이 있으며(: LRW[5] 또는 LRS2-BBC[6]는 산업 연구 실험실에서 사용할 수 없음) 이는 하나의 립 리딩의 성능을 비교하기 어렵다는 것을 의미한다. 대규모 공통 벤치마크 데이터세트가 없기 때문에 시스템을 다른 시스템으로 전환한다.

LRS3-TED 데이터 세트를 출시하는 우리의 목표는 이러한 벤치마크 데이터 세트를 제공하는 것이며, 이 분야에서 사용 가능한 데이터 세트보다 크기가 더 크다. LRS3-TED 데이터세트는 http://www.robots.ox.ac.uk/~vgg/data/lip_reading에서 다운로드할 수 있다.

2. LRS3-TED 데이터 세트

이 데이터 세트는 유튜브에서 다운로드한 5594개의 TED TEDx 영어 강연에서 추출한 400시간 이상의 비디오로 구성되어 있다.

자른 얼굴 트랙은 h264 코덱을 사용하여 인코딩된 224×224 해상도 및 25fps 프레임 속도의 .mp4 파일로 제공된다. 오디오 트랙은 단일 채널 16비트 16kHz 형식으로 제공되며 해당 텍스트 스크립트와 모든 단어의 정렬 경계는 일반 텍스트 파일에 포함된다.

데이터 세트는 pre-train, train-val test로 세 가지 세트로 구성된다. 처음 두 가지는 내용면에서 중복되지만 마지막은 완전히 독립적이다. 각 세트에 대한 통계는 표 1에 나와 있다.

 

2.1. Data collection

시청각 음성 인식을 위한 대규모 데이터 세트를 자동으로 생성하기 위해 다단계 파이프라인을 사용한다. 이 파이프라인을 사용하여 해당 페이스트랙과 함께 수백 시간의 구어체 문장과 구문을 수집할 수 있다. ( 파이프라인에 대한 설명 : Lip reading sentences in the wild, Deep audio-visual speech recognition )

우리는 각각의 유튜브 채널에서 사용할 수 있는 TED TEDx 비디오에서 시작한다. 이 비디오는 여러 가지 이유로 선택되었다.

(1) 고정 캐스트가 있는 영화나 드라마와 달리 비디오에는 광범위한 연사가 나타난다.

(2) 샷 변경이 덜 빈번하므로 연속 페이스트랙이 있는 완전한 문장이 더 많다.

(3) 화자는 일반적으로 중단 없이 말하므로 더 긴 얼굴 트랙을 얻을 수 있다.

TED 비디오는 이전에 이러한 이유로 시청각 데이터 세트에 사용되었다.

파이프라인은 [1, 6]에 설명된 방법을 기반으로 하지만 여기서는 방법에 대한 간략한 스케치를 제공한다.

-> (“Lip reading sentences in the wild" 논문 참고)

Video preparation

우리는 개별 프레임에서 얼굴 모양을 감지하기 위해 SSD(Single Shot MultiBox Detector)를 기반으로 하는 CNN 얼굴 감지기를 사용한다. 샷의 시간 경계는 연속 프레임에서 색상 히스토그램을 비교하여 결정되고, 각 샷 내에서 위치를 기반으로 한 얼굴 감지에서 얼굴 트랙이 생성된다.

 

Audio and text preparation.

사람이 만든 영어 자막을 제공하는 동영상만 사용했다. YouTube 비디오의 자막은 문장 수준에서만 오디오와 동기화되어 방송되므로 Penn Phonetics Lab Forced Aligner(P2FA)[12]는 자막과 오디오 신호 사이의 단어 수준 정렬을 얻는 데 사용된다. 정렬은 기성 Kaldi 기반 ASR 모델과 비교하여 다시 확인된다.

 

AV sync and speaker detection

YouTube 또는 방송 비디오에서 오디오와 비디오 스트림은 최대 1초 정도 동기화되지 않을 수 있으며, 이로 인해 비디오와 텍스트 레이블(오디오에 맞춰 정렬됨) 사이에 일시적인 오프셋이 발생할 수 있다. 두 스트림 네트워크(SyncNet)를 사용하여 두 스트림을 동기화한다. 동일한 네트워크를 사용하여 오디오와 일치하는 얼굴의 입술 움직임을 결정하고 일치하는 것이 없으면 클립이 음성 해설로 거부된다.

 

Sentence extraction.

비디오는 개별로 나뉜다.대본에서 구두점을 사용하는 문장/. 문장은 마침표, 쉼표 및 물음표로 구분된다. train-val test set의 문장은 100자 또는 6초로 잘린다.

train-val test set은 비디오로 나뉜다(분리된 원본 비디오 세트에서 추출). 우리가 신원에 명시적으로 레이블을 지정하지는 않았지만, 연사가 일반적으로 TED 프로그램에 반복적으로 나타나지 않기 때문에 train & test set 모두에 나타나는 많은 신원이 있을 것 같지 않다. 이는 일반 TV 프로그램을 기반으로 하는 LRW LRS2-BBC 데이터 세트와 대조되므로 한 에피소드에서 다음 에피소드까지 동일한 캐릭터가 공통적으로 나타날 가능성이 높다. 사전 훈련 세트에는 해당 자막과 함께 얼굴 트랙의 전체 길이에 걸친 비디오가 포함되어 있기 때문에 더 광범위하다. train-val 세트와 동일한 원본 YouTube 비디오 세트에서 추출된다. 그러나 이러한 비디오는 train-val test set에 포함된 전체 문장보다 짧거나 길 수 있으며 모든 단어의 정렬 경계가 주석으로 표시된다.

3. Conclusion

이 문서에서는 LRS3-TED 시청각 코퍼스에 대해 간략하게 설명했다. 이 데이터 세트는 립 리딩, 시청각 음성 인식, 비디오 기반 음성 향상 및 기타 시청각 학습 작업을 포함한 많은 응용 프로그램에 유용하다. 이 데이터 세트에서 최신 립 리딩 모델 중 일부의 성능을 보고한다.