영상 하이라이트 추출

openai에서 영상을 분석하는 방법은 아직 없음. 텍스트기반
→ 그러면 음성을 텍스트로 변환하여 하이라이트를 뽑는 방법은 어떨까?

1안 - speech to text

1.
openai에서 오디오를 텍스트로 변환해줄 수 있는가 → yes
2.
한국어도 잘 추출할 수 있는지?
3.
텍스트에서 하이라이트를 제대로 뽑을 수 있을까?

2안 - 구간별 썸네일이미지로 vision 사용?

1.
풀영상에서 오디오 추출 - ffmpeg
프론트에서 영상 편집 + 백에서 오디오 추출할거라면 ffmpeg 자체를 그냥 컨테이너로 띄워야할까
⇒ 걍 ffmpeg도 컨테이너로 띄우자…
오디오 추출
ffmpeg -i input-video.avi -vn -acodec copy output-audio.mp3
Shell
복사
도커 컨테이너로 올려서 사용
docker run --rm -it -v C:/SSAFY/data:/data linuxserver/ffmpeg -i /data/MV.mp4 -map 0:a /data/testmv.mp3
Shell
복사
→ docker.sock
2.
오디오 파일 speech to text → 어떤형식으로 뽑아야하나 문장의 시작시간 + 문장 형태로?
openai ⇒ whisper
최대 크기 25MB까지만 가능 (2-3분 영상)
3.
텍스트 상품 설명별 하이라이트 구간 시간 뽑기 ? → 2번째 진행 후 고민
4.