SyncAlive
← 저널작업 노트

AI 사운드, 프로의 귀에는 여기서 걸립니다 — 4가지 포인트

2026.05.28 · 7분 읽기

21년 동안 사운드만 만들어온 귀에는 0.5초 만에 걸립니다. 그 '걸리는 것들' 네 가지를 하나씩 꺼내봅니다.

AI 사운드, 프로의 귀에는 여기서 걸립니다 — 4가지 포인트

솔직히 말하면, 처음 Seedance 2.0으로 생성한 카페 영상을 봤을 때 저도 잠깐 멈췄어요.

비 오는 날, 여성이 카페 문을 열고 들어오는 장면. 빗소리, 발소리, 문 여닫는 소리까지. 처음 접하는 분이라면 충분히 그럴듯하게 들릴 거예요.

근데 21년 동안 사운드만 만들어온 귀에는 0.5초 만에 뭔가 걸립니다.

오늘은 그 "걸리는 것들"을 하나씩 꺼내볼게요. 어렵게 설명하지 않을게요. 한 번 알고 나면, 다음부터는 여러분도 바로 들립니다.

먼저 영상을 들어보세요.

POINT 1. 빗소리가 '한 겹'이에요

진짜 비 오는 장면의 사운드를 생각해보세요. 처마에서 떨어지는 빗소리, 바닥에 부딪히는 빗소리, 멀리서 들리는 빗소리, 유리창에 맺히는 빗소리 — 이게 동시에 쌓여야 비로소 '빗소리'가 됩니다. 공간마다 다르게 반사되고, 거리마다 다르게 들려요.

이 영상의 빗소리는 딱 한 겹이에요. 하나의 빗소리 샘플을 깔아놓은 느낌. 나쁘지는 않지만, 납작하게 들리는 이유가 바로 여기 있어요.

실제 공간을 고려해 레이어를 쌓으면 훨씬 입체적으로 들립니다.

POINT 2. 문이 열렸는데 빗소리가 그대로예요

이게 제일 먼저 들렸어요.

카페 안에 있을 때와 문이 열리는 순간은 소리가 달라야 해요. 문이 열리면, 바깥 빗소리가 가까워지고 커지고, 실내의 아늑한 울림이 순간적으로 깨져야 합니다. 차갑고 거친 바깥 소리가 밀고 들어오는 그 순간이요.

이 영상에서는 문이 열리기 전이나 후나 빗소리가 똑같아요.

이걸 사운드 용어로 '다이내믹 전환'이라고 해요. 쉽게 말하면 "상황이 바뀌면 소리도 바뀌어야 한다"는 것. AI는 아직 이 전환을 자연스럽게 처리하지 못합니다.

POINT 3. 벨 소리가 났는데 벨이 없어요

카페 문이 열릴 때 벨 소리가 들리시나요?

근데 영상 어디에도 벨은 보이지 않아요. AI가 "카페 문 = 벨 소리"라는 공식을 학습해서 그냥 넣어버린 거예요.

사운드 작업에서는 화면에 보이는 것에서만 소리가 나야 해요. 소리의 출처가 없으면 보는 사람이 무의식적으로 불편함을 느낍니다. "뭔가 이상한데?"라는 감각, 이런 데서 옵니다.

POINT 4. 캔버스화인데 구두 소리가 나요

여성이 신은 신발을 보면 캔버스 소재 운동화예요. 근데 들리는 발소리는 딱딱한 구두에 가깝습니다. 소재가 전혀 달라요.

발소리 하나로 보는 사람은 무의식적으로 공간감, 캐릭터의 무게감, 장면의 분위기를 읽어요. 캔버스화는 조용하고 부드럽게 들려야 합니다. 구두 소리는 그 장면과 전혀 다른 인상을 줘요.

AI는 아직 소재와 소리를 정확하게 매칭하는 걸 어려워해요. 이게 폴리(Foley) 작업이 필요한 이유입니다.

정리하면

AI 사운드, 나쁘지 않아요. 진짜로요.

근데 프로의 귀에는 이 네 가지가 0.5초 안에 들립니다.

빗소리가 한 겹 (공간 레이어 부재)

문이 열려도 빗소리가 그대로 (다이내믹 전환 없음)

없는 벨 소리가 들림 (소리 출처 불일치)

캔버스화인데 구두 소리 (폴리 재질 오류)

AI 영상 퀄리티는 빠르게 올라오고 있어요. 이미지는 이미 거의 실사 수준입니다. 근데 사운드는 아직 이 지점에서 걸립니다. 그리고 그게 "뭔가 어색한데?"라는 느낌의 정체예요.

다음 편에서는 공간감을 다뤄볼게요. AI가 공간을 흉내는 냈는데, 왜 디테일이 틀렸는지 — 같이 들어봐요.

이 글이 도움이 되셨다면,

작업하시는 영상 한 편을 함께 보면 더 빨라집니다. 무료 진단으로 시작해보세요.

무료 진단 신청 →