나아가 텍스트뿐 아니라 비디오와 같은 동영상도 자동으로 번역해서 볼 수 있는 기술을 준비 중이며 이를 위해 ‘음성인식’ 기술 확보에 착수한 상태라고 강조했다. 다음은 e메일 인터뷰 주요 내용.
- 리서치팀 목표는.
▲구글 리서치팀은 전 세계 네티즌이 모든 인터넷 정보에 접근해 이를 자유롭게 활용하게 만드는 게 목적이다. 정보는 웹 페이지뿐 아니라 웹 콘텐츠 즉 이미지·비디오·책·논문까지 포함한다. 웹 정보를 제외한 다른 형태의 정보검색도 연구 대상이다. 구글 리서치팀은 인적 자원, 대규모 컴퓨터 환경 등 물적 자원, 수 백억개의 웹 페이지 정보·통계 자료와 같은 정보 자원 등 구글내의 모든 자원를 활용할 수 있는 ‘막강한’ 권한을 가지고 있다.
-추진 중인 대표 프로젝트는.
▲번역이다. 사이버 세상의 정보는 다양한 언어로 되어 있다. 아무리 가치 있는 정보도 해당 언어를 모르면 사용자에게 무의미하다. 우리 비전은 어떤 언어권에 있는 사용자든지 전 세계 정보를 이해하고 유용하게 사용하는 데 목적이 있다. 특히 구글은 문맥과 문장 구성을 파악하는 식으로 진행하는 기존 번역과 달리 구글 검색의 강점인 통계적인 접근 방식을 통한 번역 프로젝트를 진행 중이다. 텍스트 번역 프로젝트 이외에 비디오 번역도 준비 중이다.
-‘통계 번역’이 쉽게 이해하기 힘들다.
▲구글은 문장 주요 단어와 기호를 가지고 번역을 시작한다. 또 이 단어가 다른 문서에서 어떻게 쓰이는지를 통계적으로 조사해 정확한 뜻을 파악해 낸다. 다른 시스템이 10억개 단어를 세 단어씩 차례로 검사하는 대 비해 구글 은 1조개의 단어를 일곱 단어씩 차례로 처리할 수 있다. 그만큼 정확하게 의미를 분석할 수 있다. 이는 구글 자료처리센터에 있는 수 천대의 네트워크 컴퓨터 덕분에 가능했다. IBM도 90년대 비슷한 시도를 했지만 안타깝게도 컴퓨터 용량이 부족해 실패했다.
-이 프로젝트가 다른 나라 국민 특히, 한국인에게 어떤 의미가 있나.
▲이미 개발 기술 일부를 중국어·러시아어·아랍어에 접목해 본 상태다. 상대적으로 웹 정보가 작은 언어권에 있는 사용자는 더 큰 혜택을 볼 수 있다. 예를 들어 아랍어 웹 정보는 전 세계 웹 정보의 1% 밖에 불과하다. 이는 아랍어만을 알고 있는 사람은 정보의 99%를 놓치고 있다는 이야기다. 한국도 마찬가지다. 구글을 통해 언어 장벽없이 웹 서핑의 즐거움을 누릴 날이 멀지 않았다.
-미래 구글을 위한 다른 연구 분야는.
▲비디오 검색이다. 비디오 검색 알고리듬은 좀 복잡했다. 우선 비디오에 나오는 모든 음성을 문자로 변환해 검색한다. 이 때 음성이 아주 작게 나오거나 아예 나오지 않는 경우가 있을 것이다. 자동차 경주 비디오는 자동차 엔진소리만 나온다. 이럴 때 사운드 인식 기술이 필요하며, 얼굴 인식 기술, 비디오 태깅 기술, 이미지 인식 기술 등을 갖춰야 한다. 이 때문에 지금까지 검색은 단어 위주의 키워드 검색이었다. 앞으로 비디오 검색에서는 “영어권 교수가 삼성이라는 주제로 강연하는 비디오를 찾아 달라”는 식으로 구체적인 명령을 내릴 수 있다. 이를 위해서는 비디오 등록·인덱싱·음성 인식과 텍스트 변환 기술 개발에 나서고 있다.
-검색 기술의 가장 큰 흐름은.
▲앞으로 검색은 ‘검색 자체’를 넘어서야 한다. 검색 기술은 사용자가 원하는 콘텐츠(웹 검색), 개인화(홈페이지 개인화), 네트워킹(마이스페이스와 같은 소셜 네트워킹 커뮤티니) 등 모든 분야에서 사용자가 찾고자 하는 것을 찾을 수 있도록 해야 한다. 지금은 대부분의 사용자가 PC를 통해 정보를 검색하지만 앞으로는 모바일 등 다양한 플랫폼을 통한 ‘즉각 정보(Instant information) 검색’의 필요성이 높아질 것이다.
강병준기자@전자신문, bjkang@etnews.co.kr
▲피터 노빅 박사는
피터 노빅 박사는 미국 항공우주국(NASA)에서 근무하다 2001년 구글 리서치팀에 합류했다. NASA에서는 인공 로봇 프로젝트를 맡았다. 노빅 박사는 전 세계 인터넷 사용자가 커뮤니케이션의 가장 큰 장애물인 언어 장벽을 해결하기 위해 인공지능 분야를 연구해왔으며 이 분야에서 전문성을 인정받고 있다.
|