한국일보 애틀랜타 전자신문
2022년 1월 8일 (토요일) D4 한국어인식 새 인공지능 2022년에는외국인의어눌한한국어 발음까지90%가까이알아듣는인공지 능 ( AI ) 엔진이등장할전망이다. AI는 양질의데이터학습여부가성능을좌우 하는데, 대학과 AI 전문기업이손잡고 국내최초로65개국외국인의한국어음 성데이터를구축한덕분이다. 국내체류 외국인이갈수록 늘고 한 류 바람 속에전세계에한국어배우기 열풍도불고있어,이같은AI엔진은세 계인의한국어접근장벽을낮추는데큰 역할을할것으로기대된다. ‘ 뮎섾핂 ’ 푆묻핆픦묻펂픚컿 7일정부와학계에따르면세종대,이 화여대와 4개민간기업 ( cslee·드림비트· 디그랩·액션파워 ) 으로구성된산학협력 단은최근정부지원아래‘외국인의한 국어음성인식AI’를개발하는데근간 이될 4,000시간 분량의음성데이터를 구축했다. 산학협력단의이번결과물에업계에 선기대감이상당하다.이번프로젝트를 주도한김수연세종대영어영문학과교 수는한국일보와의인터뷰에서“AI 개 발 프로젝트의핵심은 AI를 학습시킬 양질의데이터구축인데, 특히외국인의 한국어음성데이터는 구축 난도가 상 당해그간업계에서도희귀데이터로꼽 혔다”며의미를 설명했다.이번프로젝 트는 과학기술정보통신부가 주관하 고 한국지능정보사회진흥원이지원하 는 ‘AI 학습용데이터’ 구축사업에따른 것이다. 현재한국어음성인식AI 엔진은 스 마트폰등다양한기기에서쓰이지만,영 어음성인식AI에견주면성능이떨어진 다는게업계의냉정한평가다. AI 엔진 이한국인의한국어발음은 곧잘 알아 듣지만 ( 음성인식률 90% ) , 정작 외국인 이하는 한국말은절반 정도 ( 음성인식 률50% ) 만알아듣는수준이어서다. 이는AI의학습재료차이에서기인한 다. 세계공용어인영어는 AI가학습할 외국인의음성데이터가넘쳐난다. 자연 히영어음성인식AI가 한국어AI보다 성능이뛰어날수밖에없다. 4000 킪맒쭒얗 , 펂쎉멚졶팦빦 세종대와이화여대연구팀은지난해5 월부터12월까지7개월에걸쳐4,000시 간분량의외국인한국어음성데이터를 수집했다. 앞서다른 공공기관 등에서 구축한외국인의한국어음성데이터는 수백시간에불과했다.이번프로젝트로 그간 10권수준이던AI 학습용교재가 단번에400여권까지늘어난셈이다. 특히데이터의질적인측면에서도 상 당한 개선을이뤄냈다. 외국인은 한국 어를할 땐자기도모르게모국어습관 이드러나는데, 이를 ‘모국어부정전이’ 현상이라고 한다. 가령동물원이란 단 어도‘통무 歍 ’ ( 영어화자 ) ,‘돔무롱’ ( 일본 ) , ‘똥문원’ ( 베트남 ) 등처럼언어권별로다 르게발음한다. AI에언어권별로 한국 어를발음하는방식이어떻게다른지를 알려주는게중요하다는의미다. 김수연세종대교수와최혜원이화여 대 ( 영어영문학 ) 교수연구팀은이를 위 해언어학적분석에기반해정교한‘나라 별 오 류 패턴 ’을만 들었 다. 가령일본인 은 ‘ 붕 대’를 ‘분대’로 발음하는 등 비음 소리 를잘 못 내는데, 크 게6개언어 ( 영어, 일본어, 중국어,베트남어, 태 국어,기 타 ) 별로한국말을어떻게잘 못 발음하는지 세세히정 리 한 것이다. 김교수는 “이 런 오 류 패턴 을 익힌 AI는분대라는발음 을 들 어도 붕 대로인식할수있게된다” 고설명했다. 기본교재를 완 성한연구팀의다음과 제 는 직 접한국말을해 줄 외국인 섭 외 였 다.연구팀은전국의다문화가정 센 터,외 국인근로자 센 터, 각 대학 유 학 센 터등 에일일이협 조 를구해지원자를모집했 다.이 런 전방위 홍 보덕분에 4,000명의 외국인이지원했고, 이중 자 격 을 갖춘 2,000명이 실제 프로젝트에 참 여했다.사 실 상 국내체류 중인외국인중 웬 만 큼 한국어 실 력을 갖춘 외국인은 죄 다모은 수준이 었 다는게김교수의설명이다. 2,000명이구사하는모국어수만 65 개 ( 참 여국가는 8 0 곳 ) 에 달 한다.이 들 은 1 ~ 2시간 동 안 연구팀이만 든 스 크립 트 를 읽거 나연구팀의질문에자 유롭 게 답 했다. 이 렇 게 녹 음된한국어음성데이 터는다시가공 ( 라 벨링 ·데이터의정 답 을 알려주는일 ) , 검증 등의과정을 거 쳐비 로 소 ‘AI학습용데이터’로 탄생 했다. 푆묻핆픦묻잞핆킫윮 90% 밚힎맪컮 사 실 상처음으로외국인의한국어음 성데이터가 방대한 규 모로 구축된만 큼 이를 활 용한 AI 개발도 불 붙 을 전 망이다. 김교수는 AI가데이터학습을 끝 내면외국인의한국말인식률이현재 50%에서최대90%수준까지개선될걸 로내다 봤 다. 특히이번에구축된데이터는 누 구나 사용가능하도록개방될 예 정이다.정부 지원으로구축된AI학습용데이터는‘AI 허브 ’란 포털 에 올 라가고,민간기업은이 를무료로내려 받 을수있다.당장인 천 국 제 공 항 등공공장 소 의AI음성인식기 부터적용할 예 정이다.김교수는“무 엇 보 다AI를 활 용한한국어학습기시장이 급 성장할것”으로내다 봤 다. 김동욱기자 연초부터‘국민음료’인 커피 가 격 이 잇 따라인상 되 고있다. 커피 전문 점 1위인 스 타벅 스와 믹 스 커피 1위인 동서식 품 은 각각 다음 주부터 커피 가 격 을인상 한다고 7일 밝 혔다. 소 비자 반 응 체 크 에나선다른 경쟁 사 들 도 커피 가 격 인 상 시 점 을 저울 질하고있는 것으로알 려 졌 다. 이날 스 타벅 스 코리 아는 1 3 일부 터 5 3 종의음료 중 46종에 한해 각각 100 ~ 400원 씩 인상한다고발 표 했다.이 에따라 카페 아 메리카노 와 카페 라 테 , 카푸치노 등2 3 종은 400원, 카 라 멜 마 키 아 토 등 15종은 3 00원, 프라 푸치노 등 7종은 200원, 돌 체 블랙밀크티 는 100 원인상된다. 스 타벅 스의가 격 인상은 2014년7월이 후 7년6개월만이다. 90%의국내 믹 스 커피 시장 점유율 을 차지하는 동서식 품 도 14일부터 맥 심 등 커피제품 의 출 고가를평 균 7. 3 %인 상한다고 밝 혔다. 맥 심모 카골 드 커피 믹 스 ( 1.2 kg ) 와 맥 심 카누 아 메리카노 ( 90 g ) 의 경 우 출 고가가 각각 7. 3 % 씩 상 향 조 정된다. 양사는이번가 격 인상에 대해“지난해 4월부터 급 등한 원 두 가 격 과 신종 코 로나바이러스 감 염증 ( 코 로나19 ) 으로인한국 제 물류비상 승때 문”이라고설명했다.지난 달 미국 뉴욕 상업 거 래 소 에서아라비 카 원 두 선물은 파 운 드 ( 약 454 g ) 당 2.5 달 러까지 올 라 10년만에최고가를 기록했다. 스 타벅 스관계자는“ 매 장 운 영 효율 화 및직 간 접적비용절감으로 버텨왔 으나가 격압 박 요인이계속 누 적 돼 가 격 을 올리 게 됐 다”고말했다. 1위업체 들 이 잇 따라 커피값 을 올리 면 서 경쟁 사 들 의가 격 인상은사 실 상시간 문 제 로보인다. 실제커피 프 랜 차이 즈 업 체인 투썸플레 이스와이디 야 에선“ ( 아 직 까지 ) 인상계 획 이없다”고 밝 혔지만 폴 바 셋 이나 할 리 스는 “가 격 인상을 내부 검토 중이다”라고귀 띔 했다. 한 편 연초국 제유 가 급 등으로설무 렵 에는국내 유 류가 격 도인상 압 력을 받 게 될것으로전망 됐 다.관 련 업계에따르면 최근배 럴 당 8 0 달 러를넘 긴브렌 트 유 에 이어서부 텍 사스산원 유 ( WT I ) , 두 바이 유 까지 8 0 달 러대진 입 을 눈 앞에 두 고있다. 업계에서는국 제유 가와국내 유 가의시 차를감 안 하면 2 ~3 주이 후 에는국내기 름값 의상 승 도불가 피 하다는전망이다. 게다가 유 가상 승 과 맞 물려4월말로종 료 되 는 유 류세인하 조치 까지 풀리 면그 이 후 체감 유 가는 크 게 높 아질것으로 관측된다. 이소라^김형준기자 65개국 외국인발음 알아듣는 ‘한국어 AI’ 나온다 커피한잔의진한부담$스벅아메리카노 4100원→ 4500원 김수연(왼쪽두번째) 세종대영문학과교수연구팀이지난 4일본보와의인터뷰에앞서포즈를취했다. 고영권기자 스타벅스가 7년6개월만에음료가격인상을발표한 7일, 한시민이서울중구스타벅스프레스센터점 을나서고있다. 연합뉴스 세종대^이화여대산학협력단 유학생등외국인 2000명모아 4000시간분량음성데이터구축 “언어별특성분석,인식률 90%로” 공공장소적용^민간에무료공유 “한국어학습시장에큰역할할것” 스타벅스 13일부터46종인상 동서식품도평균 7.3%올리기로 1위들신호탄에경쟁사도“검토” 菺浹歍' 昙浹檶' 桪浽礕' 瞉 昞涁礕
Made with FlippingBook
RkJQdWJsaXNoZXIy NjIxMjA=