• 제목/요약/키워드: 다국어화

검색결과 32건 처리시간 0.031초

다국어 음성 인식을 위한 자동 어휘모델의 생성에 대한 연구 (A Study on the Automatic Lexical Acquisition for Multi-lingustic Speech Recognition)

  • 지원우;윤춘덕;김우성;김석동
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.434-442
    • /
    • 2003
  • 특정한 언어 (영어)로 구현된 소프트웨어를 다른 언어 (한국어, 중국어 등)에서 처리할 수 있도록 하는 과정인 소프트웨어의 국제화는 음성기술 분야에 적응할 때 매우 복잡해진다. 그 이유는 음성 자체가 언어와 많은 연관 관계를 갖기 때문이다. 그러나 어떠한 언어라 해도 그 나라의 언어표현은ASCII코드나 혹은 그 나라 고유의 코드 기반으로 소프트웨어를 처리한다. 영어의 경우는 ASCII코드의 코드체계로 이루어지지만 다른 나라 언어인 경우 다른 형태의 언어코드를 사용하는 것이 일반적이다. 음성 처리에서 언어의 본질적 특성은 어휘모델에 나타난다. 어휘모델은 문자집합, 음소집합, 발음규칙으로 구성된다. 본 논문에서는 다국어 음성인식처리를 위한 어휘모델을 자동으로 생성하기 위하여, 4단계로 나누어 처리하는 어휘모델 구축 방법을 제안한다. 우선 전처리 과정으로 특정한 언어로 표현한 단어를 유니코드로 변환한다. (1단계) 유니코드로부터 중간 형태 코드로의 변환 (2단계) 발음 형태를 기본으로 하는 표준화된 규칙 적용 (3단계) 음소 규칙들에 의한 문자소 구현 (4단계) 음운론을 적용하는 순서로 구성된다.

다국어 대화체 음성언어번역 시스템을 위한 IF(interchange format )와 IF 태깅 (IF(interchange format) and IF tagging for the Multilingual Spoken Language Translation System)

  • 최운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.409-412
    • /
    • 1998
  • 미국의 카네기 메론 대학과 일본의 ATR 및 한국의 전자통신연구원 등이 가입한 CSTAR 에서는 99년 국제간 음성언어번역 시스템 데모를 위해 IF를 이용하여 데이터를 주고 받기로 합의하였다. IF는 크게는 인터넷을 통해 다른 나라의 음성언어번역 시스템과 연결하여 데이터를 주고 받는데 사용되고, 작게는 음성언어 번역 시스템 내의 해석 시스템과 생성 시스템 사이에 데이터를 주고 받는데 사용된다. IF는 중간언어 표현의 한 가지 방법으로 간단하면서도 단순한 표현으로 특정 영역 내에 나타나는 이미를 표현할 수 있도록 정의되었다. 대상으로 하는 영역은 여행 안내로 호텔 예약, 비행기 예약, 여행지 안내 및예약 등을 포함하고 있다. IF의 가장 큰 특징은 표현방법의 단순화에 있다. 즉, 의미를 가장 잘 나타낼 수 있는 표현을 골라, IF를 정의하여 언어 종속적인 요소를 가능한 배제하였다. IF 태깅은 발화에 대해 적절한 IF를 붙여 주는 일로 태깅을 수행하는 사람은 IF 태깅 요령에 따라 태깅을 수행하여야 한다. 현재 ETRI에서는 200대화 이상의 한국어 데이터에 대해 IF 태깅을 완료하였으며 해석 시스템과 생성 시스템 개발을 계속하고 있다.

  • PDF

영상 가상화와 WebRTC를 이용한 고사양 저가 단말 기반 화상 안내 서비스 개발 (A Development of Thin Client based Video Guide Service Using Video Virtualization and WebRTC)

  • 김광용;정일구;류원
    • 한국지능시스템학회논문지
    • /
    • 제23권6호
    • /
    • pp.500-504
    • /
    • 2013
  • 본 논문은 웹 브라우저 기반 통신 방식인 WebRTC를 이용하여 고사양 저가의 단말인 Set Top Box(STB)에서 인터렉션을 할 수 있는 다국어l 화상 안내 응용 서비스 개발에 관한 것이다. 서버는 원격으로 연결된 씬 클라이언트의 디지털 정보 디스플레이와 함께 웹 카메라에 액세스하고 사용자와 안내 정보를 교환한다. 또한, 서버는 고화질 비디오 압축의 가상화 전송 방식을 사용함으로써 STB의 성능에 종속되지 않고 thin client STB에서 재생되는 원격 영상 안내 서비스 시스템을 제안한다.

1910~20년대 시인의 전통 한시 국역 양상과 의미 연구 - 최남선, 김소월, 김억, 이광수를 중심으로 - (A Study on Korean Language Translation of Chinese Traditional Hansi in the 1910s and 1920s)

  • 정소연
    • 고전문학과교육
    • /
    • 제34호
    • /
    • pp.149-191
    • /
    • 2017
  • 본고는 20세기 전반기에 하나의 문학사적 현상으로 나타난 시인들의 한시 국역 현상에 주목하고, 이 중에서도 1910년대에 최남선의 한시 국역 7수, 1920년대에 김소월의 6수, 김억의 6수, 이광수의 3수에 주목하고 그 문학사적 의미를 탐색한 것이다. 그 국역의 구체적 특징은 다음과 같다. 첫째, 20세기에 한시 국역을 처음 한 1910년대의 최남선은 이백, 두보 등의 유명 당시(唐詩) 및 근체시, 특히 7언시를 국역하였다. 원시(原詩)는 노래의 성향을 적지 않게 띠고 있으나 최남선은 음보율에 더 나아가 음수율에 가까운 형식을 추구하고 행말이 명사나 부사어로 끝나게 국역한다거나 문장으로 기록된 문체로 바꾸는 등 읽고 보는 시(詩)를 지향하였다. 또한 원시보다 행수가 같거나 더 짧게 국역해서 축약함으로써 군더더기나 부연을 줄이고 독자가 시어들 간의 해석에 적극 개입하고 해석하는 여지가 마련한 점도 기록문학의 특성을 지향한 것으로 보인다. 둘째, 1920년대에 첫 한시 국역을 한 김소월도 이백, 두보 등 유명 당시(唐詩)를 대상으로 하였고, 노래의 성향을 적지 않게 띤 중국 한시를 대상으로 삼았다. 그러나 최남선과 반대로 원시보다 더 행수나 정보량이 길어지게 국역하여 부연이나 첨가의 내용이 추가되게 하였고, 단연체 시를 다연체 시로 국역하였다. 특히 감탄구나 의성어, 동어 반복 등으로 일상 구어에 가까운 구술성을 강화하고, 보편성을 높이는 방향으로 화자 등의 시어를 바꾼 점은 노래로서의 성격을 지향하는 국역 방식을 보여준다. 셋째, 1920년대의 김억도 이백, 두보 등 유명 당시(唐詩) 및 절구를 대상으로 국역했다는 점에서 앞의 시인들과 같으나 고려 정지상의 <송인>이 한 편 들어갈 뿐만 아니라 이 작품을 합쇼체의 경어체로 국역했다는 점에서 차이를 보인다. 김소월처럼 단연체의 한시를 다연체로 국역하였고, 또 특정 율격을 추구하지 않고 내용을 최대한 자연스럽게 전달하는 일대일 대응이 되는 국역을 한 점이 이후 김억의 700여 수에 가까운 한시 국역과 다른 이 시대의 특징이다. 넷째, 1920년대의 이광수도 당대(唐代) 시인인 두보의 한시를 국역하면서 다연체로 바꾼 점이 다른 1920년대 시인들과 같다. 이 외에도 대화체 및 현장감을 높이는 방식으로의 국역은 다른 1920년대 시인들과 같이 기록문학으로서의 시보다는 구술성을 추구한 특성이라 할 수 있다. 이 네 시인은 전통시대에 국어시가보다 위상이 높았던 중국의 옛 한시를 도리어 국어시가화하되, 1910년대의 최남선은 국문전용시대의 우리 근대시가 나아갈 방향이 기록성과 문자성을 추구하는 것이라 여겼다면 1920년대의 김소월, 김억, 이광수는 다수가 공감하며 보편성을 높일 수 있는 일상 구어 기반의 노래[歌]로서의 존재를 함께 추구하는 것이어야 한다는 시의식을 보여준다. 이는 당시 시인들이 생각한 근대 한국시의 지향점으로서 기록문학성만 추구한 것이 아니라 구술문학으로서의 특성도 포함한 시가(詩歌)를 근대시로서 인식한 것이기도 할 뿐만 아니라 한자로 되지 않았으나 근대 국어로 된 시에도 한시가 지속되고 있다는 시가사적 지속성도 잘 보여주는 것이다. 나아가 비록 22수에 불과하지만 1930년대나 40년대에 더 활발하게 이루어질 뿐만 아니라 다른 특성을 보이게 되는 전통 한시 국역 양상의 문학사적 흐름을 살펴보는 기반으로서의 의의도 가진다.

검색 재순위화를 위한 가중치 반영 딥러닝 학습 모델 (Search Re-ranking Through Weighted Deep Learning Model)

  • 안기택;최우석;박준용;박정민;이경순
    • 정보처리학회 논문지
    • /
    • 제13권5호
    • /
    • pp.221-226
    • /
    • 2024
  • 정보검색에서 질의는 다양한 유형이 존재한다. 추상적인 질의부터 구체적인 키워드를 포함하는 질의까지 다양한 형태로 구성되어 있어서 사용자의 요구에 정확한 결과 도출은 어려운 과제이다. 또한 검색시스템이 오타, 다국어, 코드와 같은 다양한 요소를 포함하는 질의를 다뤄야 하는 특징이 존재한다. 본 연구에서는 질의 유형을 분석하고, 이에 따라 딥러닝 기반 재순위화의 적용 여부를 결정하는 방법을 제안한다. 최근 연구에서 높은 성능을 보인 딥러닝 모델인 DeBERTa를 이용하여 질의에 대한 적합 문서의 학습을 통해 재순위화를 수행한다. 제안 방법의 유효성을 평가하기 위해 국제정보검색 평가대회인 TREC 2023의 상품 검색 트랙(Product Search Track) 테스트컬렉션을 이용하여 실험을 하였다. 실험 결과에 대한 정규화된 할인누적이득(NDCG) 성능측정 비교에서 제안 방법이 정보검색 기본 모델인 BM25 에 비해 질의 오류 처리를 통한 검색, 잠정적 적합성피드백을 통한 상품제목 기반 질의확장과 질의유형에 따른 재순위화에서 0.7810으로 BM25 대비 10.48% 향상을 보였다.

미국 텍사스주 알링턴 공공도서관의 한국 자료 서비스에 관한 연구 (A Study on the Service of Korean Language Materials in the Arlington Public Library, Texas)

  • 최연미
    • 한국문헌정보학회지
    • /
    • 제39권2호
    • /
    • pp.107-121
    • /
    • 2005
  • 세계의 글로벌화는 공공도서관계에도 그 영향이 지대하여, 현재 미국 공공도서관에는 자국어뿐 아니라 전 세계 각종의 다국어 자료에 대한 폭넓은 서비스가 실시되고 있다. 이러한 시점에서 본 연구는 미국 공공도서관내 한국 자료 서비스에 대한 현황을 조사하고 텍사스주 알링턴 공공도서관을 중심으로 한국 자료에 대한 수집, 정리, 종류, 이용, 관리에 대해 연구하였다. 이 연구가 미국내 기타 지역의 한국 자료 서비스에 대한 인식을 제고하며, 한국내 공공도서관의 다언어 자료 서비스에 대한 기초 마련에 도움이 될 것으로 기대한다.

위키피디아를 이용한 영-한 개체명 대역어 쌍 구축 (Extracting English-Korean Named-Entity Word-pairs using Wikipedia)

  • 김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

시소러스 구축을 위한 웹 기반 워크벤치 개발 (Development of Web-based Workbench for the Construction of Thesaurus)

  • 이승준;정한민;성원경;최광;이상헌;최석두
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.999-1004
    • /
    • 2006
  • 본 연구에서는 다양한 개념 패싯과 관계 패싯들을 수용한 범용 과학기술 시소러스 구축용 웹 기반 워크벤치 개발에 대해 기술한다. 기존 국내 시소러스 구축용 워크벤치들이 제공하는 기본적인 용어 관계구축 기능을 확장하여 개념 패싯, 범주 관계 패싯, 의미역 관계 패싯, 속성 관계 패싯 및 속성 키워드 처리 기능을 원활히 제공할 수 있는 사용자 중심적 워크벤치를 개발함으로써 시소러스 상의 개념들에 대한 효율적인 구축이 가능하도록 한다. 또한 시멘틱 웹 상의 온톨로지 영역에 보다 근접한 고도화되니 시소러스 구축을 위해 용어들을 개념화시키고, 개념간의 다양한 관계를 설정하는 프로세스 중심적 설계로 분야 적합성이 높은 정보 처리 기반을 갖춘다. 궁극적으로 여러 마이크로 시소러스들을 통합하여 운용할 수 있는 복합 모델을 구축하는 것을 목표로 하고 있다. 이러한 목적에 부합하는 시스템 구현을 위해 CBD(Component Based Development) 개발 방법론으로 MSF/CD를 이용하였으며, 분산 환경에서 이기종간의 데이터 교환을 용이하게 하기 위하여 웹 서비스 (XML Web Services)를 이용하였다. 또한 시멘틱 웹 기반 연구자 간 협업 지원 서비스 구현을 위한 확장 검색용으로서도 활용할 수 있도록 하였다. 시소러스 반출은 CSV, XML 및 RDF를 모두 지원할 수 있도록 함으로써 다양한 사용자 요구 사항에 부합할 수 있도록 하였다. 시소러스 브라우징을 시각화 기반의 3단계 구조를 가진 플래시로 구현하여 사용자가 쉽게 시소러스를 탐색하고 분석할 수 있는 기반을 제공하였다. 또한 다양한 검색 요구를 만족시키고자 기본 검색, 고급 검색, 메타 검색을 선택할 수 있도록 하며, 개념 편집 및 시소러스 브라우징과 연동시켜 효율적인 시소러스 구축이 가능하도록 하였다. 본 연구의 워크벤치를 이용하여 구축된 시소러스는 기존 시소러스들에 비해 사용자가 보다 폭넓은 의미 기반 검색을 수행할 수 있도록 함으로써 다각적인 정보를 쉽게 획득할 수 있는 기반을 마련하고 있다는 데 의의가 있으며, 다국어 시소러스 및 다중 시소러스를 수용할 수 있는 방향으로 발전시킬 계획이다.

  • PDF

북한 PUST 디지털도서관 모델 개발 연구 (A Study on the Development of Digital Library Model for PUST in North Korea)

  • 이종문
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.143-158
    • /
    • 2008
  • 본 연구는 남북합작으로 건립하는 PUST에 설치될 도서관과 디지털도서관 모델 제시를 위해 수행되었다. 우선 이론적 연구를 통해 디지털도서관의 문제와 PUST 디지털도서관의 이슈를 파악하였다. 그 결과, 저작권법하의 공정사용 미흡 등으로 현 단계에서 디지털도서관만 운영하는 것은 문제가 있는 것으로 파악되었다. 또 남북의 언어와 지적기반의 차이 등으로 홈페이지 접근 데이터베이스 구축 자료 의 검색 등에 문제가 있는 것으로 파악되었다. 이에 연구자는 디지털도서관과 하이브리드 도서관을 병행 운영할 것과, 디지털도서관 관련 하여 유니코드를 통한 홈페이지의 이중화 NCHAR 데이터타입 설정을 통한 다국어 저장, 전거 데이터베이스 구축 등을 제안하였다.

스토리텔링 기획·분석을 위한 '플롯적층' 방법론 연구 (A Study on Plot Lamination methodology for the planning and analysis of storytelling)

  • 안숭범
    • 대중서사연구
    • /
    • 제26권3호
    • /
    • pp.255-288
    • /
    • 2020
  • 이 연구는 스토리텔링 기획·분석을 위한 '플롯적층' 방법론을 제안하는 데 목적을 둔다. 일정한 서사분량을 가진 스토리콘텐츠라면 비중을 갖고 등장하는 인물들이 여러 명일 수 있다. 그들 대다수는 스토리의 맥락에 유의미한 영향력을 행사하며 선택과 실천으로 참여한다. 역동적으로 변화해가면서 새로운 관계망을 구축·탈구축해간다. 플롯적층 방법론은 주인공이 이끄는 메인플롯을 근간에 두고, 주요 인물들이 대타적 성격을 내보이며 주체적인 서브플롯의 형성에 기여한다는 사실에 주목해 그 과정을 '전략' 차원에서 살펴보려는 시도의 결과다. 서사물 속 주요 인물들은 개성적·주체적 삶을 살아가는 것과 무관하게 메인플롯의 구심력 안에서 상대적인 지위를 가진다. 그들의 여정은 메인플롯의 '인과적 설득' 과정을 연장·강조·분담하면서 각각 정서적 공감(파토스), 도덕적·윤리적 입장(에토스), 이성적 논리(로고스)의 기능으로 개성화되는 경향이 있다. 이처럼 주요 인물들의 서브플롯은 세가지 기능적 특성에 따라 적층되는 바, 주변인물들의 수효와 역할에 따라 2차, 3차 적층구조로 중층화될 수도 있다. 후속 연구를 통해 플롯적층 방법론이 더 세공된다면 서브플롯이 메인 플롯과 접합/분기되는 과정에 대한 전략적 설계(기획)와 심미적 비평(분석)의 가능성이 열릴 것이다.