• 제목/요약/키워드: Word Alignment

검색결과 47건 처리시간 0.025초

지도학습 오토인코더를 이용한 전문어의 범용어 공간 매핑 방법론 (Domain-Specific Terminology Mapping Methodology Using Supervised Autoencoders)

  • 윤병호;김준우;김남규
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.93-110
    • /
    • 2023
  • 최근 비정형 자료인 텍스트를 벡터로 변환하고 이를 통해 다양한 목적으로 방대한 양의 자연어를 분석하는 시도가 이루어지고 있다. 특히 코퍼스 규모가 제한적일 수밖에 없는 전문적인 도메인의 텍스트에 대해서도 분석 수요가 급증하면서, 해당 전문 분야의 문서를 범용 문서와 함께 분석하기 위한 연구가 활발하게 이루어지고 있다. 특정 전문어를 해당 전문어 코퍼스 외부의 일반적인 범용어와 함께 분석하기 위해서는, 전문어 임베딩 공간을 범용어 임베딩 공간과 일치시키는 것이 필요하다. 기존에는 변환 행렬 또는 매핑 함수 등을 통해 전문어 코퍼스로부터 얻은 전문어 임베딩 값을 범용어 임베딩 공간으로 변환, 일치시키려는 시도가 있었지만, 변환 행렬을 기반으로 하는 선형 변환은 국지적인 범위에서만 근사적인 변환 효과가 있다는 일반적인 선형 변환의 한계를 극복하지 못했다. 이러한 선형 변환의 한계를 극복하기 위해 최근에는 다양한 형태의 비선형적인 변환 방법이 제안되고 있으며, 본 연구에서는 오토인코더(Autoencoder)와 회귀 모델을 동시에 학습하는 종단형 학습을 통해 전문어 임베딩 공간을 범용어 임베딩 공간으로 변환하여 임베딩 공간을 일치시키는 모델을 제안한다. 실제 "보건의료" 분야의 R&D 문서에 대해 임베딩 변환 실험을 진행한 결과, 제안 방법론이 기존의 오토인코더를 활용한 방법 대비 변환 정확도 측면에서 우수한 성능을 보임을 확인하였다.

중간언어 문맥벡터의 정제를 통한 이중언어 사전 구축의 성능개선 (Enhancing Performance of Bilingual Lexicon Extraction through Refinement of Pivot-Context Vectors)

  • 권홍석;서형원;김재훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권7호
    • /
    • pp.492-500
    • /
    • 2014
  • 본 논문은 중간언어 기반 이중언어 사전 구축 방법에서 문맥벡터의 정제 방법을 제안한다. 중간언어 기반 이중언어 사전 구축 방법은 두 언어 간의 사전이나 병렬말뭉치 등 언어 자원이 부족한 언어쌍에 매우 효과적인 방법이다. 본 논문은 두 가지 정제 방법을 통해서 성능을 개선한다. 첫 번째 방법은 양방향 번역확률을 통하여 문맥벡터를 정제하였고 두 번째 방법은 품사 정보를 이용하여 문맥벡터를 정제하였다. 본 논문은 두 개의 서로 다른 언어 쌍으로 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 48.5%를, 상위 20에서 최대 88.5%의 정확도를 얻었고, 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 26.5%를, 상위 20에서 최대 66.5%의 성능을 보였다.

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

The Parallel Corpus Approach to Building the Syntactic Tree Transfer Set in the English-to- Vietnamese Machine Translation

  • Dien Dinh;Ngan Thuy;Quang Xuan;Nam Chi
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.382-386
    • /
    • 2004
  • Recently, with the machine learning trend, most of the machine translation systems on over the world use two syntax tree sets of two relevant languages to learn syntactic tree transfer rules. However, for the English-Vietnamese language pair, this approach is impossible because until now we have not had a Vietnamese syntactic tree set which is correspondent to English one. Building of a very large correspondent Vietnamese syntactic tree set (thousands of trees) requires so much work and take the investment of specialists in linguistics. To take advantage from our available English-Vietnamese Corpus (EVC) which was tagged in word alignment, we choose the SITG (Stochastic Inversion Transduction Grammar) model to construct English- Vietnamese syntactic tree sets automatically. This model is used to parse two languages at the same time and then carry out the syntactic tree transfer. This English-Vietnamese bilingual syntactic tree set is the basic training data to carry out transferring automatically from English syntactic trees to Vietnamese ones by machine learning models. We tested the syntax analysis by comparing over 10,000 sentences in the amount of 500,000 sentences of our English-Vietnamese bilingual corpus and first stage got encouraging result $(analyzed\;about\;80\%)[5].$ We have made use the TBL algorithm (Transformation Based Learning) to carry out automatic transformations from English syntactic trees to Vietnamese ones based on that parallel syntactic tree transfer set[6].

  • PDF

제한된 한글 입력환경을 위한 음소기반 근사 문자열 검색 시스템 (A Phoneme-based Approximate String Searching System for Restricted Korean Character Input Environments)

  • 윤태진;조환규;정우근
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권10호
    • /
    • pp.788-801
    • /
    • 2010
  • 모바일 기기가 발전함에 따라 입력 수단에 대한 연구는 중요한 이슈이다 키패드, 쿼티키패드, 터치, 음성인식 등 다양한 입력장치가 사용되고 있으나 아직 데스크톱 입력장치에 비해 편의성이 떨어져서 입력 시의 오타나 탈자 등의 오류가 포함되는 경우가 많다. 이러한 입력 오류는 문자 메시지 등 사람과의 의사소통에는 문제를 일으키지 않으나 사전, 주소록 등의 데이터베이스 검색에는 치명적인 오류로서 원하는 검색 결과를 얻지 못하게 된다. 특히 한글의 경우 자음과 모음의 조합을 통해 글자를 생성하는 특성상 1만자가 넘는 글자의 조합이 가능하여 영문에 비하여 오류의 빈도가 높다. 기존의 검색 시스템은 Suffix Tree등을 이용하여 입력 오류를 처리하지만 다양한 오류에 대응하기에는 한계가 있다. 본 논문에서는 오자, 탈자 등의 입력 오류를 허용하면서 빠른 검색이 가능한 근사 한글 단어 검색 시스템을 제안하고자 한다. 이 시스템은 기존의 알파벳에 적용된 근사 문자열 검색(Approximate String Searching)을 한글에 효과적으로 적용할 수 있는 여러 가지 알고리즘과 기법이 포함되어 있다. 그리고 제안된 시스템을 이용한 변형 욕설 필터링 시스템의 개발에 대해 이야기하고자 한다. 이 시스템은 유저의 각종 변형 욕설 입력에 대해 90% 이상의 필터링 성능을 보였다.

A Case Study of Hyundai Motors: Live Brilliant Campaign for Modern Premium Brand

  • Choi, Myounghwa;Lee, Yoonseo;Koo, Kay Ryung;Lee, Janghyuk
    • Asia Marketing Journal
    • /
    • 제16권4호
    • /
    • pp.75-87
    • /
    • 2015
  • As more companies become interested in global markets, it has become crucial for firms to create globalized brands whose positioning, advertising strategy, personality, looks, and feel are consistent across nations. The purpose of this study is to investigate the global branding strategy of the Hyundai Motor Company (hereafter HMC) in order to show how the company processes its branding strategy. HMC, one of the leading global companies in the automobile industry, set up its brand identity as "Modern premium", in alignment with their new slogan "New Thinking New Possibilities", in 2011. The aim of the "Modern premium" concept was to provide consumers with new experiences and values beyond their expectations. HMC wanted their consumers to think of their cars as not only a medium of transportation but as a life space, where they can share experiences alongside HMC. In an effort to conduct consumer research in 5 different nations, HMC selected "brilliant" as a key communication concept. The word "brilliant" expresses the functional, experiential, and emotional dimensions of HMC. HMC furthermore chose "live brilliant" as a key campaign message in order to reinforce their communication concept. After this decision, the "live brilliant" campaign was exhibited through major broadcast channels around the world. The campaign was the company's first worldwide brand campaign, where a single message was applied to all major markets, with the goal of building up a consistent image as a global brand. This global branding strategy is worth examining due to its significant contribution to growth generation in the global market. Overall, the 'live brilliant' global brand campaign not only improved HMC's reputation image-wise, with the 'Modern Premium' conceptualization of the brand as 'simple', 'creative' and 'caring', but also improved the consumer's familiarity, preference and purchase intention of HMC. In fact, the "live brilliant" campaign was a successful campaign which increased HMC's brand value. Notably, HMC's brand value increased continuously and reached 9 billion US dollars in 2013, leading it to reach 43rd place in the Global Brand Rankings according to the brand consulting group Interbrand. Its brand value largely surpassed that of Nissan (65th) and Chevrolet (89th) in 2013. While it is true that the global branding strategy of HMC involved higher risks, it was highly successful according to cross-nation consumer research. Therefore, this paper concludes that the global branding strategy of HMC made a positive impact on its performance. We further suggest HMC to combine its successful marketing with social media such as Facebook, Twitter, and Instagram and embrace digital media by extending its brand communication horizon to the mobile internet

여학생 친화적 과학활동 프로그램의 운영 평가 (Evaluation on the Implementation of Girl Friendly Science Activity)

  • 전영석;신영준
    • 한국과학교육학회지
    • /
    • 제24권3호
    • /
    • pp.442-458
    • /
    • 2004
  • 여학생 친화적 과학 활동 프로그램의 활용 현황을 조사하고 시범운영 결과를 분석하여 이를 토대로 프로그램의 확대 보급 방안을 마련하기 위하여 본 연구를 수행하였다. 1999년 여성부의 연구용역으로 개발된 여학생 친화적 과학활동 자료는 5개 주제의 특기적성 교육자료와 7학년부터 10학년 까지의 심화 보충 학습자료들인데, 이 자료는 서울 지역의 과학교사 모임인 '신나는 과학을 만드는 사람들'의 홈페이지에 체계적으로 정리되어 수록되었으며 한글 문서를 다운로드받아서 활용할 수도 있고 html 형식의 문서를 모니터 상에서 그대로 확인할 수도 있도록 하였다. 현재 여학생 친화적 과학활동 자료 홈페이지의 방문객이 꾸준히 이어지고 있다. 특기 적성 프로그램에 대한 시범 실시 결과, 개발된 자료는 개발 목적과의 일치도 및 내용 및 수준, 적용 효과에 대해서는 높은 점수를 얻었지만 교사 수행의 수월성, 조직과 운영 측면에서는 낮은 점수를 얻었다. 또한 학생들은 과학에 대한 인식이 변화되었고, 간학문적인 활동을 통해 다양한 과학 경험을 하였다는 점에 대해서 긍정적으로 생각하였다. 한편, 학생들의 활동 내용에 대한 평가는 성공의 경험에 크게 좌우되며, 주로 오리고 자르고 붙이는 일로 이루어진 활동에 대한 평가 점수는 낮게 나타났다. 학생들의 성취도 검사에 의하면, 정의적 영역은 향상되었지만(p<0.05), 탐구 능력의 향상은 통계적으로 의미가 없었다. 그러나 많은 시범 실시학교에서 협동 활동 및 토의 능력의 향상과 관찰, 추론 능력이 향상되었음을 관찰하였다고 보고하였다. 본 프로그램의 확대 보급을 위해서는 프로그램이 교사들의 지지를 얻고 이들의 교수 학습 전략을 변화될 수 있도록 유도하는 것이 가장 중요하며, 이에 따라 교사 커뮤니티를 형성하고 교사 연수를 실시하는 것이 필요하다는 결론을 얻었다. 또한 프로그램의 추가 개발 및 국내 여성 과학 기술인을 적극적으로 발굴하여 교육 자료화하는것 등이 추후 실천해야할 과제로 남아있다.