• 제목/요약/키워드: 언어 융합

검색결과 534건 처리시간 0.027초

한국어 학습자의 어휘복잡성, 구문복잡성 및 언어능력 변인들 간의 상관에 관한 융합 연구 (The Study of Convergence on Lexical Complexity, Syntax Complexity, and Correlation among Language Variables)

  • 이미경;노병호;강안영
    • 한국융합학회논문지
    • /
    • 제8권4호
    • /
    • pp.219-229
    • /
    • 2017
  • 본 연구는 한국인 학습자의 어휘복잡성 및 구문복잡성에 대해서 알아보았다. 이를 통해 이들의 한국어 실제 능력을 알아보며, 이를 토대로 이들에 대한 한국어 지도 방향을 설정하기 위해 실시하였다. 연구 결과 첫째, 국적에 따른 어휘복잡성 및 구문복잡성에는 유의한 차이가 나타나지 않았다. 둘째, 한국어 학습기간에 따른 어휘복잡성과 구문복잡성을 살펴본 결과 어휘복잡성의 하위 변인 중 다른 낱말 수에서 통계적으로 유의한 차이가 나타났으나, 구문복잡성의 하위 변인에서는 유의한 차이가 나타나지 않았다. 셋째, 한국거주기간, 한국어학습기간 및 언어 관련 변인들과의 상관을 살펴본 결과 한국어 학습기간과 TTR을 제외한 다른 변인들은 유의한 상관을 보였다. 연구결과에 따른 융합적 관점에서 한국어 학습자들을 위한 교육적 방향에 대하여 논의하였다.

한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델 (Attention based multimodal model for Korean speech recognition post-editing)

  • 정영석;오병두;허탁성;최정명;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2020
  • 최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

  • PDF

한국어 다중추론 질의응답을 위한 Dense Retrieval 사전학습 (Pretraining Dense retrieval for Multi-hop question answering of Korean)

  • 강동찬;나승훈;김태형;최윤수;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.588-591
    • /
    • 2021
  • 다중추론 질의응답 태스크는 하나의 문서만 필요한 기존의 단일추론 질의응답(Single-hop QA)을 넘어서 복잡한 추론을 요구하는 질문에 응답하는 것이 목표이다. IRQA에서는 검색 모델의 역할이 중요한 반면, 주목받고 있는 Dense Retrieval 모델 기반의 다중추론 질의응답 검색 모델은 찾기 어렵다. 본 논문에서는 검색분야에서 좋은 성능 보이고 있는 Dense Retrieval 모델의 다중추론을 위한 사전학습 방법을 제안하고 관련 한국어 데이터 셋에서 이전 방법과의 성능을 비교 측정하여 학습 방법의 유효성을 검증하고 있다. 이를 통해 지식 베이스, 엔터티 링킹, 개체명 인식모듈을 비롯한 다른 서브모듈을 사용하지 않고도 다중추론 Dense Retrieval 모델을 학습시킬 수 있음을 보였다.

  • PDF

한국어 신조어 말뭉치 구축 및 신조어 중요도 측정 방법에 대한 연구 (A Study of the construct Korean New Word Corpus and Metric of New Word Importance)

  • 김현지;정상근;황태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-19
    • /
    • 2020
  • 신조어는 자연어처리에 있어 대단히 중요하며, 시스템의 전체 성능에 직접적인 영향을 미친다. 일단위, 주단위로 신규 발생하는 어휘들에 대해, 자동으로 신규성 및 중요도가 측정되어 제공된다면, 자연어처리 연구 및 상용시스템 개발에 큰 도움이 될 것이다. 이를 위해, 본 연구는 한국어 말뭉치 KorNewVocab을 새로이 제시한다. 먼저, 신조어가 가져야 할 세부 중요 조건을 1)신규 어휘 2)인기 어휘 3)지속 사용 어휘로 정의하고, 이 조건을 만족하는 신조어 말뭉치를 2019.01~2019.08까지의 뉴스기사를 중심으로 신조어 412개와 4,532 문장으로 구성된 신조어 말뭉치를 구축하였다. 또한, 본 말뭉치의 구축에 활용된 반자동 신규어휘 검출 및 중요도 측정 방법에 대해 소개한다.

  • PDF

유사구조 및 유사의미 문장 생성 방법 (Semantic and Syntax Paraphrase Text Generation)

  • 서혜인;정상근;정지수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.162-166
    • /
    • 2020
  • 자연어 이해는 대화 인터페이스나 정보 추출 등에 활용되는 핵심 기술 중 하나이다. 최근 딥러닝을 활용한 데이터 기반 자연어 이해 연구가 많이 이루어지고 있으며, 이러한 연구에 있어서 데이터 확장은 매우 중요한 역할을 하게 된다. 본 연구는 자연어 이해영역에서의 말뭉치 혹은 데이터 확장에 있어서, 입력으로 주어진 문장과 문법구조 및 의미가 유사한 문장을 생성하는 새로운 방법을 제시한다. 이를 위해, 우리는 GPT를 이용하여 대량의 문장을 생성하고, 문장과 문장 사이의 문법구조 및 의미 거리 계산법을 제시하여, 이를 이용해 가장 유사하지만 새로운 문장을 생성하는 방법을 취한다. 한국어 말뭉치 Weather와 영어 말뭉치 Atis, Snips, M2M-Movie M2M-Reservation을 이용하여 제안방법이 효과적임을 확인하였다.

  • PDF

생성적 사전학습 언어모델 기반의 판결문 문장 생성에 관한 파일럿 연구 (A Pilot Study on the Generation of Legal Document Sentence based on Generative Pre-trained Transformer)

  • 소광섭;김호중;박노섭;원동옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.443-445
    • /
    • 2022
  • 인공지능 기술이 발전함에 따라 경찰의 범죄수사 분야에서도 인공지능 기술을 적용하고자 하는 연구가 활발하다. 범죄수사의 결과물인 수사결과 보고서 작성에 있어 판결문은 중요한 데이터가 될 수 있다. 그러나 판결문은 공개된 데이터의 이미지화로 인해 정형화된 데이터의 확보가 까다롭고, 소수의 법조계 전문가가 아닌 일반인이 생성해내기 어려워 데이터 확보가 쉽지 않은 현실이다. 이에 본 연구에서는 생성적 사전학습 언어모델을 이용한 판결문 문장 데이터 생성을 제안하였다. 카카오의 KoGPT를 활용하여 실제 판결문장 일부를 제시한 결과 판결문과 유사한 형태의 문장을 생성한 것을 확인하였다. 향후 판결문 데이터를 활용하기 위한 인공지능 기술 기반 범죄수사 연구에 있어, 생성된 판결문 데이터를 활용할 수 있을 것으로 기대된다.

한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩 (Utilizing Local Bilingual Embeddings on Korean-English Law Data)

  • 최순영;;임희석
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.45-53
    • /
    • 2018
  • 최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.

임베디드 소프트웨어의 에너지 효율성과 언어 변환 지원을 위한 코드 리팩토링 기법 확장 (Extension of Code Refactoring Technique to Support Energy Efficiency and Language Conversion of Embedded Software)

  • 남승우;홍장의
    • 융합정보논문지
    • /
    • 제8권2호
    • /
    • pp.91-103
    • /
    • 2018
  • 리팩토링은 기존 레거시 코드에 대한 품질을 확보하기 위한 공학적 기술로서, 프로그램의 기능은 변하지 않으면서 내부 구조를 개선하는 작업이다. 다양한 오픈 소스 소프트웨어가 재사용되면서, 기술적 이유 또는 시장 요구로 인하여 프로그래밍 언어 변환을 통한 소스 코드 재사용이 점진적으로 요구되고 있다. 이러한 상황에서 에너지 효율성을 고려하는 언어 변환 리팩토링 기법은 임베디드 소프트웨어 개발의 생산성은 물론 품질 향상을 위한 중요한 수단으로 여겨지고 있다. 본 논문에서는 기존에 제시된 에너지 절감형 리팩토링 기법에 추가하여 프로그래밍 언어의 문법 및 구조의 비교와 매핑을 통해 다른 언어로 변환하는 코드 리팩토링 기법을 제시하였다. 제안하는 리팩토링 기법의 활용은 소프트웨어 개발 언어의 환경변화에 대처하고, 기존 코드의 재사용을 높임으로써 신속한 소프트웨어 개발 및 품질 향상을 통한 제품의 경쟁력 향상을 기대할 수 있다.

언어적인 항해안전정보 지원을 위한 의미해석 모델 구축에 관한 연구 (The Design of a Meaning Interpretation Model for Supporting Linguistic Navigation Safety Information)

  • 김영기;박계각;이미라
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.198-205
    • /
    • 2011
  • 선박의 항해사가 안전 항해를 위해 GPS, ARPA, AIS, NAVTEX, VHF 등 다수의 항해장비가 제공하는 화상, 수치, 텍스트 및 음성 정보를 숙지하여야 하나, 항해당직에 임하면서 동시에 이들 정보를 획득하여 안전 항해를 위한 판단자료로 활용하는 것은 대단히 번거롭고 어려운 작업이다. 따라서 이들 멀티미디어 항해안전정보를 이해하고 융합하여 항해사가 처한 상황을 인식하고 항해사의 의사결정에 필요한 정보를 추론하여 언어로서 제공해주는 시스템이 필요하다. 본 연구에서는 멀티미디어 항해안전정보를 이해하고 융합하여 언어로 제공하는데 필요한 의미해석 모델을 Semantic Network를 이용하여 구축하고자 한다.

Two Generations in Texas Dialect

  • Park Jookyung
    • 대한음성학회지:말소리
    • /
    • 제29_30호
    • /
    • pp.1-18
    • /
    • 1995
  • 미국 남부 방언은 그 지역의 광대함과 아울러 그 지역에 속하는 언어사용자들의 언어 문화 및 역사적인 다양성에 의해 결코 한 가지 방언으로 취급할 수 없는 것임에도 불구하고 많은 경우에 그렇게 다루어져 왔다. 특히 소위 '남부 방언의 특징적 요소'로서 몇몇 자질들에 대한 연구가 많이 이루어져 왔다. 본 논문의 목적은 텍사스 지역방언에 이러한 남부 방언의 특징적 자질이 어느 정도 유지되고 있는가를 알아보고, 아울러 두 세대간에 언어적 차이가 있는지, 있다면 그 변화의 방향은 어느 쪽으로 전개되어가고 있는지를 밝히려는 데 있다. 이를 위하여 토박이 텍사스 인에 한하여 한 가정에서 두 세대(늙은 세대와 젊은 세대)를 대표하는 정보제공자 두 명씩을 각각 추출하여 네 가정 모두 여덟 명에게서 얻은 언어자료를 녹음하여 이를 분석, 정리하였다. 텍사스 지역방언에 대해 밝혀진 주요 내용은 다음과 같다. 1. /l/앞에 나오는 단순모음 /i/는 [$r{\partial}$] 또는 [$r{\partial}$]로 이중모음화된다. 2. 강세음절에서 비음 앞에 나오는 /e/와 /I/는 중화된다. 3. 늙은 세대에서는 /a/와 /${\supset}$/가 융합되어 쓰이나, 젊은 세대에서는 융합이 일어나지 않는다. 4. 이중모음 /ar/는 /a:/또는 /a/로 단순모음화하는 것으로 보인다. 5. 이중로음 /$a{\mho}$/ /$o{\mho}$/의 앞모음이 전설화한다. 6. [u], [ju] 와 [${\mho}$]는 모두 [${\mho}$]로 된다. 7. [w] 와 [M]는 일관성 없이 교대로 사용되나 [M]는 특히 늙은 세대에서 더 많이 사용된다.

  • PDF