• Title/Summary/Keyword: 전산사전

Search Result 116, Processing Time 0.021 seconds

Construction of Sejong Electronic Dictionnary for Contemporary Korean (세종 전자사전 : 전산어휘부로서의 특성과 의의)

  • Hong, Chai-Song;Lee, Seong Heon
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.323-331
    • /
    • 2007
  • 이 글에서는 세종 전자사전이 전산어휘부로서 갖는 특성과 그 개발 의의를 대해서 살피고자 한다. 이를 위해 우선 세종 전자사전 개발 사업을 기간별 내용과 사업의 배경 및 목표, 사업 내용으로 나누어 개관한다. 그런 다음, 세종 전자사전의 특성을 개관하고, 거시구조 및 미시구조의 특성, 그리고 전산어휘부로서의 특성으로 나누어 살핀다. 또한 이러한 특성과 관련하여 세종 전자사전 개발의 의의에 대해서도 아울러 살핀다.

  • PDF

An Automated Production System Design for Natural Language Processing Models Using Korean Pre-trained Model (한국어 사전학습 모델을 활용한 자연어 처리 모델 자동 산출 시스템 설계)

  • Jihyoung Jang;Hoyoon Choi;Gun-woo Lee;Myung-seok Choi;Charmgil Hong
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.613-618
    • /
    • 2022
  • 효과적인 자연어 처리를 위해 제안된 Transformer 구조의 등장 이후, 이를 활용한 대규모 언어 모델이자 사전학습 모델인 BERT, GPT, OPT 등이 공개되었고, 이들을 한국어에 보다 특화한 KoBERT, KoGPT 등의 사전학습 모델이 공개되었다. 자연어 처리 모델의 확보를 위한 학습 자원이 늘어나고 있지만, 사전학습 모델을 각종 응용작업에 적용하기 위해서는 데이터 준비, 코드 작성, 파인 튜닝 및 저장과 같은 복잡한 절차를 수행해야 하며, 이는 다수의 응용 사용자에게 여전히 도전적인 과정으로, 올바른 결과를 도출하는 것은 쉽지 않다. 이러한 어려움을 완화시키고, 다양한 기계 학습 모델을 사용자 데이터에 보다 쉽게 적용할 수 있도록 AutoML으로 통칭되는 자동 하이퍼파라미터 탐색, 모델 구조 탐색 등의 기법이 고안되고 있다. 본 연구에서는 한국어 사전학습 모델과 한국어 텍스트 데이터를 사용한 자연어 처리 모델 산출 과정을 정형화 및 절차화하여, 궁극적으로 목표로 하는 예측 모델을 자동으로 산출하는 시스템의 설계를 소개한다.

  • PDF

통합전산환경 구축.운영 성과측정 모형 개발에 관한 연구: 정부통합전산센터를 중심으로

  • Jeong, Hae-Yong;Na, Jong-Hoe
    • 한국디지털정책학회:학술대회논문집
    • /
    • 2007.06a
    • /
    • pp.257-266
    • /
    • 2007
  • 범정부통합전산환경 구축사업은 정부의 주요 전산장비와 담당인력을 물리적으로 집중 관리함으로써 전산환경의 수준을 제고하고 유지운영 비용을 줄이려는 사업으로써 2006년 대전에 제1센터를 구축하여 운영중에 있으며, 광주 제2센터로의 이관을 본격 추진 중에 있다. 본 연구에서는 범정부 통합전산환경 구축에 대한 성과측정의 사전연구로써 조직간 시스템 통합이론을 검토하여 범정부 통합전산환경에 적합한 성과측정모형을 제시하였다.

  • PDF

Syntactic informations in the Sejong Electronic Dictionary of Korean Nouns (세종명사전자사전의 통사정보)

  • Hong, Chai-Song;Ko, Kil-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.348-355
    • /
    • 2001
  • 세종전자사전은 한국어 어휘의 정보를 총체적으로 표상하는 전산어휘자료체이다. 세종전자사전은 궁극적으로 다양한 유형과 기능의 한국어 자동처리에의 활용을 목표로 한다. 세종체언전자사전은 최종적으로 5만여 항목을 대상으로 구축될 것이다. 세종명사전자사전은 전산적 효율성을 고려하여 명사 어휘의 정보를 8개의 하위정보구획과 50여개의 세부정보항목으로 구분하여 표상한다. 특히, 명사의 어휘 통사적인 결합에 관한 정보는 한국어 명사구와 문장의 자동생성에 직접 활용될 수 있는 정보이다. 명사는 수식어 요소 또는 조사와 결합하여 명사구를 형성하고, 동사 및 형용사와 결합하여 문장의 생성에 참여한다. 개별 명사들은 이 과정에서 다양한 제약적인 양상들을 보여주고 있으며, 세종명사전자사전은 이 정보들을 명시적으로 표상한다. 또한 명사는 기능동사와 결합하는 술어명사와 그렇지 않은 비술어명사로 구분이 된다. 술어 명사가 기능동사와 결합하여 문장을 형성할 때, 명사와 그 논항들은 다양한 통사적 기능을 담당한다. 또한 술어명사는 논항과 결합하여 명사구를 형성한다. 그러나, 술어명사의 명사구 형성과 기능동사의 결합은 불규칙적이고, 명사와 기능동사의 의미적 특성에 따라 다양한 제약이 발견된다. 이 정보들의 정밀한 표상은 개별 술어명사로부터 생성될 수 있는 가능한 명사구와 문장의 형태를 구체적으로 밝혀주게 된다. 세종명사전자사전의 어휘 통사적인 결합에 관한 정보들은 명사구 또는 문장의 자동생성의 정확성과 효율성을 높여줄 것이다.

  • PDF

Calibration of Pre-trained Language Model for Korean (사전 학습된 한국어 언어 모델의 보정)

  • Jeong, Soyeong;Yang, Wonsuk;Park, ChaeHun;Park, Jong C.
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.243-248
    • /
    • 2020
  • 인공 신경망을 통한 심층 학습 모델의 발전은 컴퓨터 비전, 자연언어 이해 문제들에서 인간을 뛰어넘는 성능을 보이고 있다. 특히 트랜스포머[1] 기반의 사전 학습 모델은 질의응답, 대화문과 같은 자연언어 이해 문제에서 최근 높은 성능을 보이고 있다. 하지만 트랜스포머 기반의 모델과 같은 심층 학습 모델의 급격한 발전 양상에 비해, 이의 동작 방식은 상대적으로 잘 알려져 있지 않다. 인공 신경망을 통한 심층 학습 모델을 해석하는 방법으로 모델의 예측 값과 실제 값이 얼마나 일치하는지를 측정하는 모델의 보정(Calibration)이 있다. 본 연구는 한국어 기반의 심층학습 모델의 해석을 위해 모델의 보정을 수행하였다. 그리고 사전 학습된 한국어 언어 모델이 문장이 내포하는 애매성을 잘 파악하는지의 여부를 확인하고, 완화 기법들을 적용하여 문장의 애매성을 확신 수준을 통해 정량적으로 출력할 수 있도록 하였다. 또한 한국어의 문법적 특징으로 인한 문장의 의미 변화를 모델 보정 관점에서 평가하여 한국어의 문법적 특징을 심층학습 언어 모델이 잘 이해하고 있는지를 정량적으로 확인하였다.

  • PDF

선형계획 프로그램 개발에 있어서 사전처리에 관한 연구 및 실험 결과

  • 안재근;김우제;박순달
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1993.10a
    • /
    • pp.49-49
    • /
    • 1993
  • 선형계획 프로그램의 개발에 있어서 속도의 제고와 수치적안정을 고려한 방법에 대한 접근들이 이루어지고 있다. 본 연구에서는 단체법 수행 이전에 입력자료의 사전처리를 통해 속도 및 수치적 안정을 도모하고자 하는 방법과 이에 대한 전산실험 결과를 제시하고자 한다. 입력자료의 사전처리는 첫째, 수치적 안정을 향상시키는 입력자료의 Scaling에 대한 내용과 둘째, 문제의 크기를 줄이거나 단체법에서 다루기 쉬운 형태로 변형하여 속도를 제고하고 수치적 안정을 도모하는 입력자료의 재구조화에 대한 내용으로 구성된다. 본 연구에서 다루는 주요 내용은 다음과 같다. 첫째, Scaling 부분에서는 여러 가지 Scaling 방법과 이에 대한 비교를 전산실험결과로 제시한다. 둘째, 입력자료의 재구조화 방법과 이에 대한 실험적 결과를 제시한다. 본 연구결과 기대효과로는 선형계획 프로그램의 개발에 있어서의 Scaling 방법과 재구조화 방법들의 선택기준으로 사용될 수 있을 것이다.

  • PDF

A Method of Constructing Data Dictionary for Part Library Systems of Super Structures in Steel Bridges (강교량 상부구조물의 파트라이브러리 시스템 지원을 위한 데이터사전 구축 방법)

  • Yang, Mun-Su;An, Hyun-Jung;Lee, Sang-Ho
    • Proceedings of the Computational Structural Engineering Institute Conference
    • /
    • 2011.04a
    • /
    • pp.239-242
    • /
    • 2011
  • 본 연구에서는 모듈러 강교량의 상부구조 구성요소에 대한 정보의 교환, 검색, 공유가 가능한 데이터사전을 구축하였다. 표준모듈의 계층정의를 위해 기존 교량분류체계를 기반으로, PLIB Part 42에서 제시하는 패밀리 조직 방법론을 적용하였다. 분류된 구성요소와 모듈에 대한 정보의 쉬운 검색 및 접근을 위하여 이름, 동의어, 정의 등과 같은 속성을 정의하였다. 또한 모듈의 형상표현이 가능하도록 속성을 정의하여, 파트라이브러리 시스템의 구성요소인 라이브러리 컨텐츠에 저장된 모듈라이브러리의 사용성을 용이하게 하였다.

  • PDF

A Structural Analysis of Dictionary Text for the Construction of Lexical Data Base (어휘정보구축을 위한 사전텍스트의 구조분석 및 변환)

  • 최병진
    • Language and Information
    • /
    • v.6 no.2
    • /
    • pp.33-55
    • /
    • 2002
  • This research aims at transforming the definition tort of an English-English-Korean Dictionary (EEKD) which is encoded in EST files for the purpose of publishing into a structured format for Lexical Data Base (LDB). The construction of LDB is very time-consuming and expensive work. In order to save time and efforts in building new lexical information, the present study tries to extract useful linguistic information from an existing printed dictionary. In this paper, the process of extraction and structuring of lexical information from a printed dictionary (EEKD) as a lexical resource is described. The extracted information is represented in XML format, which can be transformed into another representation for different application requirements.

  • PDF