• Title/Summary/Keyword: 변환사전

Search Result 348, Processing Time 0.026 seconds

Conceptual Interlingua Construction for Korean-English Query Translation (한영 질의어 변환을 위한 공통 중간개념 구축)

  • Choi, Yong-Seok;Seo, Chung-Won;Shin, Sa-Im;Kim, Jae-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.422-427
    • /
    • 2001
  • 질의어 변환 방법은 다국어 정보검색을 위한 방법중에 효율적인 방법이다. 양질의 질의어 변환을 위해서, 사전, 온톨로지, 병렬 코퍼스 통과 같은 자연언어 자원이 필요하다. 이러한 자연언어 자원은 양질로 대량으로 구축하려면 많은 비용이 튼다는 단점이 있다. 본 논문에서는 한영 질의어 변환에 적용할 수 있는 공통 중간개념 구축방법을 제안한다. 공통 중간개념은 동사들의 축으로 이루어지며, 통사들은 기본동사들의 조합으로 표현한수 있다고 가정한다. 공통 중간개념은 적은 자연언어 자원을 효율적으로 이용할 수 있도록 한다. 본 논문에서는 기본 동사 축을 특이값 분해(singular value decomposition) 방법으로 구하고, 그 기본 동사 축을 이용해서 질의어 변환하는 방법을 보여준다.

  • PDF

Development of Romanization System of Korean (한국어 로마자 변환기 개발에 관한 연구)

  • 윤방원;정태충
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.378-380
    • /
    • 2000
  • 본 논문은 한국어 로마자의 표준안 확립을 위하 로마자 변환 테이블을 정리 및 종합하고 이를 실제 변환기로 개발하는데 필요한 과정에 대해 기술하였다. 테이블 구성을 위해 국어의 표준 발음의 전체 구성을 분석하고, 불필요한 규칙이 있거나 없을 경우의 규칙을 추가, 삭제하여, 상충이 있을 경우 우선 순위에 의해 규칙을 선택하여 규칙을 수정하여 적용하였다. 이렇게 생성된 표준 발음 테이블은 한글을 받아 적용한 수 표기별 자음과 모음의 테이블을 통해 로마자로 변환한다. 일관성 없는 규칙, 표준화의 설득력 및 홍보의 미숙등과 같은 과제로 활용의 예가 적었던 한국어 로마자 변환기는 공공기관의 지명 및 문화재 로마자의 표준화 등에 사용될 수 있으며, 인터넷을 통한 웹 로마자 사전 제작을 통하여 표준화의 문제에 가장 중요한 객관적인 지표로서 활용될 수 있다.[3]

  • PDF

Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval (교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환)

  • Chun, Jung-Hoon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

Design and Implementation of a hanja-Hangul Convertor for Generating Correct Hangul (바른 한글음 생성을 위한 한자.한글 변환기 설계 및 구현)

  • Gang, Hyeong-Il;Gang, Seung-Heon;Jang, Su-Min;Yu, Jae-Su
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.3
    • /
    • pp.583-591
    • /
    • 1998
  • 본 논문은 한자·한글 혼합 문서들을 정확한 우리말 문서로 자동 변환하는 한자·한글 변환기를 설계하고 구현한다. 구현된 한자·한글 변환기는 정보 검색 시스템에서 한자·한글 혼합 문서 검색시 사용자들이 한자에 해당하는 한글음을 파악하는데 걸리는 시간을 절약하고 쉽게 판독할 수 있도록 한다. 이를 위해 KS C 5601 표준코드를 기준으로 바르지 못한 한글음 생성의 원인을 조사하고 두 개 이상의 한글음을 갖는 한자들과 이형표기가 가능한 한자를 올바른 한글음으로 변환할 수 있는 한글단어 매핑사전을 구축한다.

  • PDF

Evaluation of Large Language Models' Korean-Text to SQL Capability (대형 언어 모델의 한국어 Text-to-SQL 변환 능력 평가)

  • Jooyoung Choi;Kyungkoo Min;Myoseop Sim;Haemin Jung;Minjun Park;Stanley Jungkyu Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.171-176
    • /
    • 2023
  • 최근 등장한 대규모 데이터로 사전학습된 자연어 생성 모델들은 대화 능력 및 코드 생성 태스크등에서 인상적인 성능을 보여주고 있어, 본 논문에서는 대형 언어 모델 (LLM)의 한국어 질문을 SQL 쿼리 (Text-to-SQL) 변환하는 성능을 평가하고자 한다. 먼저, 영어 Text-to-SQL 벤치마크 데이터셋을 활용하여 영어 질의문을 한국어 질의문으로 번역하여 한국어 Text-to-SQL 데이터셋으로 만들었다. 대형 생성형 모델 (GPT-3 davinci, GPT-3 turbo) 의 few-shot 세팅에서 성능 평가를 진행하며, fine-tuning 없이도 대형 언어 모델들의 경쟁력있는 한국어 Text-to-SQL 변환 성능을 확인한다. 또한, 에러 분석을 수행하여 한국어 문장을 데이터베이스 쿼리문으로 변환하는 과정에서 발생하는 다양한 문제와 프롬프트 기법을 활용한 가능한 해결책을 제시한다.

  • PDF

Design and Implementation of the Language Processor for Educational TTS Platform (음성합성 플랫폼을 위한 언어처리부의 설계 및 구현)

  • Lee, Sang-Ho
    • Proceedings of the KSPS conference
    • /
    • 2005.11a
    • /
    • pp.219-222
    • /
    • 2005
  • 본 논문에서는 한국어 TSS 시스템을 위한 언어처리부의 설계 및 구현 과정을 설명한다. 구현된 언어처리부는 형태소 분석, 품사 태깅, 발음 변환 과정을 거쳐, 주어진 문장의 가장 적절한 발음열과 각 음소의 해당 품사를 출력한다. 프로그램은 표준 C언어로 구현되어 있고, Windows와 Linux에서 모두 동작되는 것을 확인하였다. 수동으로 품사가 할당된 4.5만 어절의 코퍼스로부터 형태소 사전을 구축하였으며, 모든 단어가 사전에 등록되어 있다고 가정할 경우, 488문장의 실험 자료에 대해 어절 단위 오류율이 3.25%이었다.

  • PDF

Design and Implementation of Finite-State-Transducer Preprocessor for an Efficient Parsing and Translation in Korean-to-English Machine Translation (한영 기계번역에서의 효율적인 구문분석과 번역을 위한 유한상태 변환기 기반 전처리기의 설계 및 구현)

  • Park, Jun-Sik;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.128-134
    • /
    • 1999
  • 기계번역이나 정보검색 등에 적용되는 자연언어처리기술에 있어서 구문분석은 매우 중요한 위치를 차지한다. 하지만, 문장의 길이가 증가함에 따라 구문분석의 복잡도는 크게 증가하게 된다. 이를 해결하기 위한 많은 노력 중에서 전처리기의 지원을 통해 구문분석기의 부담을 줄이려는 방법이 있다. 본 논문에서는 구문분석의 애매성과 복잡성을 감소시키기 위해 유한상태 변환기 (Finite-State-Transducer FSI)를 이용한 전처리기를 제안한다. 유한상태 변환기는 사전표현, 단어분할, 품사태깅 등에 널리 사용되어 왔는데, 본 논문에서는 유한상태 변환기를 이용하여 형태소 분석된 문장에서 시간표현 등의 제한된 표현들을 구문요소화하는 전처리기를 설계 및 구현하였다. 본 논문에서는 기계번역기에서의 구문분석기 뿐만 아니라 변환지식의 모듈화를 지원하기 위해 유한상태 변환기를 이용하여 시간표현 등의 부분적인 표현들을 번역하는 방법을 제안한다. 또한 유한상태 변환기의 편리한 작성을 위하여 유한상태 변환기 작성 지원도구를 구현하였다. 본 논문에서는 전처리기의 적용을 통해 구문분석기의 부담을 덜어 주며 기계번역기의 변환부분의 일부를 성공적으로 담당할 수 있음을 보여 준다.

  • PDF

Using Machine Translation Agent Based on Ontology Study of Real Translation (온톨로지 기반의 지능형 번역 에이전트를 이용한 실시간 번역 연구)

  • Kim Su-Gyeong;Kim Gyeong-A;An Gi-Hong
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2006.06a
    • /
    • pp.229-233
    • /
    • 2006
  • 기계번역(Machine Translaton, MT), 다국어 정보 검색, 의미 정보 검색 등에 대한 연구는 시소러스, 지식베이스, 사전 검색, 의미망, 코퍼스등과 같은 다양한 방법으로 이루어지고 있다. 시맨틱 웹이 등장과 시맨틱 웹 기반 기술의 발전에 따라 위 연구들을 시맨틱 웹에 적용시킬 필요성도 제안되었다. 특히 한국어 시소러스, 워드넷(WordNet), 전자 세종 사전, 가도까와(Kadokawa) 시소러스와 같은 지식베이스가 개발되었으나 활용 분야에 따라 그 구축 방법론이 다르게 적용되어, 위 연구에 효과적으로 통용될 수 있는 지식베이스는 실질적으로 구축되지 못한 실정이다. 따라서 본 연구에서는 세종 사전과 가도까와 시소러스, 한/일 기계 번역 사전 그리고 전문 용어 사전을 기반으로 한국어와 일본어 지식베이스를 위한 사전 온톨로지 서버를 정의하여 의미 정보를 구성하고, Semantic Web Rule Markup Language (이하 SWRL)을 이용해 구문 정보 규칙을 정의한다. 그리고 SWRL 기반 정방향 추론 엔진을 이용하여 번역에 필요한 추론 엔진을 구성하고 문장 구문형성 규칙 추론 엔진을 통해 사용자에게 한국어와 일본어의 문장 구성 변환을 제공한다. 본 연구는 현재 기계 번역이 갖고 있는 다의성, 술부 어순의 차이, 경어체 등 아직 해결해야 할 많은 부분들에 대한 해결 방안으로서 시맨틱 웹 기반 기술과의 활용방안을 제시하고자 한다.

  • PDF

Image Classification Method Using Learning (학습을 이용한 영상 분류 방법)

  • Shin, Seong-Yoon;Lee, Hyun-Chang;Shin, Kwang-Seong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.285-286
    • /
    • 2021
  • 본 논문에서는 변환 학습을 기반으로 한 다중 클래스 이미지 장면 분류 방법을 제안하도록 한다. ImageNet 대형 이미지 데이터 세트에서 사전 훈련 된 네트워크 모델을 사용하여 다중 클래스의 자연 장면 이미지를 분류하였다. 실험에서 최적화 된 ResNet 모델은 Kaggle의 Intel Image Classification 데이터 세트에 분류되어 우수한 결과를 얻었다.

  • PDF

Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two (두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음)

  • Ahn, Kwangmo;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.176-180
    • /
    • 2009
  • 구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

  • PDF