• 제목/요약/키워드: 이형 데이터

검색결과 387건 처리시간 0.03초

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상 (Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph)

  • 이원기;김영길;이의현;권홍석;조승우;조형미;이종혁
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상 (Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph)

  • 이원기;김영길;이의현;권홍석;조승우;조형미;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족 문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF

적응적 수신자 기반 계층 멀티캐스트 프로토콜 (Adaptive Receiver-driven Layered Multicast Protocol)

  • 고민수;안종석
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.191-195
    • /
    • 1998
  • 최근 인터넷상에서는 이형 네트워크 상황에서 효율적인 화상회의를 하기 위한 연구가 활발히 진행되고 있다. 이형 네트워크에서 화상회의를 효과적으로 수행하기 위해서는 각 수신자의 네트워크 상태에 알맞게 데이터를 보내주어야 한다. 이러한 문제를 해결하기 위해서 McCanne은 계층적 코딩 방식과 RLM(Receiver-driven Layered Multicast)방식을 결합하여 사용할 것을 제안하였다. 계층적 코딩 방식은 하나의 이미지 프레임을 여러 계층의 데이터 스트림으로 나누는 방식으로 수신자는 많은 계층의 스트림을 받아볼수록 선명한 영상을 볼 수 있다. RLM은 각 수신자의 네트워크 상태에 따라 몇 개의 데이터 스트림을 수신할 것인가를 결정하는 방식이다.. 본 논문에서는 기존 RLM방식의 효율을 향상시킬 수 있는 적응적 기법을 제안한다. 기존의 RLM방식은 무작위적으로 정한 시간에 수신하는 데이터 스트림의 개수를 증가시키고 또한 네트워크가 정체가 되면 수신하는 데이터 스트림의 개수를 감소시키는 방식을 사용한다. 본 논문에서는 데이터 스트림의 개수를 증가시키는 시간을 네트워크의 상태에 따라 적응적으로 결정하는 기법을 소개한다. 시뮬레이션 실험에 의하면 적응적 기법이 기존 RLM에 비해 네트워크 사용 효율을 10%-30%정도 향상시킨다.

  • PDF

효과적인 외래어 이형태 생성을 위한 확률 문맥 의존 치환 방법 (A Probabilistic Context Sensitive Rewriting Method for Effective Transliteration Variants Generation)

  • 이재성
    • 한국콘텐츠학회논문지
    • /
    • 제7권2호
    • /
    • pp.73-83
    • /
    • 2007
  • 완전 일치 방법을 주로 사용하는 정보 검색 시스템에서 외래어 이형태를 검색할 수 있도록 위해서는 외래어 이형태를 자동 생성하는 전처리나 질의어 확장이 필요하다. 본 연구에서는 하나의 외래어가 입력되면, 이를 근거로 실제 사용될 만한 외래어 이형태들을 효과적으로 생성하기 위한 방법을 제안한다. 혼동 자소를 단순하게 치환하는 방법은 불필요한 이형태를 과도하게 생성하므로, 본 연구에서는 실제 문서에 사용된 외래어 이형태들로부터 혼동 패턴을 학습하고, 이를 확률로 계산하여 생성 순서를 조절하였다. 특히, 혼동 패턴에서 좌우문맥을 고려하고 지역 치환 확률과 전역 치환 확률을 계산하여 조기에 많이 사용하는 이형태를 생성하도록 하였다. KT SET 2.0에서 추출한 이형태 데이터에 대해 실험한 결과, 상위 20개의 생성으로도 평균 80% 이상 찾아내어 이 방법이 매우 효과적임을 보였다.

상이한 데이터 구조의 데이터베이스간 통합 운영방안 연구 - 기초학문자료센터를 중심으로 - (A Study of the Integrated Operation for Databases with Different Data Structures)

  • 고영만;배경재
    • 한국문헌정보학회지
    • /
    • 제45권3호
    • /
    • pp.69-85
    • /
    • 2011
  • 본 연구에서는 이형 데이터 구조를 가지는 데이터베이스의 통합 운영 가능성을 검토하고 사례 연구를 통한 실제적인 방안을 설계하기 위해서 한국연구재단 토대기초지원사업의 DB 구축 연구성과물과 한국연구재단의 기초학문자료센터 DB 통합 운영 방안을 제시하였다. 토대기초연구지원사업의 성과확산을 위해서는 기초학문자료센터와의 통합 연계가 필수적으로 필요하며, 그 방안으로서 기존에 구축된 DB구축 과제의 DB는 표준 지침을 활용한 XML 데이터베이스화를 필수적으로 진행하되, 향후 구축될 DB구축 과제의 DB는 기초학문자료센터와 연계 시스템을 구성하거나 독립 시스템을 구성하는 방안을 제언하였다.

데이터 불균형 문제에서의 SVM 앙상블 기법의 적용 (SVM Ensemble Techniques for Class Imbalance Problem)

  • 강필성;이형주;조성준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.706-708
    • /
    • 2004
  • 대부분의 기계학습 알고리즘은 학습 데이터에서 각각의 범주간의 비율이 동일하거나 비슷하다는 가정 하에 문제를 풀게 된다. 그러나 실제 문제에서는 그 비율이 동일하지 않으며 매우 큰 차이를 보이기도 하는데, 이는 분류 성능을 저하시키는 요인이기도 하다 따라서 본 논문에서는 이러한 데이터의 불균형 문제를 해소하는 방안으로 SVM 앙상블 기법을 적용한 샘플링을 제안하고 이를 실제 불균형 데이터에 적용함으로써 제안된 방법이 기존의 방법들에 비해 향상된 성능을 나타내는 것을 보였다.

  • PDF

엔티티-릴레이션쉽 모델을 사용한 TDX-10 CCITT No.7 신호메시지 전달시스팀의 자료구조 설계

  • 최진영;이형호
    • ETRI Journal
    • /
    • 제10권1호
    • /
    • pp.22-31
    • /
    • 1988
  • TDX-10 교환기에 실현될 CCITT No.7 시스팀 중 MTP 서브시스팀 설계를 위한 예비 연구로서 블럭별 자료구조를 설계하였다. 본고에서는 자료구조 설계방법은 관계형 데이터 베이스 설계 개념을 응용하여 데이터의 조작 및 관리가 용이한 자료구조의 설계 방법을 제시하였으며, 특히 Entity-Relationship 데이터 모델을 이용하여 개념 데이터 모델을 설정하고 이로부터 제3규정형 형태의 관계형 자료구조를 도출하였다.

  • PDF

입력공간 분담에 의한 네트워크들의 앙상블 알고리즘 (Ensemble of Specialized Networks based on Input Space Partition)

  • 신현정;이형주;조성준
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2000년도 추계학술대회 및 정기총회
    • /
    • pp.33-36
    • /
    • 2000
  • 관찰학습(OLA: Observational Learning Algorithm)은 앙상블 네트워크의 각 구성 모델들이 다른 모델들을 관찰함으로써 얻어진 가상 데이터와 초기에 bo otstrap된 실제 데이터를 학습에 함께 이용하는 방법이다. 본 논문에서는, 초기 학습 데이터 셋을 분할하고 분할된 각 데이터 셋에 대하여 앙상블의 구성 모델들을 전문화(specialize)시키는 방법을 적용하여 기존의 관찰학습 알고리즘을 개선시켰다. 제안된 알고리즘은 bagging 및 boosting과의 비교실험에 의하여, 보다 적은 수의 구성 모델로 동일 내지 보다 나은 성능을 나타냄이 실험적으로 검증되었다.

  • PDF