• Title/Summary/Keyword: 정보 단위

Search Result 5,293, Processing Time 0.035 seconds

An Interrupted and Uninterrupted Compound Unit Recognizer using Regular Expression (정규표현을 이용한 연속 및 불연속 복합단위 인식기)

  • Yuh, Sang-Hwa;Seo, Jung-Yun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.487-490
    • /
    • 2003
  • 기계번역 시스템에서 복합단위 처리는 원문의 분석 부담을 줄이고 조합적으로 대역문의 의미를 생성하지 못하는 원문의 처리를 위해 필수적이다. 본 논문에서는 정규표현(Regular Expression)을 이용하여 영어의 연속(Non-Interrupted) 및 불연속(Interrupted) 복합 단위를 인식하는 복합단위 인식기를 제안한다. 제안된 방법은, 기존에 trie 와 같은 index 의 갱신 과정이 불필요하므로, 다수의 작업자에 의해 복합단위 사전을 동시에 구축하는 경우에, 한 작업자의 결과가 실시간으로 다른 작업자의 작업에 반영되는 장점이 있으며, 복합단위 인식에 있어 정규 표현을 이용함으로써 복합단위 인식기의 성능을 선언적으로 향상시킬 수 있다. 번역 실행시의 고속 탐색을 위해서는 전체 복합단위로부터 FSA(finite State Automata) 를 자동으로 구축하여 빠른 속도로 인식 가능하도록 하였다.

  • PDF

An Evaluation of Spatial Interpolation of Statistical Information Using Dasymetric Mapping (밀도구분도 매핑을 이용한 통계정보 공간 내삽의 유효성 평가)

  • Lee, Byoung-Kil
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.24 no.4
    • /
    • pp.343-350
    • /
    • 2006
  • For integrating and utilizing the statistical data, which is summarized by arbitrary areal unit such as demographics, with stellite imagery or other GIS data, areal unit of both data should be accorded. Dasymetric mapping is proposed as a useful method fur disaggregating the aggregated statistical data to finer areal unit or generating surface model from object data such as polygonal area. This research evaluate the effectiveness of dasymetric mapping by 1) summarizing the yellow page information by administrative district, 2) modeling the business density using dasymetric mapping, and 3) comparing the business densities of raw data and that of spatial interpolation result.

Spatial Data Modeling for Feature-based Efficient Updating and History Management (객체기반의 효율적인 갱신 및 이력 관리를 위한 공간 데이터 모델 설계)

  • Sang Yeob Kim;Hyeongsoo Kim;Sungbo Seo;Keun Ho Ryu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.352-355
    • /
    • 2008
  • 최근 센서와 모바일 기술의 발달에 따라 대용량 데이터 처리가 가능해지고, 유비쿼터스와 텔레매틱스 등의 도입으로 공간 데이터가 다양한 환경에 응용되거나 활용 분야가 점차 증가하고 있다. 기존의 수치지도 관리시스템은 공간 데이터를 도엽 단위로 관리하여 데이터의 구축이 용이하지만, 객체 단위의 데이터 구축, 관리, 제공 및 갱신을 효율적으로 지원하기 어렵다. 따라서 이 논문에서는 기존 도엽기반 시스템의 문제점을 해결하기위해 객체기반 UFID 부여방안, 연속성 표현, 객체 단위의 효율적인 갱신 및 이력관리를 위한 객체기반 공간 데이터 모델을 설계한다. 제안하는 객체기반의 공간 데이터 모델은 지형지물에 UFID를 부여하고 도엽 단위로 구축된 수치지도 데이터의 조인 연산을 통해 연속적인 표현이 가능하다. 아울러 갱신으로 인해 변경된 데이터를 이력 DB에 시간간격 단위로 저장, 관리하여 사용자에게 객체단위 이력 정보를 제공할 수 있다.

An Assessment of the Information Literacy of High School Students in Korea (고등학생의 정보활용능력 평가에 관한 연구)

  • Park, Myung-Kyu
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.16 no.1
    • /
    • pp.75-90
    • /
    • 2005
  • Information literacy has been defined as "the ability to access, evaluate, and use information from a variety of sources." Recently, information literacy has become a hot topic in Korean education circles and school library fields, but few publications describe how to assess information literacy skills. This study is the first stage to develop a measurable assessment tool of the information literacy skills of korean high school students. In this paper, related projects, curricular models, and rubrics are reviewed and an assessment tool is suggested. This tool will be field-tested and revised on the results in the near future.

  • PDF

English-to-Korean Transliteration using Multiple Unbounded Overlapping Phonemes (복수 음운 정보를 이용한 영.한 음차 표기)

  • Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.50-54
    • /
    • 1999
  • 본 연구에서는 기존의 한정된 길이의 영어 또는 한글의 발음 단위를 이용하던 자동 음차 표기 방식과 달리, 학습 데이터에서 추출한 임의 길이의 음운 패턴을 사용하는 방법을 제안한다. 통계적 정보에 기반하여 추출한 음차 표기 패턴과 외래어 표기 규칙에 기반하여 기술한 음차 표기 패턴을 위치와 길이에 관계없이 사용하여 주어진 영어 단어의 한글 음차 표기를 얻어낸다. 제안하는 방법은 먼저 주어진 영어 단어의 가능한 모든 발음 단위를 기준으로 한글 표기 네트워크를 만든 후, 학습 데이터에서 추출한 음운 패턴을 교차 적용시켜 네트워크 각 노드의 가중치를 결정한다. 가중치가 결정된 네트워크에서 가중치의 합이 가장 좋은 경로를 찾아냄으로 해서 음차 표기를 수행한다. 본 연구에서 제안하는 방법으로 실험을 한 결과 자소 단위 86.5%, 단어 단위 55.3%의 정확률을 얻을 수 있었다.

  • PDF

A study on automation of AV(Atomic Vulnerability) ID assignment (단위 취약점 식별자 부여 자동화에 대한 연구)

  • Kim, Hyung-Jong
    • Journal of Internet Computing and Services
    • /
    • v.9 no.6
    • /
    • pp.49-62
    • /
    • 2008
  • AV (Atomic Vulnerability) is a conceptual definition representing a vulnerability in a systematic way, AVs are defined with respect to its type, location, and result. It is important information for meaning based vulnerability analysis method. Therefore the existing vulnerability can be expressed using multiple AVs, CVE (common vulnerability exposures) which is the most well-known vulnerability information describes the vulnerability exploiting mechanism using natural language. Therefore, for the AV-based analysis, it is necessary to search specific keyword from CVE's description and classify it using keyword and determination method. This paper introduces software design and implementation result, which can be used for atomic vulnerability analysis. The contribution of this work is in design and implementation of software which converts informal vulnerability description into formal AV based vulnerability definition.

  • PDF

Generate Korean image captions using LSTM (LSTM을 이용한 한국어 이미지 캡션 생성)

  • Park, Seong-Jae;Cha, Jeong-Won
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

Data accessibility control for Workflow System using HTML document (워크플로우 시스템에서 HTML 문서를 이용한 데이터 접근성의 조정)

  • 김홍숙;한동수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.273-275
    • /
    • 1998
  • 기존의 워크플로우 시스템의 단위 업무간의 흐름 조정이 제어의 흐름에 중점을 두고 연구되었으나 실제 단위 업무간에 흐름 조정 시에 데이터도 같이 흘러가므로 이에 대한 연구가 필요하다. 본 논문에서는 워크플로우 시스템에서 단위 업무간의 흐름 조정 시에 제어의 흐름에 따라 데이터에 대한 접근성을 HTML문서를 이용하여 표현하는 방법을 제안한다. 단위 업무간의 흐름 조정의 형태에 따른 데이터의 접근성에 대한 요구사항을 고찰하고 이를 제안된 데이터 접근성 표현 방법을 사용하여 구현하는 방법에 대하여 제시한다.

  • PDF

Enhancing Korean Alphabet Unit Speech Recognition with Neural Network-Based Alphabet Merging Methodology (한국어 자모단위 음성인식 결과 후보정을 위한 신경망 기반 자모 병합 방법론)

  • Solee Im;Wonjun Lee;Gary Geunbae Lee;Yunsu Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.659-663
    • /
    • 2023
  • 이 논문은 한국어 음성인식 성능을 개선하고자 기존 음성인식 과정을 자모단위 음성인식 모델과 신경망 기반 자모 병합 모델 총 두 단계로 구성하였다. 한국어는 조합어 특성상 음성 인식에 필요한 음절 단위가 약 2900자에 이른다. 이는 학습 데이터셋에 자주 등장하지 않는 음절에 대해서 음성인식 성능을 저하시키고, 학습 비용을 높이는 단점이 있다. 이를 개선하고자 음절 단위의 인식이 아닌 51가지 자모 단위(ㄱ-ㅎ, ㅏ-ㅞ)의 음성인식을 수행한 후 자모 단위 인식 결과를 음절단위의 한글로 병합하는 과정을 수행할 수 있다[1]. 자모단위 인식결과는 초성, 중성, 종성을 고려하면 규칙 기반의 병합이 가능하다. 하지만 음성인식 결과에 잘못인식된 자모가 포함되어 있다면 최종 병합 결과에 오류를 생성하고 만다. 이를 해결하고자 신경망 기반의 자모 병합 모델을 제시한다. 자모 병합 모델은 분리되어 있는 자모단위의 입력을 완성된 한글 문장으로 변환하는 작업을 수행하고, 이 과정에서 음성인식 결과로 잘못인식된 자모에 대해서도 올바른 한글 문장으로 변환하는 오류 수정이 가능하다. 본 연구는 한국어 음성인식 말뭉치 KsponSpeech를 활용하여 실험을 진행하였고, 음성인식 모델로 Wav2Vec2.0 모델을 활용하였다. 기존 규칙 기반의 자모 병합 방법에 비해 제시하는 자모 병합 모델이 상대적 음절단위오류율(Character Error Rate, CER) 17.2% 와 단어단위오류율(Word Error Rate, WER) 13.1% 향상을 확인할 수 있었다.

  • PDF

Comparing Byte Pair Encoding Methods for Korean (음절 단위 및 자모 단위의 Byte Pair Encoding 비교 연구)

  • Lee, Chanhee;Lee, Dongyub;Hur, YunA;Yang, Kisu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.291-295
    • /
    • 2018
  • 한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다.

  • PDF