• 제목/요약/키워드: Unknown Words

검색결과 69건 처리시간 0.027초

Improving Abstractive Summarization by Training Masked Out-of-Vocabulary Words

  • Lee, Tae-Seok;Lee, Hyun-Young;Kang, Seung-Shik
    • Journal of Information Processing Systems
    • /
    • 제18권3호
    • /
    • pp.344-358
    • /
    • 2022
  • Text summarization is the task of producing a shorter version of a long document while accurately preserving the main contents of the original text. Abstractive summarization generates novel words and phrases using a language generation method through text transformation and prior-embedded word information. However, newly coined words or out-of-vocabulary words decrease the performance of automatic summarization because they are not pre-trained in the machine learning process. In this study, we demonstrated an improvement in summarization quality through the contextualized embedding of BERT with out-of-vocabulary masking. In addition, explicitly providing precise pointing and an optional copy instruction along with BERT embedding, we achieved an increased accuracy than the baseline model. The recall-based word-generation metric ROUGE-1 score was 55.11 and the word-order-based ROUGE-L score was 39.65.

정렬기법을 이용한 미등록 대역어의 자동 추출 (Automatically Extracting Unknown Translations Using Phrase Alignment)

  • 김재훈;양성일
    • 정보처리학회논문지B
    • /
    • 제14B권3호
    • /
    • pp.231-240
    • /
    • 2007
  • 이 논문은 정렬 기법을 이용한 미등록 대역어 추출 모델을 제안하고 그 추출 시스템을 구현한다. 제안된 미등록 대역어 추출 모델은 일종의 구절정렬 모델로서 경계모델과 언어모델 그리고 번역 모델로 구성된다. 제안된 추출 시스템은 병렬말뭉치 구축, 단어정렬, 미등록어 추출로 구성된다. 이 논문에서는 제안된 시스템을 평가하기 위해서 약 1,500여 개의 미등록어가 포함된 2,200문장의 평가말뭉치를 구축하여 다양한 실험을 수행하였다. 실험을 통해서 제안된 모델이 미등록 대역어 추출에 매우 유용함을 알 수 있었다. 앞으로 좀 더 객관적인 평가를 위해 대량의 평가말뭉치 구축이 선행되어야 하며 좀 더 양질의 병렬말뭉치의 구축이 필요할 것이다. 또한 미등록어 추출 모델을 개선하기 다양한 연구가 추진되어야 할 것이다.

A Methodology for Urdu Word Segmentation using Ligature and Word Probabilities

  • Khan, Yunus;Nagar, Chetan;Kaushal, Devendra S.
    • International Journal of Ocean System Engineering
    • /
    • 제2권1호
    • /
    • pp.24-31
    • /
    • 2012
  • This paper introduce a technique for Word segmentation for the handwritten recognition of Urdu script. Word segmentation or word tokenization is a primary technique for understanding the sentences written in Urdu language. Several techniques are available for word segmentation in other languages but not much work has been done for word segmentation of Urdu Optical Character Recognition (OCR) System. A method is proposed for word segmentation in this paper. It finds the boundaries of words in a sequence of ligatures using probabilistic formulas, by utilizing the knowledge of collocation of ligatures and words in the corpus. The word identification rate using this technique is 97.10% with 66.63% unknown words identification rate.

적응형 채도 향상 알고리즘을 이용한 컬러 영상 처리 기법 (The Method of Color Image Processing Using Adaptive Saturation Enhancement Algorithm)

  • 양경옥;윤종호;조화현;최명렬
    • 정보처리학회논문지B
    • /
    • 제14B권3호
    • /
    • pp.145-152
    • /
    • 2007
  • 본 논문에서는 LCD 모니터, LCD TV, PDP TY, OLED TV 등과 같은 평판 디스플레이 장비를 위한 적응형 칼라 영상 향상 알고리즘에 대해서 제안한다. 제안한 알고리즘은 칼라 영상에서 콘트라스트와 채도를 함께 향상 시키는 방법이다. 콘트라스트 향상을 위해서 사용하는 적응형 선형 추정 CDF(Cumulative Density Function) 기법은 콘트라스트 향상 시 밝기에 따른 조정이 가능하여 원 영상의 왜곡을 막아준다. 적응형 채도 향상 알고리즘은 채도 향상의 문제점인 Contour Artifact와 Over-Saturation이 발생하지 않는 범위내에서 제도를 향상시킨다. 또한 원 영상의 색상 분포에 따른 선택적 채도 향상 방법을 사용하여 고품질의 영상을 얻을 수 있다. 제안된 알고리즘에 의한 처리 결과와 원 영상의 화질 평가를 위해서 시각적 검증과 히스토그램 편차를 도입하였다.

디자인 발상 과정에 나타난 어휘와 디자인의 연관성 연구 -아방가르드 패션디자인을 중심으로- (Relationship between Vocabulary and Design in Design Ideation Process -Focusing on Avant-garde Fashion Design-)

  • 김윤경
    • 한국의류학회지
    • /
    • 제45권4호
    • /
    • pp.727-739
    • /
    • 2021
  • The purpose of this study is to present the objective evaluation semantic scale of avant-garde design. Apparel majors were asked to express associative vocabulary, design development, and final design intentions for the avant-garde, and the final 70 copies were used for analysis. The results found the item style was shown often in the order of dress, coat, and combination of shirt and pants. In order, the silhouettes appeared as atypical, complex, square, and triangular; the decorations appeared as feathers, frills, and round sculptures; and the idea method appeared as extreme, association, and removal method. In examining the relations of associative words and idea designs, the dress had relations with associative words such as 'peculiar,' 'futuristic,' 'fancy,' 'Comme des Garcons,' and 'deconstruction.' As for the relationship between the idea design and the expression image vocabulary, it was found that 'one piece' recalled 'huge,' 'volume,' 'abundant,' 'peculiar,' and 'unknown,' while 'coat' recalled 'huge,' 'big silhouette,' and 'padding.' In conducting the word cloud technique, the overall design showed the central keywords were 'huge,' 'big silhouette,' 'unbalance,' 'feather,' 'structural,' 'unknown,' and 'frill,' in order.

19세기 말 20세기 초 질병 어휘와 언어횡단적 실천 (Disease-Related Vocubulary and its translingual practice in Late 19th to Early 20th century)

  • 이은령
    • 사상체질의학회지
    • /
    • 제31권1호
    • /
    • pp.65-78
    • /
    • 2019
  • Objectives This study aims to investigate how the Korean disease-related vocabulary is established or changed when it is translated into French or English. Through this, we examine changes in the meaning of diseases and the ecosystem of disease-related vocabulary in transition period of $19^{th}$ to $20^{th}$ century. Methods Korean disease-related vocabulary are extracted from a total of 148,000 Korean headwords included in our corpus of three bilingual dictionaries. Among them, the scope of analyisis is limited to group of vocabularies that include a high frequency words, disease(病) and symptom(症). Results The first type of change is the emergence of a neologism. In this case, coexistence of existing vocabulary and new words is observed. The second change is the appearance of loan words written in Hangul. The third is the case where the interpretation of meaning is changed while maintaining the word form. Finally, the fourth change is that the orthographic variants are displayed while maintaining the meaning of the existing vocabulary. Discussion Disease-related vocabulary increased greatly between 1897 and 1931. The increasing factor of vocabulary was the emergence of coined words, compound words and the influx of foreign words. The Korean language and the Western language made a new lexical form in order to introduce a new unknown concept to the Korean. We could also confirm that the way in which English word expanded its semantic field by modifying the way of representing the meaning of Korean Disease-related vocabulary.

확장 정의된 유사어절의 분석에 근거한 실시간 미등록어 인식 (Real Time Recognition of Unknown Words based on the Analysis of Similar Words with an Extended Definition)

  • 박봉래;황영숙;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.222-228
    • /
    • 1996
  • 기존의 미등록어 추정 방법은 대부분 단일 어절 접근 방법으로 단일 어절에서 추출할 수 있는 추정 정보가 부족하여 과분석과 오분석의 가능성이 높았다. 그래서 동일 미등록어를 가진 어절들을 동시에 분석하는 유사 어절 접근 방법이 제시되었다. 그러나 이 방법도 유사 어절의 범위를 조사나 어미만 다른 어절로 정의함으로써 수집될 수 있는 유사 어절의 수가 제한되어 대략의 텍스트에서만 적용이 가능하였다. 이에 본 논문은 유사어절을 동일 음절열을 공유하는 어절들로 확장 정의하여 작은 크기 N의 텍스트 윈도우에서 유사 어절의 발견 가능성을 높임으로써 실시간으로 미등록어를 추정할 수 있게 하는 방법을 제시한다. N을 100으로 한 실험결과는 미등록어 추정 정확도가 99.3%였고 재현율은 약 32%였다.

  • PDF

자동 색인을 위한 한국어 형태소 분석기의 실제적인 구현 및 적용 (Practical Development and Application of a Korean Morphological Analyzer for Automatic Indexing)

  • 최성필;서정현;채영숙
    • 정보처리학회논문지B
    • /
    • 제9B권5호
    • /
    • pp.689-700
    • /
    • 2002
  • 본 논문에서는 정보검색 시스템에서 필수적인 자동 색인을 위한 한글 형태소 분석기를 구현하였다. 현존하는 대용량의 데이터에 대한 자동 색인을 효율적으로 수행하기 위해서 새로운 개념이나 아이디어의 도입 및 적용에 초점을 맞추기보다는 기존에 연구되었던 다양한 어절 분석 기법들을 바탕으로 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화에 초점을 맞추었다. 따라서 본 논문에서 개발된 시스템의 특징은 이론적인 측면보다는 소프트웨어 공학적인 측면이 훨씬 더 강조된다 품사 사전의 구조화가 우선적으로 수행되었으며, 이에 따라서 체언 및 용언 분석 모듈, 수사 분석 모듈 둥이 구현되었다. 또한 형태소의 패턴을 이용한 미등록어 분석 기능이 개발되었다. 개발된 전체 시스템은 정보 검색 엔진인 K-2000 시스템의 색인 모듈로 장착되어서 적용되었다.

문장 및 단어 중요도를 통한 한국어 문서 연관 이미지 검색 (Relevant Image Retrieval of Korean Documents based on Sentence and Word Importance)

  • 김남규;강신재
    • 한국산학기술학회논문지
    • /
    • 제20권3호
    • /
    • pp.43-48
    • /
    • 2019
  • 텍스트로만 이루어진 글에서 알지 못하는 단어가 나온다면, 글을 읽는 도중 집중이 되지 않고 내용을 이해함에 있어 어려움이 생긴다. 또한 이미 알고 있는 단어라도 아이들의 경우 경험이 적기 때문에 글에서 상황을 묘사하는 표현이 생소하거나 애매하다면 머릿속에 떠올리기 힘들다. 이에 본 논문에서는 글을 이해를 돕고 독자의 흥미를 증가시키기 위해서 글의 텍스트들을 분석하여 중요하다고 판단되는 내용을 선택하고, 이 내용과 가장 관련 있는 이미지를 웹에서 자동으로 가져와 연결하여 보여주는 시스템을 구현하고자 한다. 시스템의 구현은 글을 문단 단위로 나누어 글을 분석하고, 문단마다 중요한 문장을 선택한 후, 중요한 문장 내에서 이 문장을 가장 잘 표현할 수 있는 중요한 단어들을 선택하여 웹에서 연관 이미지를 검색하고, 검색된 이미지 결과를 이전에 나눈 각 문단마다 연결시켜준다. 실험으로 글에서 중요한 문장을 선택하는 방법과 문장 내 중요한 단어를 선택하는 방법을 제시하였다. 실험한 결과, 선택된 이미지 3개와 해당 중요 문장과의 연관 여부를 정확률로 평가하였을 때 60%의 성능을 얻을 수 있었다.

Unmanned Aerial Vehicle Recovery Using a Simultaneous Localization and Mapping Algorithm without the Aid of Global Positioning System

  • Lee, Chang-Hun;Tahk, Min-Jea
    • International Journal of Aeronautical and Space Sciences
    • /
    • 제11권2호
    • /
    • pp.98-109
    • /
    • 2010
  • This paper deals with a new method of unmanned aerial vehicle (UAV) recovery when a UAV fails to get a global positioning system (GPS) signal at an unprepared site. The proposed method is based on the simultaneous localization and mapping (SLAM) algorithm. It is a process by which a vehicle can build a map of an unknown environment and simultaneously use this map to determine its position. Extensive research on SLAM algorithms proves that the error in the map reaches a lower limit, which is a function of the error that existed when the first observation was made. For this reason, the proposed method can help an inertial navigation system to prevent its error of divergence with regard to the vehicle position. In other words, it is possible that a UAV can navigate with reasonable positional accuracy in an unknown environment without the aid of GPS. This is the main idea of the present paper. Especially, this paper focuses on path planning that maximizes the discussed ability of a SLAM algorithm. In this work, a SLAM algorithm based on extended Kalman filter is used. For simplicity's sake, a blimp-type of UAV model is discussed and three-dimensional pointed-shape landmarks are considered. Finally, the proposed method is evaluated by a number of simulations.