• 제목/요약/키워드: 자소

검색결과 184건 처리시간 0.025초

클래스 임베딩과 주의 집중 순환 신경망을 이용한 자주 묻는 질문의 자동 분류 (Automatic Classification of Frequently Asked Questions Using Class Embedding and Attentive Recurrent Neural Network)

  • 장영진;김학수;김세빈;강동호;장현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.367-370
    • /
    • 2018
  • 웹 또는 모바일 사용자는 고객 센터에 구축된 자주 묻는 질문을 이용하여 원하는 서비스를 제공받는다. 그러나 자주 묻는 질문은 사용자가 직접 핵심어를 입력하여 검색된 결과 중 필요한 정보를 찾아야 하는 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 사용자 질의를 입력 받아 질의에 해당하는 클래스를 분류해주는 문장 분류 모델을 제안한다. 제안모델은 웹이나 모바일 환경의 오타나 맞춤법 오류에 대한 강건함을 위해 자소 단위 합성곱 신경망을 사용한다. 그리고 기계 번역 이외에도 자연어 처리 부분에서 큰 성능 향상을 보여주는 주의 집중 방법과 클래스 임베딩을 이용한 문장 분류 시스템을 사용한다. 457개의 클래스 분류와 769개의 클래스 분류에 대한 실험 결과 Micro F1 점수 기준 81.32%, 61.11%의 성능을 보였다.

  • PDF

자소자의 아미노산 및 지방산 조성 (Amino Acid and Fatty Acid Compositions of Perillae semen)

  • 권용주;김충기;김용재
    • 한국식품영양과학회지
    • /
    • 제27권3호
    • /
    • pp.381-385
    • /
    • 1998
  • Chemical components of Perillar semen and physico-chemical properties o Perillae semen oil were analyzed for the use as an edible oil. The proximate compositions of Perillae semen were 7.5% moisture, 33.2% crude fat, 16.3% crude protein, 2.8% crude ash, 6.5% crude fiber, and 33.7% nitrogen free extract. The major amino acids of Perillae semen were glutamic acid(66.9mg%), aspartic acid (32.5mg%), histidine(21.6mg%), and phenylaanine (20.1mg%). The ratio of essential/total amino acid was 41.3%. The physico-chemical properties of the seed oil were 0.915 specific gravity, 1.4808 refractive index, 3.6 acid value, 181.7 iodine value, and 194.0 saponification value. Composition of major lipid of the oil fractionated by silicic acid chromatography was 94.2% neutral lipids and 5.8% polar lioids. The major fatty acids of the oil were linolenic, linoleic and oleic acid. Neutral lipids consisted of 59.9% linolenic acid, 15.6% oleic acid, 6.6% palmitic acid, and 2.5% stearic acid. Polar lipids consisted of 58.5% linolenic acid, 18.1% linoleic acid, 12.7% oleic acid, 7.7% palmitic acid, and 3.0% stearic acid.

  • PDF

추출용매에 따른 자소 색소의 염색성 및 기능성 (Characteristics and Dyeability of Perilla Frutescens L. Britt Extracts with Different Solvents)

  • 왕천문;이정순
    • 한국염색가공학회지
    • /
    • 제28권3호
    • /
    • pp.195-207
    • /
    • 2016
  • In this study, we examined the influence of the pigment characteristic and dyeing condition on dyeing properties and functionality by using Perilla Frutescens L. Britt extracts, in which ethanol, distilled water and NaOH solution were used as 3 different solvents. Changes in dyeing conditions include variations in dye concentration, dyeing temperature, time and pH on dye uptake, and K/S values were compared according to these changes. Additionally, color changes were observed according to the use and types of mordant. Ultraviolet-visible spectrum was utilized to investigate the pigment characteristic, and as a result, chlorophyll was identified in ethanol extract, whereas tannin was identified both in distilled water extract and NaOH solution extract. By using FT-IR analysis, these tannins in distilled-water-extract and NaOH solution extract were verified to be hydrolyzable tannin. When dyeing silk, dye uptake increased as dye concentration, dyeing temperature and time increased, while it decreased as pH of the extract increased. Fabrics dyed without a mordant produced Y-series colors, and fabrics dyed with mordants showed various colors depending on the mordant types. Even though color fastness to washing and light was unsatisfactory, fastness to rubbing and perspiration showed relatively high grade. Moreover, deodorant ability of dyed fabric improved.

형태정보를 이용한 대역어 군집화 및 적합대역어 선정 (Translation Clustering and Adequate Translation Selection by Surface Form)

  • 구희관;정한민;이미경;성원경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.532-534
    • /
    • 2005
  • 본 논문은 자동적인 언어기반자원구축을 위해 신문 말뭉치에서 괄호를 이용하여 추출한 대역어쌍들을 군집화하고 각 군집에서 적합대역어를 선정하는 방법을 제안한다. 기존 연구에서 주로 제시된 음차표기어 대역쌍 추출 방법은 완전한 형태의 영어원어 자소 정보를 이용하기 때문에 약어는 고려대상에서 제외되었다. 그러나 약어형태의 영어원어가 신문에서는 약 $82\%$를 차지하기 때문에 이를 처리할 방법이 필요하다. 따라서 본 논문에서는 바이그램을 기본으로 하는 형태정보를 이용하여 적합대역어를 선정하고 이와 형태정보를 공유하는 한국어대역어쌍들을 군집화한다. 또한, 음차표기어와 두문자어에 대한 처리를 추가하여 적용범위를 넓힌다. 실험을 위하여 신문말뭉치에서 추출한 대역어쌍 1,806개 중 영어원어를 기준으로 한국어대역어의 수가 5개 이상인 대역어쌍 집합 200개를 선정하였다. 본 논문에서 제시한 방법으로 측정한 결과, 대역어 군집화에 대해서는 $74\%$의 정확율과 $65\%$의 재현율을, 적합대역어 선정에 대해서는 $97\%$의 정확율을 보였다.

  • PDF

접촉점에서의 국소 그래프 패턴에 의한 필기체 한글의 자소분리에 관한 연구 (A Study on the Phoneme Segmentation of Handwritten Korean Characters by Local Graph Patterns on Contacting Points)

  • 최필웅;이기영;구하성;고형화
    • 전자공학회논문지B
    • /
    • 제30B권4호
    • /
    • pp.1-10
    • /
    • 1993
  • In this paper, a new method of phoneme segmentation of handwritten Korean characters using the local graph pattern is proposed. At first, thinning was performed before extracting features. End-point, inflexion-point, branch-point and cross-point were extracted as features. Using these features and the angular relations between these features, local graph pattern was made. When local graph pattern is made, the of strokes is investigated on contacting point. From this process, pattern is simplified as contacting pattern of the basic form and the contacting form we must take into account can be restricted within fixed region, 4therefore phoneme segmentation not influenced by characters form and any other contact in a single character is performed as matching this local graph pattern with base patterns searched ahead. This experiments with 540 characters have been conducted. From the result of this experiment, it is shown that phoneme segmentation is independent of characters form and other contact in a single character to obtain a correct segmentation rate of 95%, manages it efficiently to reduce the time spent in lock operation when the lock.

  • PDF

중첩윤곽 형상에 의한 한글패턴의 정점검출 (A Vertex-Detecting of Hanguel Patterns Using Nested Contour Shape)

  • 고찬;이대영
    • 한국통신학회논문지
    • /
    • 제15권2호
    • /
    • pp.112-123
    • /
    • 1990
  • 본 논문은 한글 문자인식을 위하여 중첩형상데이타에 의한 한글 패턴의 굴곡 특징점과 정점검출에 관하여 논한 것이다. 입력된 2진 문자패턴을 거리변환법에 의한 중첩데이타로 변환하고, 데이터의 특성분석에 의한 변환값의 새로운 파일로 구성하였다. 이 두 데이터 파일로 한글 인식에 유용한 정점들을 검출하는 알고리즘을 제안하였다. 이 알고리즘에서는 오인식의 원인이 되는 돌기부분의 제거, 자소 접촉 부분의 분리, 굴곡 특징 변환값에 따른 코드를 부여하도록 하였따. 여기서의 출력은 한글 문자인식에 활용될 수 있는 형태로 하였다.

  • PDF

BIT 표기법을 활용한 한국어 개체명 인식 (Korean Named Entity Recognition Using BIT Representation)

  • 윤호;김창현;천민아;박호민;남궁영;최민석;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.190-194
    • /
    • 2019
  • 개체명 인식이란 주어진 문서에서 개체명의 범위를 찾고 개체명을 분류하는 것이다. 최근 많은 연구는 신경망 모델을 이용하며 하나 이상의 단어로 구성된 개체명을 BIO 표기법으로 표현한다. BIO 표기법은 개체명이 시작되는 단어의 표지에 B(Beginning)-를 붙이고, 개체명에 포함된 그 외의 단어의 표지에는 I(Inside)-를 붙이며, 개체명과 개체명 사이의 모든 단어의 표지를 O로 간주하는 방법이다. BIO 표기법으로 표현된 말뭉치는 O 표지가 90% 이상을 차지하므로 O 표지에 대한 혼잡도가 높아지는 문제와 불균형 학습 문제가 발생된다. 본 논문에서는 BIO 표기법 대신에 BIT 표기법을 제안한다. BIT 표기법이란 BIO 표기법에서 O 표지를 T(Tag) 표지로 변환하는 방법이며 본 논문에서 T 표지는 품사 표지를 나타낸다. 실험을 통해서 BIT 표기법이 거의 모든 경우에 성능이 향상됨을 확인할 수 있었다.

  • PDF

한글 모음의 구조적 특징을 이용한 문자영역 검출 기법 (Character Region Detection Using Structural Features of Hangul Vowel)

  • 박종천;이근왕;박형근
    • 한국산학기술학회논문지
    • /
    • 제13권2호
    • /
    • pp.872-877
    • /
    • 2012
  • 본 논문은 한글 모음의 구조적 특징을 이용하여 자연영상에 포함된 한글 문자영역을 검출하는 기법을 제안하였다. 자연 영상을 명도영상으로 변환하고 에지 및 연결요소 기반 방법으로 특징값을 추출하며, 추출된 특징값은 필터링을 수행하여 한글 문자의 특징에 맞지 않는 특징값을 제거하여 한글 문자영역 병합을 위한 후보를 선정한다. 선정된 후보 특징값은 한글 자소 병합 알고리즘으로 하나의 문자로 병합하여 후보 문자영역으로 검출하고, 한글 문자 유형 판별 알고리즘으로 한글 문자영역 여부를 판별함으로서 최종적인 한글 문자영역을 검출한다. 실험결과, 복잡한 배경을 갖고 다양한 환경에서 촬영된 영상에서 한글 문자영역을 효과적으로 검출하였고, 제안한 문자영역 검출 방법은 향상된 검출 결과를 보여 주었다.

반 전역 정렬을 이용한 온라인 게임 변형 욕설 필터링 시스템 (The Online Game Coined Profanity Filtering System by using Semi-Global Alignment)

  • 윤태진;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.113-120
    • /
    • 2009
  • 온라인 게임에서의 언어폭력 문제는 매우 심각하지만 그에 대한 효과적인 정책이나 기술적인 방법은 부족한 상황이다. 온라인 게임 서비스 업체에서는 금칙어 리스트를 작성하여 Swear Filter를 이용한 고정된 형식의 문자열 검색 방식을 통해 문제를 해결하려고 하고 있으나 사용자들은 다양한 방법으로 욕설을 조합 또는 변형시켜 기존의 필터링을 회피하고 있다. 특히 한글은 욕설의 변형이 매우 쉬운 특성을 가지고 있다. 본 논문에는 한글에 기초한 변형 욕설을 효율적으로 탐색하여 걸러내는 알고리즘을 제시한다. 이 알고리즘의 주된 특징은 변형 욕설의 표준형 변환과 자소단위의 반 전체 정렬(semi-global alignment), 이다. 실험 결과 저자들이 다양한 인터넷 게임 환경에서 직접 수집한 다종의 욕설 단어들에 대하여 약 90%의 우수한 필터링 성능을 보였다.

온라인 한글자소 인식시스템의 구성에 관한 연구 (A Study on On-line Recognition System of Korean Characters)

  • 최석;김길중;허만탁;이종혁;남기곤;윤태훈;김재창;이양성
    • 전자공학회논문지B
    • /
    • 제30B권9호
    • /
    • pp.94-105
    • /
    • 1993
  • In this paper propose a Koaren character recognition system using a neural network is proposed. This system is a multilayer neural network based on the masking field model which consists of a input layer, four feature extraction layers which extracts type, direction, stroke, and connection features, and an output layer which gives us recognized character codes. First, 4x4 subpatterns of an NxN character pattern stored in the input buffer are applied into the feature extraction layers sequentially. Then, each of feature extraction layers extracts sequentially features such as type, direction, stroke, and connection, respectively. Type features for direction and connection are extracted by the type feature extraction layer, direction features for stroke by the direction feature extraction layer and stroke and connection features for stroke by the direction feature extraction layer and stroke and connection features for the recongnition of character by the stroke and the connection feature extractions layers, respectively. The stroke and connection features are saved in the sequential buffer layer sequentially and using these features the characters are recognized in the output layer. The recognition results of this system by tests with 8 single consonants and 6 single vowels are promising.

  • PDF