• 제목/요약/키워드: 어휘모델

검색결과 304건 처리시간 0.03초

격틀 사전과 하위 범주 정보를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling Using Case Frame Dictionary and Subcategorization)

  • 김완수;옥철영
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1376-1384
    • /
    • 2016
  • 기계가 사람과 같이 문장을 처리하게 하려면 사람이 쓴 문장을 토대로 사람이 문장을 통해 발현하는 모든 문장의 표현 양상을 학습해 사람처럼 분석하고 처리할 수 있어야 한다. 이를 위해 기본적으로 처리되어야 할 부분은 언어학적인 정보처리이다. 언어학에서 통사론적으로 문장을 분석할 때 필요한 것이 문장을 성분별로 나눌 수 있고, 문장의 핵심인 용언을 중심으로 필수 논항을 찾아 해당 논항이 용언과 어떤 의미역 관계를 맺고 있는지를 파악할 수 있어야 한다. 본 연구에서는 국립국어원 표준국어대사전을 기반으로 구축한 격틀사전과 한국어 어휘 의미망에서 용언의 하위 범주를 자질로 구축한 CRF 모델을 적용하여 의미역을 결정하는 방법을 사용하였다. 문장의 어절, 용언, 격틀사전, 단어의 상위어 정보를 자질로 구축한 CRF 모델을 기반으로 하여 의미역을 자동으로 태깅하는 실험을 한 결과 정확률이 83.13%로 기존의 규칙 기반 방법을 사용한 의미역 태깅 결과의 정확률 81.2%보다 높은 성능을 보였다.

인식 단위로서의 한국어 음절에 대한 연구 (A Study on the Korean Syllable As Recognition Unit)

  • 김유진;김회린;정재호
    • 한국음향학회지
    • /
    • 제16권3호
    • /
    • pp.64-72
    • /
    • 1997
  • 본 논문에서는 한국어 대용량 어휘 인식 시스템에 적합한 인식 단위에 대하여 연구 및 실험하였다. 특히 현재 인식 시스템의 인식 단위로 주로 사용되는 음소와 한국어의 특징을 잘 나타내는 음절을 선택하고, 인식 실험을 통해 음절이 한국어 인식 시스템의 인식 단위로서 적합한가를 음소와 비교하였다. 객관적인 비교 인식 실험 결과를 제시하기 위하여 동일한 남성 화자의 음성 데이터를 수집하고, 수작업 음소 경계 및 레이블링 과정을 거친 음성 데이터 베이스를 구축하였다. 또한 각 인식 단위에 동일한 HMM 기반의 훈련 및 인식 알고리즘을 적용하기 위해 Entropic사의 HTK (HMM Tool Kit) 2.0을 사용하였다. 각 인식 단위의 훈련을 위해 5상태 3출력, 8상태 6출력 HMM 모델의 연속 HMM (Continuous HMM)을 적용하였고, PBW 3회분, POW 1회분을 훈련에 사용하고 PBW 1회분을 각 인식 단위로서 인식하는 화자 종속 단어 인식 실험을 구성하였다. 실험 결과 8상태 6출력 모델을 사용한 경우 음소 단위는 95.65%, 음절 단위는 94.41%의 인식률을 나타내었다. 한편 인식 속도에서는 음절이 음소보다 약 25% 빠른 것으로 나타났다.

  • PDF

전자장비 고장진단 질의응답을 위한 인과관계 정의 및 추출 (Definition and Extraction of Causal Relations for Question-Answering on Fault-Diagnosis of Electronic Devices)

  • 이신목;신지애
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권5호
    • /
    • pp.335-346
    • /
    • 2008
  • 온톨로지의 인과관계는 특정 응용을 위한 추론에서 중요한 역할을 하므로, 인과관계는 응용에서 쓰이는 추론의 형태에 근거하여 정의되어야 한다. 본 논문에서는, 전자장비의 고장진단 질의응답을 위한 온톨로지에서의 인과관계를 정의하고 추출하는 모델을 제시한다. 질의응답의 패턴을 분석하여 인과범주를 정의하고, 질의응답에서 나타나는 개념들 사이의 관계들 중 인과범주에 속하는 경우를 인과관계로 정의한다. 인과관계 인스턴스는 응용분야의 정의문으로부터 어휘 패턴을 이용하여 추출되고 시소러스 정보를 이용하여 점진적으로 확장된다. 분야 전문가들의 평가 결과, 본 모델은 관계분류에 있어서 92.3%의 평균 정확률과 추출 단계의 인과관계 인식에 있어서 80.7%의 정확률을 보인다.

증강현실 기반의 키즈 콘텐츠 제작을 위한 관찰 조작형 모델의 설계 및 구현 (Design and Implementation of Observation Manipulation Model for Creating Kids Contents Based on Augmented Reality)

  • 오암석
    • 한국정보통신학회논문지
    • /
    • 제25권3호
    • /
    • pp.339-345
    • /
    • 2021
  • 코로나19로 인해 온라인 교육이 발달하면서 교육에 AI, AR/VR등의 신기술을 결합한 에듀테크 시장이 급격히 성장하고 있다. 또한, 1가구 1자녀 가정이 늘면서 자녀에 대한 투자가 집중됨에 따라 매년 출산율이 줄어듦에도 불구하고 키즈 산업은 꾸준히 성장 중이다. 그러나 늘어나는 수요에 비해 에듀테크 시장의 콘텐츠 공급은 더딘 편이다. 이에 본 논문에서는 AR 기술을 이용하여 편의성, 실용성, 효율성을 갖춘 AR 키즈 콘텐츠를 개발하고 지원함으로써 이러한 문제를 해결 하는데 도움을 주는 것을 목적으로 한다. 유아 어휘 학습 지원용 AR 콘텐츠는 단순히 보고 듣는 것이 끝이 아니라, 콘텐츠를 직접 조작해볼 수 있는 관찰 조작형 모델이라 유아의 흥미를 유발하고 아동의 단어학습에 도움을 준다. 본 논문은 본격적인 언어발달이 나타나는 생후 15개월 이상 36개월 이하의 유아를 대상으로 한다.

의료서비스를 위한 키워드와 문서의 연관성 향상을 위한 LSTM모델 설계 (LSTM Model Design to Improve the Association of Keywords and Documents for Healthcare Services)

  • 김준겸;서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.75-77
    • /
    • 2021
  • 현재 다양한 검색엔진들이 사용되고 있다. 검색엔진은 메타태그 정보를 기본으로 크롤링, 색인생성, 검색 결과 출력의 3단계를 거치며, 사용자가 원하는 자료의 검색을 도와준다. 그러나 키워드를 기반으로 검색해서 얻은 방대한 문서가 관련이 없거나 적은 문서일 경우도 많다. 이러한 문제점 때문에 검색 결과에서 내용을 파악하여 정확도를 분류를 해야 하는 번거로운 일이 발생하게 된다. 다양한 검색엔진을 통해 추출된 결과의 경우 검색엔진의 인덱스는 주기적으로 업데이트 되지만 가중치에 대한 기준과 업데이트 주기는 검색엔진마다 다르고 검색 순위 산정 기준이 서로 다르기 때문에 동일한 키워드를 검색어로 입력하고도 서로 다른 검색 순위를 보여주는 단점을 가지고 있다 따라서 본 논문에서는 기존 검색엔진 대신 사용자가 입력한 키워드와 문서의 연관성을 추출하여 사용자가 찾고자 하는 키워드를 입력했을 때 키워드와 문서의 연관성을 향상 시킬 수 있는 LSTM모델을 설계하고자 한다.

  • PDF

URL 주요특징을 고려한 악성URL 머신러닝 탐지모델 개발 (Development of a Malicious URL Machine Learning Detection Model Reflecting the Main Feature of URLs)

  • 김영준;이재우
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1786-1793
    • /
    • 2022
  • 최근 코로나 19, 정치적 상황 등 사회적 현안을 악용한 스미싱, 해킹메일 공격이 지속되고 있다. 공격의 대부분은 악성 URL 접근을 유도하여 개인정보를 탈취하는 방식을 취하고 있는데, 이를 대비하기 위해 현재 머신러닝, 딥러닝 기술 연구가 활발하게 진행되고 있다. 하지만 기존 연구에서는 데이터 세트의 특징들이 단순하기 때문에 악성으로 판별할 근거가 부족하다고 판단하였다. 본 논문에서는 URL 데이터 분석을 통해 기존 연구에 반영된 URL 어휘적인 특징 이외에도 "URL Days", "URL Words", "URL Abnormal" 3종, 9개 주요특징을 추가 제안하였고, 4개의 머신러닝 알고리즘 적용을 통해 F1-Score, 정확도 지표로 측정하였다. 기존 연구와 비교 분석 시 평균 0.9%가 향상된 결과 값과 F1-Score, 정확도에서 최고 98.5%가 측정됨에 따라 주요특징이 정확도 및 성능 향상에 기여하였다.

대화문 재구조화를 통한 한국어 대화문 요약 (Summarization of Korean Dialogues through Dialogue Restructuring)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.77-85
    • /
    • 2023
  • COVID-19 이후 온라인을 통한 소통이 증가하여 다양한 플랫폼을 기반으로 소통을 위한 대화 텍스트 데이터가 대량으로 축적되고 있다. 텍스트 데이터로부터 유의미한 정보를 추출하기 위한 텍스트 요약에 대한 중요성이 더욱 증가함에 따라 딥러닝을 활용한 추상 요약 연구가 활발하게 이루어지고 있다. 그러나 대화 데이터는 뉴스 기사와 같은 정형화된 텍스트에 비해 누락 및 변형이 많아 대화 상황을 다양한 관점에서 고려해야 하는 특이성이 있다. 특히 어휘 생략과 동시에 내용과 관련 없는 표현 요소들이 대화의 내용을 요약하는 데 방해가 된다. 그러므로 본 연구에서는 한국어 대화 데이터의 특성을 고려하여 발화문을 재구조화하고 KoBART 기반의 사전학습된 텍스트 요약 모델을 파인 튜닝후, 요약문에서 중복 요소를 제거하는 정제 작업을 통해 대화 데이터 요약 성능을 향상시키고자 한다. 발화문을 재구조화하는 방법으로는 발화 순서에 따라 재구조화는 방법과 중심 발화자를 기준으로 재구조화하는 방법을 결합하였다. 대화문 재구조화 방법을 적용한 결과, Rouge-1 점수가 4 정도 향상되었다. 본 연구의 대화 특성을 고려한 재구조화 방법이 한국어 대화 요약 성능 향상에 유의미함을 입증하였다.

클래스 종속 반연속 HMM을 이용한 립싱크 시스템 최적화 (Lip-Synch System Optimization Using Class Dependent SCHMM)

  • 이성희;박준호;고한석
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.312-318
    • /
    • 2006
  • 기존의 립싱크 시스템은 음소 분할 후, 각각의 음소를 인식하는 2단계의 과정을 거쳤다. 하지만, 정확한 음소 분할의 부재와 음성이 끊긴 분할 된 음소로 이루어진 훈련 데이터들은 시스템의 전체 성능을 크게 떨어뜨렸다. 이런 문제를 해결하기 위해 Head-Body-Tail (HBT) 모델을 이용한 단모음 연속어 인식 기술을 제안한다. 주로 소규모 어휘를 다루는데 적합한 HBT 모델은 Head 와 Tail 부분에 문맥 종속 정보를 포함하여 앞 뒤 문맥에 따른 조음효과를 최대한 반영한다. 또한, 7개의 단모음을 입모양이 비슷한 세 개의 클래스로 분류하여, 클래스에 종속적인 코드북 3개를 가진 반연속HMM (Hidden Markov Model)을 적용하여 시스템을 최적화하고, 변이 부분이 큰 단어의 처음과 끝은 연속HMM의 8 믹스쳐 가우시안 구조를 사용하여 모델링하였다. 제안한 방법은 HBT구조의 연속HW과 대등한 성능을 보이지만, 파라미터 수는 33.92% 감소하였다. 파라미터 감소는 계산 양을 줄여주므로, 시스템이 실시간으로 동작 가능하게 한다.

한국어 학습 모델별 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (Comparison of Korean Classification Models' Korean Essay Score Range Prediction Performance)

  • 조희련;임현열;이유미;차준우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.133-140
    • /
    • 2022
  • 우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준('직업'), 행복한 삶의 조건('행복'), 돈과 행복('경제'), 성공의 정의('성공')로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의 점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 '직업' 답안지 점수 구간(평어) 예측 실험, 5개의 '행복' 답안지 점수 구간 예측 실험, 1개의 혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한 훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과 딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로 가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은 각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의 어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

섬유컬러 그루핑 체계에 관한 연구 (A Study on the Color Grouping System to Fashion)

  • 이재정;정재우
    • 디자인학연구
    • /
    • 제17권3호
    • /
    • pp.27-38
    • /
    • 2004
  • 디자이너의 감성적$.$직관적 의사결정을 객관적으로 지원할 수 있는 컬러 코디네이션 지원 모델과 도구를 개발하기 위한 전 단계로 디자이너의 색채 사고 과정에 있어서의 효율성을 도모하고 상호간의 색채 커뮤니케이션을 도울 수 있는 컬러 그루핑 체계를 마련하였다. 이에 관한 연구의 결과를 요약하면 다음과 같다. 디자이너들의 색채 업무 효율을 높이고 디자이너간의 커뮤니케이션을 도울 수 있는 컬러 그룹의 제정과 각 그룹별 대표어휘의 필요성을 제기하여 이에 대한 대안을 제시하였다. 그루핑 방법은 고바야시와 히데끼 치지와, 그리고 엘리스 웨스트게이트와 마사 질의 이론을 참고하여 4개의 컬러 그룹으로 나누었으며 분류 방향은 색조별(톤별) 색채체계에 의한 분류가 정량적 표준 색표에 의한 분류보다 디자이너의 감성을 표현하는데 유리하다는 전제하에 섬유 색채의 특수성을 반영하여 색조별(톤별) 색채 체계를 근간으로 하였다. 각 그룹별 대표 어휘는 브라이트 , 파스텔 , 딥 , 뉴트럴로 추출$.$정의하였다. 각 그룹별 색조 개념에 대한 정의는 다음과 같다. 브라이트(Bright) - 순도 높은 기본 색상군 파스텔(Pastel) - 기본 색상 군에 화이트가 혼합된 색상군 딥(Deep) - 기본 색상 군에 블랙과 회색이 혼합된 색상군 뉴트럴(Neutral)- 기본 색상군의 성격이 드러나지 않는 중도색. 분류된 각 그룹의 추정 색상은 정시화의 색채시계와 색채 삼각형에 배치하여 색채 지각 공간에서의 분포 개념을 시각화함으로서 각 그룹별 영역 관계를 검증하였다. 4개의 대그룹으로 나누어진 색채군은 후속 연구에서 이루어질 선호 색채 수집 상황에 따라 몇 개의 소단위로 나누어지게 되며 각 소그룹의 색채군은 각 단위별로 배색 스토리를 전개할 수 있다. 또한 그룹과 그룹간의 크로스 오버 코디네이션이 가능해 짐에 따라 디자이너들은 이제까지의 개별 색상 조합의 색채 사유 패턴에서 벗어나 그룹별 색채 사유가 가능해짐으로서 디자이너들의 색채 사유 패턴의 혁신을 도모할 수 있다.

  • PDF