• 제목/요약/키워드: 언어 식별

검색결과 161건 처리시간 0.021초

랭킹 결합에 의한 기술용어 패러프레이즈 추출 (Terminological Paraphrase Extraction with Ranking Combination)

  • 최성필;조민희;정한민;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-180
    • /
    • 2012
  • 기술용어 패러프레이즈 (Terminological Paraphrase, TP)는 학술 문헌 내에서 기술 용어의 개념 및 정의를 다른 형태로 풀어서 알기 쉽게 서술적 문구 (descriptive expression) 를 의미한다. 이러한 TP들에 대한 효율적인 식별과 추출은 학술 정보에 대한 개념적 접근이나 학술 정보 검색의 재현율 향상에 매우 중요하다. 본 논문은 생명 공학 분야의 논문에 나타나는 다양한 형태의 TP들을 효율적으로 추출하기 위한 정보 검색 기반의 추출 방법론을 제시하고 총 여섯 가지의 추출 랭킹 모델을 기반으로 이를 결합함으로써 TP추출의 확장 가능성에 대한 실험적 연구를 수행한다. 실험 결과, 활용된 랭킹 모델이 서로 상호 보완적인 관계에 있음을 알 수 있었으며, 랭킹 결합에 의한 성능 개선 효과를 얻을 수 있었다.

  • PDF

위키피디아 링크 데이터를 이용한 Neural Network Model 기반 한국어 개체명 연결 (Neural Network Model for Named Entitiy Linking using Wikipedia Link Data)

  • 이영훈;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-166
    • /
    • 2018
  • 개체명 연결이란 주어진 문장에 출현한 단어를 위키피디아와 같은 지식 기반 상의 하나의 개체와 연결하여 특정 개체가 무엇인지 식별하여 모호성을 해결하는 작업이다. 본 연구에서는 위키피디아의 링크를 이용하여 개체 표현(Entity mention)과 학습 데이터, 지식 기반을 구축한다. 또한, Mention/Context 쌍의 표현과 Entity 표현의 코사인 유사도를 이용하여 Score를 구하고, 이를 통해 개체명 연결 문제를 랭킹 문제로 변환한다. 개체의 이름과 분류뿐만 아니라 개체의 설명, 개체 임베딩 등의 자질을 이용하여 모델을 확장하고 결과를 비교한다. 확장된 모델의 개체 링킹 성능은 89.63%의 정확도를 보였다.

  • PDF

원-패스 전략을 사용하는 미분절어를 위한 다중-경로 LR 파싱 (Multi-path LR parsing for nonsegmental words using one-pass strategy)

  • 이기오;이응석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.146-154
    • /
    • 1994
  • 한국어는 단어들 사이에 공백이 없는 미분절어이기 때문에, 한국어를 분석하기 위해서는 단어의 경계를 식별하는 분절이 선행되어야 한다. 분절은 쉽지 않은 과정이고 잘못된 분절은 구문분석, 의미 분석 단계에서 심각한 오류를 유발하기 때문에 형태소 분석의 중요한 작업중의 하나가 되어왔다. 기존의 한국어 분석 시스템들은 분절의 어려움으로 인하여 입력 문자열의 끝까지 읽은 후, 우에서 좌로 분석하는 two-pass 전략이나 단어들 사이에 공백을 삽입하여 처리하는 방법을 사용하였다. 또한 이 시스템들은 형태소 분석이 완결된 후, 파서에게 결과를 전달하는 순차적인 전략을 사용하였다. 본 논문은 영어의 분석과 같이 형태소 분석 동안에 파싱을 할 수 있는 one-pass 전략을 사용하여 한국어를 효율적으로 처리하는 모델을 제안한다. 이를 위해 형태소 분석 방법으로써 확장된 최장일치법을 제시하며, 위 방법에서 생성되는 문제점인 다중-범주 구를 처리하기 위하여 다중-경로 LR 파싱을 제시한다.

  • PDF

웹 데이터 마이닝을 위한 정보 추출패턴의 기계학습 (Machine Learning of Information Extract ion Patterns for Web Data Mining)

  • 김동석;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-122
    • /
    • 2001
  • 정보추출 기법을 논의할 때 핵심 역할을 차지하는 것이 추출 패턴(규칙)을 표현하는 종류와 규칙을 만들어 내는 기계학습의 방법이다. 본 논문에서는 mDTD(modified Document Type Definition)라는 새로운 추출패턴을 제안한다. mDTD는 SGML에서 사용되는 DTD를 구문과 해석 방식을 변형하여 일반적인 HTML에서의 정보추출에 활용되도록 설계하였다. 이러한 개념은 DTD가 문서에 나타나는 객체를 지정하는 역할을 하는 것을 역으로 mDTD를 이용하여 문서에 나타는 객체를 식별하는데 사용하는 것이다. mDTD 규칙을 순차기계학습으로 확장시켜서 한국어와 영어로된 인터넷 쇼핑몰 중에서 AV(Audio and Visual product) 도메인에 적용하여 실험하였다 실험 결과로 정보추출의 평균 정확도은 한국어와 영어에 대해서 각각 91.3%와 81.9%를 얻었다.

  • PDF

프리미티브 패턴 나열의 확장에 의한 사람 몸 동작 패턴 분류기의 구현 (Implementation of a Human Body Motion Pattern Classifier using Extensions of Primitive Pattern Sequences)

  • 조경은;조형제
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 추계학술발표논문집
    • /
    • pp.475-478
    • /
    • 2000
  • 사람의 몸 동작을 인식해야하는 여러 응용분야에서의 필요성이 대두되면서 이 분야로의 연구가 활발해지고 있다. 이 논문은 사람의 비언어적 행동을 자동적으로 분석할 수 있는 인식기 개발에 관한 것으로 실세계 3 차원 좌표값을 입력으로 하는 사람 몸 동작 패턴 분류기의 구현방법을 소개한 것이다. 하나의 사람 몸 동작은 각 몸 구성 성분(손, 아래팔, 위팔, 어깨, 머리, 몸통 등)의 움직임을 조합해서 정의한 수가 있기 때문에 개별적인 각 몸 구성성분의 움직임을 인식하여 조합해서 임의의 동작을 판별하려는 방법을 적용한다. 사람 몸 동작 패턴 분류기는 측정된 실세계 3 차원 좌표 자료를 양자화한 후 xy, zy 평면에 투영한 값을 자자 구한다. 이 결과를 각각 8 방향 체인 코드로 바꾸고 2 단계 체인 코드 평활화 사업을 하여, 4 방향 코드 체적화 및 대표 코드로의 압축단계를 거친다. 이로서 생성된 프리미티브 패턴나열들을 동작 클래스별로 분류하여 프리미티브 패턴나열의 확장으로 각각의 식별기를 구축하여 각 몸 구성 성분별 동작들을 분류한다. 일련의 실험이 행해져 그 타당성을 확인하였으며, 차후에 이 분류기는 비언어적 행동 분석을 위한 사람 몸 동작 인식기의 전처리 단계로 사용되어진 것이다.

  • PDF

MathML 수식 분류를 위한 자질 조합 비교 연구 (A Comparative Study on Feature Combination for MathML Formula Classification)

  • 김신일;양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.37-41
    • /
    • 2010
  • 본 논문에서는 Mathematical Markup Language(MathML) 형식으로 작성된 수학식 분류를 위해 필요한 자질과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 이것은 MathML 형식의 수학식을 분석하기 위한 전처리 작업으로, 연산자의 모호성을 해소하기 위한 가장 기본적인 단계에 해당한다고 볼 수 있다. 실험에 사용되는 기본자질(Baseline)은 MathML 태그 정보와 연산자이고, 여기에 다른 자질들을 추가하며 가장 높은 분류 성능을 가지는 자질을 찾는 방식으로 진행하였다. 학습은 지지벡터기기(Support Vector Machine: SVM)를 사용하였고 분류하고자 하는 단원은 '수학의 정석' 책을 토대로 총 12개(집합, 명제, 미분, 적분 등)로 나누었다. 실험을 통해 MathML 문서 안에서 가장 유용한 자질이 '식별자&연산자 바이그램'인 것을 알 수 있었고, 여러 가지 자질들을 조합하여 수학식을 분류한 결과 92.5%의 성능으로 분류하는 것을 확인할 수 있었다.

  • PDF

대화문에서의 이벤트 추출을 위한 프레임 논항 역할 분류기 (Frame Arguments Role Labeling for Event extraction in Dialogue)

  • 허철훈;노영빈;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.119-123
    • /
    • 2020
  • 이벤트 추출은 텍스트에서 구조화된 이벤트를 분석하는 것이다. 본 논문은 대화문에서 발생하는 다양한 종류의 이벤트를 다루기 위해 이벤트 스키마를 프레임넷으로 정한다. 대화문에서의 이벤트 논항은 이벤트가 발생하는 문장 뿐만 아니라 다른 문장 또는 대화에 참여하는 발화자에서 발생할 수 있다. 대화문 주석 데이터의 부재로 대화문에서의 프레임 파싱 연구는 진행되지 않았다. 본 논문이 제안하는 모델은 대화문에서의 이벤트 논항 구간이 주어졌을 때, 논항 구간의 역할을 식별하는 모델이다. 해당 모델은 이벤트를 유발한 어휘, 논항 구간, 논항 역할 간의 관계를 학습한다. 대화문 주석 데이터의 부족을 극복하기 위해 문어체 주석 데이터인 한국어 프레임넷을 활용하여 전이학습을 진행한다. 이를 통해 정확도 51.21%를 달성한다.

  • PDF

BERT 기반 End-to-end 신경망을 이용한 한국어 상호참조해결 (Korean End-to-end Neural Coreference Resolution with BERT)

  • 김기훈;박천음;이창기;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-184
    • /
    • 2019
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 같은 개체(entity)를 의미하는 멘션을 찾아 그룹화하는 자연어처리 태스크이다. 한국어 상호참조해결에서는 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델과 포인터 네트워크 모델을 이용한 방법이 연구되었다. 구글에서 공개한 BERT 모델은 자연어처리 태스크에 적용되어 많은 성능 향상을 보였다. 본 논문에서는 한국어 상호참조해결을 위한 BERT 기반 end-to-end 신경망 모델을 제안하고, 한국어 데이터로 사전 학습된 KorBERT를 이용하고, 한국어의 구조적, 의미적 특징을 반영하기 위하여 의존구문분석 자질과 개체명 자질을 적용한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터 셋에서 CoNLL F1 (DEV) 71.00%, (TEST) 69.01%의 성능을 보여 기존 연구들에 비하여 높은 성능을 보였다.

  • PDF

대규모 언어 모델(LLM) 기반의 파이썬 입문자를 위한 코딩 도우미 (Coding Helper for Python Beginners based on the Large Language Model(LLM))

  • 이세훈;최정빈;백영태;윤선호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.389-390
    • /
    • 2023
  • 본 논문에서는 파이썬 코딩 플랫폼에서의 LLM(Large Language Models)을 로직 및 문법 에러 확인, 디버깅 도구로 활용할 수 있는 시스템을 제안한다. 이 시스템은 사용자가 코딩 플랫폼에서 작성한 파이썬 코드와 함께 발생한 에러 문구 및 프롬프트를 LLM 모델에 입력함으로써 로직(문법) 에러를 식별하고 디버깅에 활용할 수 있다. 특히, 입문자를 고려해 프롬프트를 제한하여 사용의 편의성을 높인다. 이를 통해 파이썬 코딩 교육에서 입문자들의 학습 과정을 원활하게 진행할 수 있으며, 파이썬 코딩에 대한 진입 장벽을 낮출 수 있다.

  • PDF

계층적 레이블 임베딩을 이용한 주장-증거 쌍 추출 모델 (Claim-Evidence Pair Extraction Model using Hierarchical Label Embedding)

  • 심유진;김담린;김태일;최성원;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.474-478
    • /
    • 2023
  • 논증 마이닝이란 비정형의 텍스트 데이터에서 논증 구조와 그 요소들을 식별, 분석, 추출하는 자연어 처리의 한 분야다. 논증 마이닝의 하위 작업인 주장-증거 쌍 추출은 주어진 문서에서 자동으로 주장과 증거 쌍을 추출하는 작업이다. 본 논문에서는 효과적인 주장-증거 쌍 추출을 위해, 문서 단위의 문맥 정보를 이용하고 주장과 증거 간의 종속성을 반영하기 위한 계층적 LAN 방법을 제안한다. 실험을 통해 서로의 정보를 활용하는 종속적인 구조가 독립적인 구조보다 우수함을 입증하였으며, 최종 제안 모델은 Macro F1을 기준으로 13.5%의 성능 향상을 보였다.

  • PDF