• 제목/요약/키워드: 한글표현

검색결과 514건 처리시간 0.034초

다중 작업 학습의 단계적 특징을 활용한 한국어 속성 기반 감성 분석에서의 대상 추출 (Target extraction in Korean aspect-based sentiment analysis using stepwise feature of multi-task learning model)

  • 박호민;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.630-633
    • /
    • 2022
  • 속성기반 감성 분석은 텍스트 내에 존재하는 속성에 대해 세분화된 감성 분석을 수행하는 과제를 말한다. 세분화된 감성분석을 정확하게 수행하기 위해서는 텍스트에 존재하는 감성 표현과 그것이 수식하는 대상에 대한 정보가 반드시 필요하다. 그리고 순서대로 두 가지 정보는 이후 정보를 텍스트에서 추출하기 위해 중요한 단서가 된다. 따라서 본 논문에서는 KorBERT와 Bi-LSTM을 이용한 단계적 특징을 활용한 다중 작업 학습 모델을 사용하여 한국어 감성 분석 말뭉치의 감성 표현과 대상을 추출하는 작업을 수행하였다. 제안한 모델을 한국어 감성 분석 말뭉치로 학습 및 평가한 결과, 감성 표현 추출 작업의 출력을 추가적인 특성으로 전달하여 대상 추출 작업의 성능을 향상시킬 수 있음을 보였다.

  • PDF

언어모델에서 엔티티 정보를 이용한 관계 추출 성능 향상 기법 (A Technique for Improving Relation Extraction Performance using Entity Information in Language Model)

  • 허윤아;오동석;황태선;이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-127
    • /
    • 2020
  • 관계 추출은 문장에서 두 개의 엔티티가 주어졌을 때 두 개의 엔티티에 대한 의미적 이해를 통해 관계를 분류하는 작업이다. 이와 같이 관계 추출에서 관계를 분류하기 위해서는 두 개의 엔티티에 대한 정보가 필요하다. 본 연구에서는 관계 추출을 하기 위해 문장에서 엔티티들의 표현을 다르게하여 관계 추출의 성능을 비교 실험하였다. 첫번째로는 문장에서 [CLS] 토큰(Token)으로 관계를 분류하는 Standard 엔티티 정보 표현과 두번째로는 엔티티의 앞과 뒤에 Special Token을 추가하여 관계를 분류하는 Entity-Markers 엔티티 정보 표현했다. 이를 기반으로 문장의 문맥 정보를 학습한 사전 학습(Pre-trained)모델인 BERT-Large와 ALBERT-Large를 적용하여 실험을 진행하였다. 실험 결과 Special Token을 추가한 Entity-Markers의 성능이 높았으며, BERT-Large에서 더 높은 성능 결과를 확인하였다.

  • PDF

의미 정보와 BERT를 결합한 개념 언어 모델 (A Concept Language Model combining Word Sense Information and BERT)

  • 이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 2019
  • 자연어 표상은 자연어가 가진 정보를 컴퓨터에게 전달하기 위해 표현하는 방법이다. 현재 자연어 표상은 학습을 통해 고정된 벡터로 표현하는 것이 아닌 문맥적 정보에 의해 벡터가 변화한다. 그 중 BERT의 경우 Transformer 모델의 encoder를 사용하여 자연어를 표상하는 기술이다. 하지만 BERT의 경우 학습시간이 많이 걸리며, 대용량의 데이터를 필요로 한다. 본 논문에서는 빠른 자연어 표상 학습을 위해 의미 정보와 BERT를 결합한 개념 언어 모델을 제안한다. 의미 정보로 단어의 품사 정보와, 명사의 의미 계층 정보를 추상적으로 표현했다. 실험을 위해 ETRI에서 공개한 한국어 BERT 모델을 비교 대상으로 하며, 개체명 인식을 학습하여 비교했다. 두 모델의 개체명 인식 결과가 비슷하게 나타났다. 의미 정보가 자연어 표상을 하는데 중요한 정보가 될 수 있음을 확인했다.

  • PDF

구어 의존 구문 분석을 위한 비유창성 처리 연구 (A Study of Disfluency Processing for Dependency Parsing of Spoken)

  • 박석원;최현수;한지윤;오태환;안의정;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.144-148
    • /
    • 2019
  • 비유창성(disfluency)은 문어와 같이 정연한 구조로 말하지 못하는 현상 전반을 지칭한다. 이는 구어에서 보편적으로 발생하는 현상으로 구어 의존 구문 분석의 난이도를 상향시키는 요인이다. 본 연구에서는 비유창성 요소 유형을 담화 표지, 수정 표현, 반복 표현, 삽입 표현으로 분류하였다. 또한 유형별 비유창성 요소를 실제 말뭉치에서 어떻게 구문 주석할 것인지를 제안한다. 이와 같은 구어 데이터 처리 방식은 대화시스템 등 구어를 처리해야 하는 도메인에서의 자연언어이해 성능 향상에 기여할 것이다.

  • PDF

심층신경망 언어이해에서의 벡터-그래프 변환 방법을 통한 설명가능성 확보에 대한 연구 (Vector2graph : A Vector-to-Graph Conversion Framework for Explainable Deep Natural Language Understanding)

  • 허세훈;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.427-432
    • /
    • 2020
  • 딥러닝(Deep-learning) 기반의 자연어 이해(Natural Language Understanding) 기술들은 최근에 상당한 성과를 성취했다. 하지만 딥러닝 기반의 자연어 이해 기술들은 내적인 동작들과 결정에 대한 근거를 설명하기 어렵다. 본 논문에서는 벡터를 그래프로 변환함으로써 신경망의 내적인 의미 표현들을 설명할 수 있도록 한다. 먼저 인간과 기계 모두가 이해 가능한 표현방법의 하나로 그래프를 주요 표현방법으로 선택하였다. 또한 그래프의 구성요소인 노드(Node) 및 엣지(Edge)의 결정을 위한 Element-Importance Inverse-Semantic-Importance(EI-ISI) 점수와 Element-Element-Correlation(EEC) 점수를 심층신경망의 훈련방법 중 하나인 드랍아웃(Dropout)을 통해 계산하는 방법을 제안한다. 다양한 실험들을 통해, 본 연구에서 제안한 벡터-그래프(Vector2graph) 변환 프레임워크가 성공적으로 벡터의 의미정보를 유지하면서도, 설명 가능한 그래프를 생성함을 보인다. 더불어, 그래프 기반의 새로운 시각화 방법을 소개한다.

  • PDF

BERT+CRF를 이용한 다중 감성 표현 영역 추출 (Extracting multiple sentiment expression areas using BERT+CRF)

  • 박지은;이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.571-575
    • /
    • 2021
  • 감성분석이란 텍스트에 들어있는 의견이나 감성, 평가, 태도 등의 주관적인 정보를 컴퓨터를 통해 분석하는 과정이다. 본 논문은 다양한 감성분석 실험 중 감성이 드러나는 부분을 파악하여 서술어 중심의 구 혹은 절 단위로 감성 표현 영역을 추출하는 모델을 개발하고자 한다. 제안하는 모델은 BERT에 classification layer와 CRF layer를 결합한 것이고 baseline은 일반 BERT 모델이다. 실험 결과는 기존의 baseline 모델의 f1-score이 33.44%이고 제안한 BERT+CRF 모델의 f1-score이 40.99%이다. BERT+CRF 모델이 7.55% 더 좋은 성능을 보인다.

  • PDF

국내 독서장애인을 위한 Math Expression Reader의 구현 및 사용성 평가 (Implementation & Usability Evaluation of Math Expression Reader for Domestic Reading Disables)

  • 이재화;이종우;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제15권7호
    • /
    • pp.951-961
    • /
    • 2012
  • 국내에서 제작되는 전자도서들은 현재 문서 내에 작성된 수식 및 수학 기호들을 음성으로 변환하지 못하여 독서 장애인들에게 제약적인 음성서비스를 제공하고 있다. 본 논문에서는 국내 독서 장애인들을 위해 일반문서에 삽입되어 있는 수식표현을 한글로 읽어줄 수 있는 'Math Expression Reader'를 구현하였다. 그리고 'Math Expression Reader'를 통해 생성된 한글 수식 독음을 일반인그룹과 시각장애인들에게 각각 들려줌으로 생성된 한글수식독음을 얼마나 정확히 이해하고 알아들을 수 있는지 평가하고 그 결과를 비교 분석하였다.

한영 기계번역에서의 효율적인 구문분석과 번역을 위한 유한상태 변환기 기반 전처리기의 설계 및 구현 (Design and Implementation of Finite-State-Transducer Preprocessor for an Efficient Parsing and Translation in Korean-to-English Machine Translation)

  • 박준식;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.128-134
    • /
    • 1999
  • 기계번역이나 정보검색 등에 적용되는 자연언어처리기술에 있어서 구문분석은 매우 중요한 위치를 차지한다. 하지만, 문장의 길이가 증가함에 따라 구문분석의 복잡도는 크게 증가하게 된다. 이를 해결하기 위한 많은 노력 중에서 전처리기의 지원을 통해 구문분석기의 부담을 줄이려는 방법이 있다. 본 논문에서는 구문분석의 애매성과 복잡성을 감소시키기 위해 유한상태 변환기 (Finite-State-Transducer FSI)를 이용한 전처리기를 제안한다. 유한상태 변환기는 사전표현, 단어분할, 품사태깅 등에 널리 사용되어 왔는데, 본 논문에서는 유한상태 변환기를 이용하여 형태소 분석된 문장에서 시간표현 등의 제한된 표현들을 구문요소화하는 전처리기를 설계 및 구현하였다. 본 논문에서는 기계번역기에서의 구문분석기 뿐만 아니라 변환지식의 모듈화를 지원하기 위해 유한상태 변환기를 이용하여 시간표현 등의 부분적인 표현들을 번역하는 방법을 제안한다. 또한 유한상태 변환기의 편리한 작성을 위하여 유한상태 변환기 작성 지원도구를 구현하였다. 본 논문에서는 전처리기의 적용을 통해 구문분석기의 부담을 덜어 주며 기계번역기의 변환부분의 일부를 성공적으로 담당할 수 있음을 보여 준다.

  • PDF

시맨틱 웹 서비스를 위한 온톨로지 기반 주제어 공통 표현 모델 (Topic Keyword Common Representation Model Based on Ontology for Semantic Web Services)

  • 정한민;김평;이미경;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-108
    • /
    • 2008
  • 주제어는 정보 서비스를 비롯한 여러 응용 분야들에서 유용하게 사용되는 지식이지만, 주제어 간 관계가 다양할 뿐만 아니라 목적에 맞도록 개별적으로 설계됨으로써 주제어 관계 속성 유형과 무관하게 공유가 가능한 주제어 공통 표현 모델이 제시되지 못하였다. 본 연구는 응용 분야, 온톨로지 종류와 무관하게 적용될 수 있으며 시맨틱 웹 서비스 간 공유가 가능한 주제어 공통 표현 모델을 제시하고자 한다. 이를 위해, 주제어 관계를 범용 클래스로 정의하고, 주제어 관계 속성 유형을 데이터타입 속성 (Datatype Property)으로 선언하였다. 또한, 주제어 역시 그 속성 유형을 데이터타입 속성으로 선언하였는데, 결국 다양한 유형의 관계들을 용이하게 표현할 수 있도록 하기 위한 것이다. 실험을 위해 주제어 간 관계수가 70,804,233개이며 주제어 관계 속성 유형이 4가지인 과학 기술 기반 정보 온톨로지와 주제어 간 관계수가 44,147개이며 주제어 관계 속성 유형이 13가지인 표준 정보 온톨로지를 대상으로 본 연구에서 제안한 주제어 공통 표현 모델을 적용하였으며 총 284,744,802개의 RDF(Resource Description Framework) Triple을 생성하였다.

  • PDF

단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법 (Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters)

  • 조승현;이경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병 중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF