• 제목/요약/키워드: 상위어

검색결과 161건 처리시간 0.023초

사전학습 언어모델의 단어간 의미관계 이해도 평가 (Probing Semantic Relations between Words in Pre-trained Language Model)

  • 오동석;권순재;이찬희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.237-240
    • /
    • 2020
  • 사전학습 언어모델은 다양한 자연어처리 작업에서 높은 성능을 보였다. 하지만, 사전학습 언어모델은 문장 내 문맥 정보만을 학습하기 때문에 단어간 의미관계 정보를 추론하는데는 한계가 있다. 최근에는, 사전학습 언어모델이 어느수준으로 단어간 의미관계를 이해하고 있는지 다양한 Probing Test를 진행하고 있다. 이러한 Test는 언어모델의 강점과 약점을 분석하는데 효율적이며, 한층 더 인간의 언어를 정확하게 이해하기 위한 모델을 구축하는데 새로운 방향을 제시한다. 본 논문에서는 대표적인 사전 학습기반 언어모델인 BERT(Bidirectional Encoder Representations from Transformers)의 단어간 의미관계 이해도를 평가하는 3가지 작업을 진행한다. 첫 번째로 단어 간의 상위어, 하위어 관계를 나타내는 IsA 관계를 분석한다. 두번째는 '자동차'와 '변속'과 같은 관계를 나타내는 PartOf 관계를 분석한다. 마지막으로 '새'와 '날개'와 같은 관계를 나타내는 HasA 관계를 분석한다. 결과적으로, BERTbase 모델에 대해서는 추론 결과 대부분에서 낮은 성능을 보이지만, BERTlarge 모델에서는 BERTbase보다 높은 성능을 보였다.

  • PDF

언어네트워크 분석을 통한 중등교사 임용시험 관련 연구동향 분석 (Research Trend of Secondary-School Teacher's Employment Examination Using Semantic Network Analysis)

  • 권충훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.244-247
    • /
    • 2018
  • 본 연구는 우리나라 중등교사 임용시험의 형태가 개편된 2014년도 이후부터 2018년도 현재까지 진행된 중등교사 임용시험 관련 선행연구들을 언어네트워크 분석 방법론을 활용하여, 그 연구동향을 분석하였다. 본 연구에서는 2014년도 이후 5년간 진행된 중등교사 임용시험 관련 연구 55건을 대상으로 주요 핵심어 추출 및 워드클라우드 제시, 주요 핵심어의 언어네트워크 전체 분석 및 3종 중심성(연결정도, 근접, 매개) 분석, 네트워크 값을 반영한 네트워크 그림 시각화 작업 등을 진행하였다. 중등교사 임용시험 관련 선행연구의 주요 핵심어는 분석, 문항, 출제, 인식, 임용후보자, 교과교육학, 국어과, 선정경쟁시험, 개선, 예비교사, 교과내용학, 기출문항, 임용교사, 제도, 탐색 등이었다. 이들 상위 빈도 핵심어들은 나름 높은 연결정도를 가지고 다른 핵심어들간의 의미연결망을 구축하고 있음을 확인하였다, 이런 연구결과는 중등교사 임용시험 주제 연구 진행을 할 때, 연구주제 선정 및 방향 설정에 도움을 줄 것으로 기대된다.

  • PDF

질의어 패턴 자동분석을 통한 커뮤니티 기반 개인화 검색 (Personalized Search based on Community through the Automatic Analysis of Query Pattern)

  • 박건우;정재학;이상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (A)
    • /
    • pp.37-38
    • /
    • 2008
  • 기존의 웹 검색 엔진들은 사용자의 검색 의도를 충분히 반영하지 못하기 때문에 개인이 원하는 정보를 보다 정확하게 제공 할 수 없는 단점을 가지고 있다. 따라서 개인의 특성을 이해하고 검색에 반영함으로써 보다 정확한 개인화 검색 서비스를 제공하기 위한 많은 연구들이 진행되고 있다. 이러한 개인화된 검색 서비스를 통해, 사용자는 방대한 웹상의 정보를 보다 효율적으로 검색하여 자신에게 적합한 정보를 편리하게 획득 할 수 있으며 짧은 시간에 정확한 정보 획득을 보장 받을 수 있다. 본 논문에서는 개인의 질의어 패턴을 자동으로 분석하고 상위에 순위화 된 질의어 유형에 따라 주요 관심사 별 커뮤니티를 형성하여 검색에 반영함으로써 개인의 정보요구에 보다 큰 접한 개인화 검색 방안을 제안한다.

  • PDF

텍스트 네트워크분석을 활용한 국방분야 연구논문 지식구조 분석 (Knowledge Structure Analysis on Defense Research Using Text Network Analysis)

  • 이용규;윤성웅;이상훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.526-529
    • /
    • 2018
  • 본 연구에서는 텍스트 네트워크분석을 활용하여 국방분야 연구의 핵심 주제어와 연구주제를 분석하고 이를 통해 전체 지식구조를 파악하고자 하였다. 이를 위해 2010년부터 2017년까지의 국방대학교 학위과정 논문을 대상으로 국방분야 연구현황을 진단하고 지식구조를 구성하였다. 8년간 누적된 논문 710건의 초록을 분석하여 총 6,883개의 단어를 추출한 후, 단어의 논문 등장 빈도수와 단어간 링크수를 파레토 법칙에 따라 상위 20%의 기준으로 총 270개의 단어로 추출하였고, 컴포넌트 분석을 통해 최종 170개의 핵심 주제어를 도출하였다. 이 핵심 주제어를 통해 중심성 분석과 응집구조를 분석하여, 국방분야에 대한 총 6개의 지식구조 그룹을 도출하였다.

  • PDF

OpenCL 기반의 상위 수준 합성 기술을 이용한 고성능 안개 제거 시스템의 소프트웨어-하드웨어 통합 설계 (SW-HW Co-design of a High-performance Dehazing System Using OpenCL-based High-level Synthesis Technique)

  • 박용민;김민상;김병오;김태환
    • 전자공학회논문지
    • /
    • 제54권8호
    • /
    • pp.45-52
    • /
    • 2017
  • 본 논문은 안개 제거 처리를 위한 전용의 하드웨어 가속기를 내장하는 고성능의 소프트웨어-하드웨어 통합 안개 제거 시스템의 설계 및 구현을 제시한다. 제시된 안개 제거 시스템에서 다크 채널 프라이어 기반의 안개 제거 처리는 전용의 하드웨어 가속기를 통해 처리되며, 영상의 입출력 및 가속기의 제어는 소프트웨어에 의해서 처리된다. 이를 위해 안개 제거 알고리즘에 내재된 병렬성을 발견하여 OpenCL 커널로 기술하고, 상위 수준 합성 기술을 이용해 하드웨어 가속기를 구현하였다. 기존의 소프트웨어 기반의 안개 제거 시스템과 제안하는 시스템의 성능을 비교한 결과, 동등한 안개 제거 품질을 보이면서도 전체 시스템 수행 시간이 최대 96.3% 단축되었다.

정보시스템에서 퍼지용어의 확장된 AHP를 사용한 레벨화와 유사성 측정 (A Leveling and Similarity Measure using Extended AHP of Fuzzy Term in Information System)

  • 류경현;정환묵
    • 한국지능시스템학회논문지
    • /
    • 제19권2호
    • /
    • pp.212-217
    • /
    • 2009
  • 특정 분야의 용어를 표현하는 전문용어 사이의 계층관계를 학습하는 방법은 규칙기반학습방법, 통계기반학습방법 등이 있다. 본 논문에서는 문서에서 추출된 퍼지용어 정보를 바탕으로 한 온톨로지 구조를 카테고리화하여 퍼지용어의 전문성을 이용하여 주어진 퍼지용어의 상위어 후보를 레벨화한 후 퍼지용어 의미유사도를 계산하여 선택된 후보들 중에서 최적의 상위어후보를 결정한다. 즉, 퍼지용어의 전문성을 레벨화하기 위한 확장된 AHP방법은 퍼지용어사이의 비교를 통해 가중치나 상대적 중요성을 결정한 후 퍼지집합의 Min연산자와 다이스계수, Min+다이스계수방법들을 비교한다. 이 방법들은 퍼지용어 의미유사도에 따라 문서들이 가지는 의미론적 내용과 관계의 식별을 바탕으로 보다 더 정확하게 문서를 분류할 수 있고 자연어처리 등 많은 분야에 활용될 수 있을 것이다.

Word2Vec과 WordNet 기반 불확실성 단어 간의 네트워크 분석에 관한 연구 (Network Analysis between Uncertainty Words based on Word2Vec and WordNet)

  • 허고은
    • 한국문헌정보학회지
    • /
    • 제53권3호
    • /
    • pp.247-271
    • /
    • 2019
  • 과학에서 지식의 불확실성은 명제가 현재 상태로는 참도 거짓도 아닌 불확실한 상태를 의미한다. 기존의 연구들은 학술 문헌에 표현된 명제를 분석하여 불확실성을 의미하는 단어를 수동적으로 구축하고 구축한 코퍼스를 대상으로 규칙 기반, 기계 학습 기반의 성능평가를 수행해왔다. 불확실성 단어 구축의 중요성은 인지하고 있지만 단어의 의미를 분석하여 자동적으로 확장하고자 하는 시도들은 부족했다. 한편, 계량정보학이나 텍스트 마이닝 기법을 이용하여 네트워크의 구조를 파악하는 연구들은 다양한 학문분야에서 지적 구조와 관계성을 파악하기 위한 방법으로 널리 활용되고 있다. 따라서, 본 연구에서는 기존의 불확실성 단어를 대상으로 Word2Vec을 적용하여 의미적 관계성을 분석하였고, 영어 어휘 데이터베이스이자 시소러스인 WordNet을 적용하여 불확실성 단어와 연결된 상위어, 하위어 관계와 동의어 기반 네트워크 분석을 수행하였다. 이를 통해 불확실성 단어의 의미적, 어휘적 관계성을 구조적으로 파악하였으며, 향후 불확실성 단어의 자동 구축의 확장 가능성을 제시하였다.

용어 자동분류를 사용한 검색어 범주화의 분석적 고찰 (An Analytic Study on the Categorization of Query through Automatic Term Classification)

  • 이태석;정도헌;문영수;박민수;현미환
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.133-138
    • /
    • 2012
  • 검색 창을 통해 입력된 검색어는 정보이용자가 의미 있는 자료를 찾아내는 적극적인 활동의 산물이다. 따라서 검색로그는 정보이용자의 관심사항을 알 수 있는 중요한 분석 데이터이다. 본 연구의 목적은 입력한 검색어의 범주화 결과와 엑세스한 문서의 범주가 어느 정도 유사한 상관관계를 가지는지 분석적으로 고찰해보는 것이다. KISTI(한국과학기술정보연구원)의 NDSL(과학기술정보센터) 사이트의 2009년 검색로그의 검색세션을 식별하고 검색세션단위로 검색어와 이용 자료를 추출한 후, 검색어에 대해 어떤 주제 분류에 속하는 용어인지 자동분류기로 식별한 결과가 실제 이용한 자료의 주제 분야와 잘 맞는지 비교하였다. 그 결과 상위 100개 검색어 분류에 대한 유사도 평균이 58.8%로 파악되었다. 결국 전체적인 유사도는 58.8%이하이며, 관련 연구에서 수행한 자료의 자동분류 검색성능 전문가 평가 결과인 76.8%에 비해 낮다. 이것은 검색어로 쓰인 용어가 다른 연구 분야의 관심 용어로 새롭게 주목 받고 있기 때문이라는 사실을 알 수 있었다.

분야 시소러스를 이용한 코아 온톨로지 확장 (Enriching Core Ontology with Domain Thesaurus)

  • 황금하;신지애;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.31-37
    • /
    • 2007
  • 본 논문에서는 분야 시소러스의 개념과 관계를 이용하여 코아 온톨로지를 확장하는 방법을 제안한다. 분야 시소러스의 개념을 코아 온톨로지의 상위 개념으로 분류하고, 시소러스에서의 광의어(Broader Term: BT)-협의어(Narrower Term: NT) 및 광의어-관련어(Related Term: RT)들 사이의 관계는 코아 온톨로지에서 정의한 의미관계로 분류한다. 유사도와 빈도수 기반의 방법으로 개념 분류를 수행하였고, 관계 분류에서는 두 가지 방법을 적용하였는데, (i) 훈련데이터가 부족한 경우를 위하여 규칙기반 방법으로 BT-NT/RT관계를 isa와 기타 관계(non-isa관계)로 분류하고, 패턴기반 방법으로 non-isa관계를 온톨로지를 위한 의미관계로 분류한다. (ii) 훈련데이터를 충분히 가지고 있을 경우, 최대 엔트로피 모델(MEM)을 적용한 분류 방법을 사용하되, kNN방법으로 훈련데이터를 정제하였다. 본 논문에서 제안한 방법으로 시스템을 구축하였고, 실험 결과, 시스템 성능이 사람에 의한 판단 결과와 비교 가능한 수준이었다.

  • PDF

중간언어 기반의 Word2Vec와 CCA를 이용한 이중언어 사전 추출 (Pivot-based Bilingual Lexicon Extraction Using Word2Vec and CCA)

  • 김정태;김창현;천민아;김재훈;김재환
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.307-309
    • /
    • 2016
  • 이중언어 사전은 자연어처리 분야에서 매우 유용한 자원으로 사용되고 있다. 그러나 초기사전이나 병렬말뭉치 등 자원이 부족한 언어 쌍에 대해서 이중언어 사전을 추출하는 것은 쉽지 않다. 이러한 문제를 해결하기 위해 본 논문에서는 중간 언어 기반으로 Word2Vec와 CCA를 이용하여 이중언어 사전을 추출하는 방법을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해서 중간언어로 영어를 사용하여 스페인어-한국어에 대한 이중언어 사전을 추출하는 실험을 하였다. 무작위로 뽑은 200개의 단어에 대한 번역 정확도를 구하였다. 그 결과 최상위에서 37.5%, 상위 10위에서 63%, 그리고 상위 20위에서는 69.5%의 정확도를 얻을 수 있었다.

  • PDF