• 제목/요약/키워드: 개체명

검색결과 438건 처리시간 0.044초

BART를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의미역 결정 (BART for Korean Natural Language Processing: Named Entity Recognition, Sentiment Analysis, Semantic role labelling)

  • 홍승연;나승훈;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.172-175
    • /
    • 2020
  • 최근 자연어처리는 대용량 코퍼스를 이용하여 언어 모델을 사전 학습하고 fine-tuning을 적용함으로 다양한 태스크에서 최고 성능을 갱신하고 있다. BERT기반의 언어 모델들은 양방향의 Transformer만 모델링 되어 있지만 BART는 양방향의 Transformer와 Auto-Regressive Transformer가 결합되어 사전학습을 진행하는 모델로 본 논문에서는 540MB의 코퍼스를 이용해 한국어 BART 모델을 학습 시키고 여러 한국어 자연어처리 태스크에 적용하여 성능 향상 있음을 보였다.

  • PDF

한국어 다중추론 질의응답을 위한 Dense Retrieval 사전학습 (Pretraining Dense retrieval for Multi-hop question answering of Korean)

  • 강동찬;나승훈;김태형;최윤수;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.588-591
    • /
    • 2021
  • 다중추론 질의응답 태스크는 하나의 문서만 필요한 기존의 단일추론 질의응답(Single-hop QA)을 넘어서 복잡한 추론을 요구하는 질문에 응답하는 것이 목표이다. IRQA에서는 검색 모델의 역할이 중요한 반면, 주목받고 있는 Dense Retrieval 모델 기반의 다중추론 질의응답 검색 모델은 찾기 어렵다. 본 논문에서는 검색분야에서 좋은 성능 보이고 있는 Dense Retrieval 모델의 다중추론을 위한 사전학습 방법을 제안하고 관련 한국어 데이터 셋에서 이전 방법과의 성능을 비교 측정하여 학습 방법의 유효성을 검증하고 있다. 이를 통해 지식 베이스, 엔터티 링킹, 개체명 인식모듈을 비롯한 다른 서브모듈을 사용하지 않고도 다중추론 Dense Retrieval 모델을 학습시킬 수 있음을 보였다.

  • PDF

규칙 및 통계 기반 시스템의 결과를 활용하는 대화 상태 추적 시스템의 개발 및 사용자 시뮬레이터를 이용한 평가 (Development of a Dialogue State Tracking System utilizing the Results of Rule and Statistics-based System and Evaluation using User Simulator)

  • 신창욱;장두성;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.518-523
    • /
    • 2020
  • 본 논문에서는 목적 지향 대화 시스템을 위한 대화 상태 추적 시스템과 사용자 시뮬레이터를 설계 및 제안한다. 사용자 시뮬레이터는 작성된 대화 상태 추적 시스템을 평가하기 위한 용도로 사용된다. 본 논문에서 제안하는 대화 상태 추적 시스템은 대화 기록과 함께 사전에 학습된 대화 기록 및 규칙/통계 기반 추론 시스템의 추론 결과를 입력으로 받는다. 그리고 입력된 발화 기록 중 마지막 사용자 발화의 사용자 목표와 개체명 그리고 다음 시스템 발화의 화행을 추론한다. 또한, 작성된 대화 상태 추적기의 성능을 평가하고 분석하기 위해, 주어진 환경에서 시스템과 대화를 수행하며 대화 시스템의 성능을 평가하는 사용자 시뮬레이터를 구현 및 적용하였다. 본 연구에서 수행된 실험과 분석을 통해, 규칙 및 통계 기반의 기반 시스템을 이용해 목표 시스템의 성능 개선이 가능함을 보인다. 또한, 제안하는 사용자 시뮬레이터는 규칙과 통계를 이용해 평가 코퍼스 없이 여러 상황에 대해 대화 시스템의 성능을 평가할 수 있다.

  • PDF

온라인 가공식품의 수량과 중량에 따른 최저가격 검색 모델 (A Model for Minimum Price Search of Processed Food Items on Online Platforms Based on Quantity and Weight)

  • 최태민;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.458-460
    • /
    • 2023
  • 가공식품이라는 특정 도메인에서는 기존 검색엔진에서 많이 활용되는 BM25 만을 가지고 최저가 검색하는 데는 어려움이 있다. 본 논문에서는 BM25 외에도 검색의 정확성을 높이기 위해 HuggingFace 에 공개되어 있는 KoELECTRA 를 활용하여 개체명 인식(Named Entity Recognition 과 이진 분류모델(Binary Classification)을 Fine-tuning 하고 BM25 와 연계하여 구축한 검색시스템을 제안한다. 기존의 BM25 대비 성능 평가를 통해 효과를 검증하였다.

인과관계 정보 구성 체계를 활용한 디지털 증거 식별/분류 연구 (Digital Evidence Identification/Classification Study Using Causal Information Organization System)

  • 정종진;박종빈;김경원;이지현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.236-239
    • /
    • 2023
  • 본 논문에서는 디지털증거 분석을 위해 확보한 증거파일 들로부터 범죄 정황에 해당하는 단어 및 어휘를 추출하여 해당 범죄를 인과관계 분석을 하기 위해 핵심 단서와 원인을 효과적으로 파악하기 위해 필요한 인과정보를 제안한다. 이 정보들은 개체명 인식 및 분류를 할 수 있도록 구성되어 범죄 관계인, 관계인간 관계, 범죄 수법과 범죄관련 정보를 추출하고 유형화하여, 향후 해당 범죄에 대한 인과 분석 기법을 활용한 범죄 예방 분석과 수사에 기여할 수 있도록 도움을 준다.

말 및 말관련 종사자의 methicillin 내성 포도상구균의 유병율 조사 (Prevalence of Methicillin-resistant Staphylococci Isolates from Horses and Horse-related Personnel in Korea)

  • 이상규;한재익;김일화;나기정;강현구
    • 한국임상수의학회지
    • /
    • 제31권3호
    • /
    • pp.194-198
    • /
    • 2014
  • Methicillin 내성 포도상구균은 전세계적으로 사람과 동물에서 중요한 병인체로 주목 받고 있다. 본 연구는 국내 말과 말을 취급하는 사람에서의 methicillin 내성 포도상구균 발생현황을 조사하고자 실시하였다. 국내 경주마 목장에 소재하는 총 195두의 말과 18명의 말을 취급하는 사람(8명의 수의사, 7명의 말 관리사, 3명의 동물병원 직원)을 대상으로 하였다. 면봉을 이용하여 한쪽 비강에서 시료를 채취하여 세균수송배지에 보관 후 5% 양 혈액배지에서 $37^{\circ}C$ 3일간 배양하여 포도상구균 존재여부를 확인하였다. 포도상구균은 16S rRNA 유전자 분석을 실시하여 동정하였으며, 동정된 포도상구균은 coagulase 검사를 실시하였다. Methicillin 저항성을 확인하기 위하여 oxacillin 디스크 검사와 함께 mecA 유전자 존재를 PCR을 통하여 확인하였다. 검사를 실시하였던 말 195두 중 64두가 포도상구균으로 동정되었으며, 이중 29두(44.6%)가 methicillin 내성 포도상구균으로 확인되었다. 말을 취급하는 18명 중 14명의 시료에서 포도상구균이 동정되었으며, 이중 12명(85.7%)의 시료에서 methicillin에 내성을 가지고 있는 포도상구균으로 확인되었다. 말과 사람에서 동정된 모든 methicillin 내성 포도상구균은 coagulase 음성으로 확인되었다. 또한 항생제의 사용기간이 긴 개체에서 사용기간이 짧았던 개체군보다 methicillin 내성 포도상구균이 높은 것으로 나타났다(p = 0.002). 본 연구결과는 사람과 말 사이에서 인수공통전파가 일어날 수 있음을 시사한다.

덕유산국립공원 현존식생 분포현황 및 천이 연구 (Actual Vegetation Distribution Status and Ecological Succession in the Deogyusan National Park)

  • 김현숙;이상명;송호경
    • 한국환경생태학회지
    • /
    • 제25권1호
    • /
    • pp.37-46
    • /
    • 2011
  • 본 연구는 덕유산국립공원 산림 식생을 상관조사와 현지식생조사를 토대로 덕유산국립공원 현존식생도를 작성하였다. 상관에 의한 현존식생은 42개 유형으로 구분되었으며, 조사지역 전체의 산림 식생 중에서 신갈나무림이 39.08%로 가장 넓게 분포하였다. 다음으로 굴참나무림, 소나무림, 들메나무림의 순으로 차지하여 덕유산국립공원은 타 국립공원의 산림과 비교할 때 들메나무림이 많이 분포되어 있는 것이 특징이다. 덕유산국립공원 식생을 환경구배에 따라 구분하면 낙엽활엽수림(참나무류림, 계곡림), 침엽수림(소나무림), 아고산림(주목림, 구상나무림, 철쭉관목림, 초원) 등 7개의 유형으로 나누어졌다. 중요치가 높은 주요종에 대한 흉고직경급을 분석한 결과 신갈나무와 굴참나무는 어린 개체와 중간 개체의 밀도가 높고 졸참나무, 서어나무는 어린개체의 밀도가 높아 계속적으로 우점도가 높아질 것이며, 들메나무 는 계곡부에 군락을 형성하고 어린개체의 밀도가 높은 역J자형에 가까운 분포로 나타나 지형적 극상림으로 발달할 것으로 추정된다. 소나무, 물박달나무, 층층나무, 거제수나무, 구상나무, 주목은 어린개체와 큰개체의 밀도는 낮고 중간개체의 밀도가 높은 정규분포형을 나타내고 있어 현상태로 계속 우점도를 유지할 것으로 사료된다.

소셜미디어 빅데이터의 개체명 인식을 활용한 옥외 힐링 장소 인식 분석 (Outdoor Healing Places Perception Analysis Using Named Entity Recognition of Social Media Big Data)

  • 성정한;이경진
    • 한국조경학회지
    • /
    • 제50권5호
    • /
    • pp.90-102
    • /
    • 2022
  • 최근 힐링에 대한 관심이 증가함에 따라 힐링을 콘셉트로 하는 옥외 공간이 조성되고 있다. 보다 전문적이고 심층적인 옥외 힐링 장소 계획·설계·디자인을 위해 88,155건의 블로그 게시글 텍스트 데이터를 개체명 인식하여 텍스트 마이닝을 진행했다. 옥외 힐링 장소의 인식과 특징을 파악을 위해 출현 빈도 분석과 응집 분석을 진행하였다. 선행연구 고찰을 통해 힐링 장소의 6가지 요소를 도출하였으며, 시간과 인원을 추가한 총 8가지 요소를 통해 인식과 특성을 살펴보았다. 분석 결과 사람들은 힐링 장소를 방문하는 데 있어 장소적요소, 시간적요소, 사회적요소, 활동요소를 인원, 식물, 색상·형태, 심리적 요소보다 중요하게 생각하였다. 상위 출현 키워드를 통해 여러 가지 인식과 특성을 파악할 수 있었다. 응집 분석 결과를 통해 장소적요소, 시간적요소, 사회적요소의 키워드들이 응집되어 나타나 주로 어떤 장소, 어떤 시간대, 누구와 함께 방문하는지 구체적으로 살펴볼 수 있었다. 연구를 통해 실제 사람들이 작성한 인식 데이터를 대량 분석하여 힐링 장소의 인식과 특성을 도출하였으며, 계획과 마케팅적으로 활용할 수 있는 구체적인 요소가 나타남을 확인했다.

한국 주제명 표목의 패싯 유형 개발에 관한 연구 (A Study on Developing Facets for Subject Headings in Korea)

  • 최윤경;정연경
    • 한국문헌정보학회지
    • /
    • 제49권4호
    • /
    • pp.179-201
    • /
    • 2015
  • 주제명 표목은 키워드 검색 환경에서 정교한 주제 브라우징과 검색을 제공할 수 있는 도구이다. 본 연구의 목적은 기존 주제 접근 도구에서 적용된 다양한 패싯 유형을 분석하여, 우리나라 주제명 표목에 적용 가능한 패싯을 제안하는 것이다. 먼저, 문헌 연구에서는 지금까지 혼재된 주제와 패싯에 대한 개념을 종합적으로 고찰하고 정의하였다. 다음으로 사례 연구에서는 OCLC FAST와 PRECIS 제2판과 시소러스의 구축 지침인 "Thesaurus construction and use", 콜론 분류법 제7판, 블리스 서지 분류법 제2판, 국제십진분류법 제3판의 패싯 유형을 분석하였다. 분석 결과를 바탕으로 우리나라 주제명 표목에 적용 가능한 22개 패싯을 제안하였다. 상위 패싯으로 토픽, 사건, 장소, 시대, 개인명, 단체명, 표제명, 형식, 장르, 언어, 인물인 11개 패싯을 정의하고, 토픽 패싯은 하위에 토픽-사물/개체와 토픽-행동, 그리고 이 두 패싯의 하위로 부분, 종류, 전체, 속성, 물질, 수혜자, 산물, 부산물, 주체 패싯을 정의하였다.

貯藏溫度와 充塡材料가 마의 貯藏과 品質에 미치는 影響 (Effect of Storage Temperature and Keeping Materials on Storability and Quality of Chinese Yam)

  • 김영광
    • 한국자원식물학회지
    • /
    • 제10권1호
    • /
    • pp.58-63
    • /
    • 1997
  • 최근 한방(韓方)의 생약제(生藥劑) 또는 생식용(生食用)으로서 마의 소비량은 급격히 증대되고 있어 년중(年中) 출하(出荷)를 위한 안정적인 저장방법이 설정되어야 할 것이다. 본 시험은 마의 저장에 관한 정보를 제공하고자 저장온도와 충전재(充塡材)에 따른 저장 또는 상품성과 관련된 형질의 변화를 조사하였던 바 그 결과를 요약(要約)하면 다음고 같다. 1. 충전재(充塡材)에 따른 건전개체율은 상온저장과 저온저장 모두 vermiculite를 이용할 경우 가장 높았고 상온저장에서는 흙, 저온저장에서는 PE film을 이용할 경우 가장 낮았다. 한편 중량감소율은 상온과 저온저장 모두 타충진재(他充塡材)에 비하여 PE film과 vermiculite를 이용할 경우 가장 낮았다. 2. 충전재과(充塡材科)에 따른 저장 후 상품성(商品性)과 관련된 명도(明度)와 수분함량(水分含量)은 저온저장에 비하여 상온저장에서 낮았으며, 충전재(充塡材)는 저온저장에서 PE film을 이용할 경우 명도 및 색도 a값이 높고 색도 b값이 낮은 반면, vermiculite를 이용할 경우 PE film과는 상반된 결과를 보였다. 3. 충전재료별 저장 후 상품수량은 건전개체율 또는 수분함량과 정(正)의 상관(相關)을 보인 반면, 부패정도가 $30\sim60%$, 60% 이상인 것, 중량감소율 또는 색도 b값과 부(負)의 상관(相關)으로 분석되었다.

  • PDF