• 제목/요약/키워드: 태스크 유사도

검색결과 33건 처리시간 0.02초

자연어 처리 태스크에 대한 기계와 인간의 성능 상관관계 연구 (Exploring the Relationship Between Machine and Human Performance in Natural Language Processing Tasks)

  • 박서윤;김희재;이성우;강예지;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.485-490
    • /
    • 2023
  • 언어 모델 발전에 따라 사람과 유사하게 글을 생성하고 태스크를 수행하는 LLM들이 등장하고 있다. 하지만 아직까지도 기계와 사람의 수행 과정에 초점을 맞추어 차이점을 드러내는 연구는 활성화되지 않았다. 본 연구는 자연어 이해 및 생성 태스크 수행 시 기계와 인간의 수행 과정 차이를 밝히고자 하였다. 이에 이해 태스크로는 문법성 판단, 생성 태스크로는 요약 태스크를 대상 태스크로 선정하였고, 기존 주류 사전학습 모델이었던 transformer 계열 모델과 LLM인 ChatGPT 3.5를 사용하여 실험을 진행하였다. 실험 결과 문법성 판단 시 기계들이 인간의 언어적 직관을 반영하지 못하는 양상을 발견하였고, 요약 태스크에서는 인간과 기계의 성능 판단 기준이 다름을 확인하였다.

  • PDF

부정확한 융복합 온라인 태스크들의 스케쥴가능성을 향상시키기 위한 지연 전략 (A deferring strategy to improve schedulability for the imprecise convergence on-line tasks)

  • 송기현
    • 한국융합학회논문지
    • /
    • 제12권2호
    • /
    • pp.15-20
    • /
    • 2021
  • 부정확한 실시간 스케쥴링은 실시간 시스템에 일시적인 과부하가 발생할 때, 보다 덜 중요한 태스크들을 희생시킴으로서 시간적 오류들의 결과로 발생될 수 있는 나쁜 효과들을 최소화시키기 위하여 사용될 수 있다. 부정확한 실시간 스케쥴링에 있어서, 모든 경성 실시간 태스크는 논리적으로 필수적 태스크와 선택적 태스크로 나누어 질 수 있다. 최근들어서, 선택적 태스크들을 지연시킴으로서 총오류를 최소화시키면서도 필수적 태스크들의 스케쥴가능성을 향상시키는 연구들이 진행되어 왔다. 그러나, 이러한 연구들에서의 스케쥴가능성은 각 각의 선택적 태스크의 실행요구시간이 대응하는 필수적 태스크의 실행요구시간보다 작거나 같을 때 에만 적용된다는 제약이 있었다. 그래서, 본 논문에서는 이전의 연구들의 필수적 및 선택적 태스크들에 대한 실행요구시간 제약조건과 정 반대되는 제약조건 하에서도 적용될 수 있는 새로운 지연 전략을 제시하였다. 그럼에도 불구하고, 본 논문에서 제시한 지연 전략은 총오류를 최소화시키면서도 이전 연구들에 비하여 유사하거나 더 우수한 스케쥴가능성 성능을 보여 주었다.

의료 인공지능에서의 멀티 태스크 러닝의 이해와 활용 (Understanding and Application of Multi-Task Learning in Medical Artificial Intelligence)

  • 김영재;김광기
    • 대한영상의학회지
    • /
    • 제83권6호
    • /
    • pp.1208-1218
    • /
    • 2022
  • 최근, 의료 분야에서 인공지능은 많은 발전을 통해 다양한 분야로 확장하며 활용되고 있다. 하지만 대부분의 인공지능 기술들은 하나의 모델이 하나의 태스크만을 수행할 수 있도록 개발되고 있으며, 이는 의사들의 복잡한 판독 과정을 인공지능으로 설계하는데 한계로 작용한다. 멀티 태스크 러닝은 이러한 한계를 극복하기 위한 최적의 방안으로 알려져 있다. 다양한 태스크들을 동시에 하나의 모델로 학습함으로써, 효율적이고 일반화에 유리한 모델을 만들수 있다. 본 종설에서는 멀티 태스크 러닝에 대한 개념과 종류, 유사 개념 등에 대해 알아보고, 연구 사례들을 통해 의료 분야에서의 멀티 태스크 러닝의 활용 현황과 향후 가능성을 살펴보고자 한다.

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구 (A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

패러프레이즈 문장 검출을 위한 양방향 트랜스포머 모델 구축 (Construction of a Bidirectional Transformer Model for Paraphrasing Detection)

  • 고보원;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.465-469
    • /
    • 2019
  • 자연어 처리를 위해서 두 문장의 의미 유사성을 분석하는 것은 아주 중요하다. 이 논문은 패러프레이즈 검출 태스크를 수행하기 위한 Paraphrase-BERT를 제안한다. 우선 구글이 제안한 사전 학습된 BERT를 그대로 이용해서 패러프레이즈 데이터 (MRPC)를 가지고 파인 튜닝하였고 추가적으로 최근에 구글에서 새로 발표한 Whole Word Masking 기술을 사용하여 사전 학습된 BERT 모델을 새롭게 파인 튜닝하였다. 그리고 마지막으로 다중 작업 학습을 수행하여 성능을 향상시켰다. 구체적으로 질의 응답 태스크와 패러프레이즈 검출 태스크를 동시에 학습하여 후자가 더 잘 수행될 수 있도록 하였다. 결과적으로 점점 더 성능이 개선되었고 (11.11%의 정확도 향상, 7.88%의 F1 점수 향상), 향후 작업으로 파인 튜닝하는 방법에 대해서 추가적으로 연구할 계획이다.

  • PDF

연구개발 생산성 향상을 위한 태스크 유사도 기반 산출물 재사용 추천 프레임워크 (A reuse recommendation framework of artifacts based on task similarity to improve R&D performance)

  • 남승우;혼 다네스;홍장의
    • 융합정보논문지
    • /
    • 제9권2호
    • /
    • pp.23-33
    • /
    • 2019
  • 연구 개발 활동은 다양한 기술 정보의 조사 분석 및 기술 보고서 작성 활동들로 구성된다. 연구 개발 활동이 구체화되면서 이전 단계에 작성된, 또는 이전의 유사 프로젝트에서 작성된 관련 기술 문서를 참조하는 일이 많이 발생한다. 본 논문에서는 연구자가 원하는 이전 산출물의 효율적인 재사용을 가능하게 하는 재사용 추천 프레임워크인 RTRF(research task based reuse recommendation framework)를 제안한다. 제안하는 프레임워크는 기존의 유사어 기반 검색 및 재사용에 추가하여 태스크 유사도를 기반으로, 개발자의 연구와 비슷한 흐름을 가지고 있는 다른 개발자가 재사용한 문서를 추천해주어 개발자에게 필요할 수 있는 정보를 제공한다. 사례연구는 연구자들이 기존 문서를 재사용하여 기술동향보고서를 작성하는 과정에서의 효율성을 보이기 위해 수행하였다. RTRF를 이용하여 재사용을 수행하는 경우, RTRF를 이용하지 않는 경우와 비교했을 때 다른 단계의 문서 및 다른 연구분야의 문서를 더 빈번하게 재사용하는 것을 알 수 있었다. 본 논문에서 제안하는 RTRF는 개발자가 저장소에 저장되어 있는 방대한 양의 R&D 문서들 중에서 원하는 문서를 효율적으로 재사용하는 것에 큰 기여를 한다.

한국어 문장 분류 태스크에서의 효과적 분절 전략 (An Effective Segmentation Scheme for Korean Sentence Classification tasks)

  • 김진성;김경민;손준영;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.173-177
    • /
    • 2021
  • 분절을 통한 양질의 입력 자질을 구성하는 것은 언어모델의 문장에 대한 이해도를 높이기 위한 필수적인 단계이다. 분절은 문장의 의미를 이해하는 데 있어 중요한 역할을 하기 때문이다. 따라서, 한국어 문장 분류 태스크를 수행함에 있어 한국어의 특징에 맞는 분절 기법을 선택하는 것은 필수적이다. 명확한 판단 기준 마련을 위해, 우리는 한국어 문장 분류 태스크에서 가장 효과적인 분절 기법이 무엇인지 감성 분석, 자연어 추론, 텍스트 간 의미적 유사성 판단 태스크를 통해 검증한다. 이 때 비교할 분절 기법의 유형 분류 기준은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 설정하며, 분절 기법 외의 다른 실험 환경들은 동일하게 설정하여 분절 기법이 문장 분류 성능에 미치는 영향만을 측정하도록 한다. 실험 결과에 따르면 자모 단위의 분절 기법을 적용한 모델이 평균적으로 가장 높은 성능을 보여주며, 반복 실험 간 편차가 적어 일관적인 성능 결과를 기록함을 확인할 수 있다.

  • PDF

Adaptive Concurrency Control Approach on Shared Object Manipulation in Mixed Reality

  • Lee, Jun;Park, Sung-Jun
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.75-84
    • /
    • 2021
  • 본 논문에서는 혼합현실에서 다수의 사용자들이 공유객체를 조작하는 과정에서 충돌을 줄이고 충돌로 인한 작업 시간을 줄일 수 있는 적응형 동시성 제어 방법을 제안한다. 혼합현실에서 사용되는 공동 작업에 대해서 세부적인 골들과 이들에 대응되는 태스크들로 분류한 뒤 각 태스크에 알맞은 동시성 제어 방법을 매핑 하여 골-태스크-소유권에 대한 모델링을 수행하고 이에 대한 동시성 제어를 수행한다. 본 논문에서 제안된 시스템은 공동 작업이 진행되어 감에 따라서 같은 태스크이더라도 다른 동시성 제어 방법을 적용하여 사용자들이 동시에 공유 객체들 들고 같이 이동하고 회전을 하는 공동 작업 과정에서 사용자들의 동시적인 작업에 대한 충돌을 제어하여 사용자들에게 현실의 산업 현장과 유사한 혼합협실 공동작업 환경을 제공해 해준다. 본 논문에서 제안한 시스템을 혼합협실 환경에서 실제 동작처럼 작업을 지원하기 위해서 사용자는 MS 홀로렌즈와 마이오 센서를 착용하고 태스크 작업들을 수행한다. 실험 결과 공동 작업 과정에서 충돌 발생과 공동 작업의 완료 시간을 기존의 동시성 제어 방법보다 효과적으로 줄일 수 있었다.

거대 언어 모델을 활용한 한국어 제로샷 관계 추출 비교 연구 (A Comparative Study on Korean Zero-shot Relation Extraction using a Large Language Model)

  • 김진성;김경민;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.648-653
    • /
    • 2023
  • 관계 추출 태스크는 주어진 텍스트로부터 두 개체 간의 적절한 관계를 추론하는 작업이며, 지식 베이스 구축 및 질의응답과 같은 응용 태스크의 기반이 된다. 최근 자연어처리 분야 전반에서 생성형 거대 언어모델의 내재 지식을 활용하여 뛰어난 성능을 성취하면서, 대표적인 정보 추출 태스크인 관계 추출에서 역시 이를 적극적으로 활용 가능한 방안에 대한 탐구가 필요하다. 특히, 실 세계의 추론 환경과의 유사성에서 기인하는 저자원 특히, 제로샷 환경에서의 관계 추출 연구의 중요성에 기반하여, 효과적인 프롬프팅 기법의 적용이 유의미함을 많은 기존 연구에서 증명해왔다. 따라서, 본 연구는 한국어 관계 추출 분야에서 거대 언어모델에 다각적인 프롬프팅 기법을 활용하여 제로샷 환경에서의 추론에 관한 비교 연구를 진행함으로써, 추후 한국어 관계 추출을 위한 최적의 거대 언어모델 프롬프팅 기법 심화 연구의 기반을 제공하고자 한다. 특히, 상식 추론 등의 도전적인 타 태스크에서 큰 성능 개선을 보인 사고의 연쇄(Chain-of-Thought) 및 자가 개선(Self-Refine)을 포함한 세 가지 프롬프팅 기법을 한국어 관계 추출에 도입하여 양적/질적으로 비교 분석을 제공한다. 실험 결과에 따르면, 사고의 연쇄 및 자가 개선 기법 보다 일반적인 태스크 지시 등이 포함된 프롬프팅이 정량적으로 가장 좋은 제로샷 성능을 보인다. 그러나, 이는 두 방법의 한계를 지적하는 것이 아닌, 한국어 관계 추출 태스크에의 최적화의 필요성을 암시한다고 해석 가능하며, 추후 이러한 방법론들을 발전시키는 여러 실험적 연구에 의해 개선될 것으로 판단된다.

  • PDF