• 제목/요약/키워드: 컴퓨터 용어 사전

검색결과 35건 처리시간 0.025초

도메인 적응 사전 훈련 (Domain-Adaptive Pre-training, DAPT) 한국어 문서 요약 (Domain-Adaptive Pre-training for Korean Document Summarization)

  • 장형국;장현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.843-845
    • /
    • 2024
  • 도메인 적응 사전 훈련(Domain-Adaptive Pre-training, DAPT)을 활용한 한국어 문서 요약 연구에서는 특정 도메인의 문서에 대한 이해도와 요약 성능을 향상시키기 위해 DAPT 기법을 적용했다. 이 연구는 사전 훈련된 언어 모델이 일반적인 언어 이해 능력을 넘어 특정 도메인에 최적화된 성능을 발휘할 수 있도록 도메인 특화 데이터셋을 사용하여 추가적인 사전 훈련을 진행한다. 구체적으로, 의료, 법률, 기술 등 다양한 도메인에서 수집한 한국어 텍스트 데이터를 이용하여 모델을 미세 조정하며, 이를 통해 얻은 모델은 도메인에 특화된 용어와 문맥을 효과적으로 처리할 수 있음을 보여준다. 성능 평가에서는 기존 사전 훈련 모델과 DAPT를 적용한 모델을 비교하여 DAPT의 효과를 검증했다. 연구 결과, DAPT를 적용한 모델은 도메인 특화 문서 요약 작업에서 성능 향상을 보였으며, 이는 실제 도메인별 활용에서도 유용할 것으로 기대된다.

Con-Talky: 건설 분야 전문가의 의사소통을 위한 정보 추출 및 시각화 플랫폼 (Con-Talky: Information Extraction and Visualization Platform for Communication of Construction Industry)

  • 심미단;박찬준;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.476-481
    • /
    • 2021
  • 본 논문은 용어의 비통일성과 문서의 다양성으로 인해 발생하는 건설분야 전문가들의 의사소통 문제를 해결하기 위한 Con-Talky를 제안한다. Con-Talky는 자연언어처리의 대표적인 기술인 형태소분석, 의존구문분석, 의미역 결정 기술을 융합하여 건설분야의 "설계기준문서"를 시각화하고 핵심 정보추출을 자동으로 해주는 플랫폼이다. 해당 플랫폼을 이용하여 토목분야 전문가들의 의사소통 문제를 완화시킬 수 있으며 용어의 비통일성 및 표준화에도 기여할 수 있다. 또한 본 논문은 국내 건설 및 토목분야에 최초로 자연언어처리 기술을 적용한 논문이다. 해당 분야의 연구를 활성화 하기 위해 건설분야에 특화된 단일 말뭉치와 트리플 데이터를 자체 제작함과 동시에 전면 공개하였다.

  • PDF

인스타그램 게시물 데이터를 활용한 건강기능식품 브랜드 분석 및 평가 (Analysis and evaluation of Health Functional Food(HFF) brand using Instagram post data)

  • 윤현주;신재영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.533-534
    • /
    • 2021
  • 최근 소셜 네트워크 서비스(SNS)를 통한 건강기능식품 과대광고 적발이 증가하면서 SNS를 통해 브랜드를 선택함에 있어 신뢰도가 소비자에게 중요한 요소가 된다. 본 논문에서는 인스타그램의 해시태그를 이용해 게시글을 크롤링 하여 수집된 게시물 데이터를 가공 및 분석한다. 불용어 사전을 구축해 불용어를 제거해준 뒤 브랜드 추출을 진행하고, 건강기능식품 브랜드 5개에 대한 게시글 데이터를 수집한다. 5개 브랜드의 신뢰도 측정을 위해 게시글, 해시태그, 계정명을 분석기준으로 삼아 라벨링 처리를 한다. 라벨링 된 열을 통해 절대적 수치로 점수를 부여하여 백분율로 점수를 표현한다. 신뢰도 점수와 더불어 브랜드의 고객 참여도 건수를 같이 명시해 준다.

  • PDF

과학기술 용어에 대한 용어 생명주기 고찰 -전자신문 말뭉치를 중심으로- (A Study on Term Life Cycle for Science & Technology Terms -Focused on 'ETNEWS' Corpus-)

  • 정한민;성원경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.84-89
    • /
    • 2006
  • 과학기술 분야에서의 기술 발전 속도에 맞추어 해당 분야의 용어 역시 생성과 소멸을 끊임없이 반복한다. 본 연구에서는 아직까지 체계적으로 다루어지고 있지 않은 용어 생명주기를 정의하고 다양한 관점으로 대용량 말뭉치에서 추출된 용어들을 분석함으로써 그 필요성을 주장하고자 한다. 용어 추출을 위한 대상으로서 12년 분량의 1,700여만 어절을 포함하는 전자신문 말뭉치를 선정하였는데, 그 이유는 여러 기간에 걸친 말뭉치이므로 용어 생명주기 추이를 파악하기 용이하며, 기술 발전이 빠른 대표적인 분야인 컴퓨터/IT/전기 전자를 포함하고 있기 때문이다. 본 연구를 통해 기간에 따른 용어 생명주기 변화, 용어 수명과 전문성과의 관계 등 여러 분석 결과를 얻었으며, 앞으로 일반 사전에의 등재 여부를 결정이나 유사 기술 간의 경쟁 구도를 분석 등 다양한 응용 분야에 활용될 것으로 기대 한다.

  • PDF

용어 신뢰도 기반 유튜브 영상 필터링 웹 서비스 설계 (Design of Youtube Video Filtering Web Service based on Reliability Analysis of Terms)

  • 한소현;신희원;황윤조;김윤희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.651-654
    • /
    • 2020
  • 유튜브 등의 1인 미디어 플랫폼 열풍과 반대로, 이에 대한 엄격한 방송 규약은 존재하지 않아 생기는 여러 사회적 문제가 대두되고 있다. 이러한 1인 미디어 시청자는 원하는 정보를 찾기 위해 영상 제공자가 제공하는 정보에만 의존하여 영상을 선택하고 내용을 확인하여야 한다. 그 결과 의도한 주제와 맞지 않은 영상을 시청하게 되는 비효율성을 해결하기 위해, 본 연구에서는 용어 신뢰도 기반 유튜브 영상 필터링 웹 서비스(YouChoose)를 제안한다. YouChoose는 유튜브 리뷰 영상의 음성을 자연어 처리 기법을 이용하여 사전 처리하고 신뢰도를 도출해 사용자에게 제공함으로써 검색 시 의도와 일치하는 영상을 직접 시청 전에 추천 받을 수 있도록 한다.

게임 정보검색을 위한 자동색인 및 신조어 처리 시스템 구현 (Implementation of the Automatic Indexing and New Term Processing System for Game Information Retrieval)

  • 이상준;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.51-54
    • /
    • 2001
  • 오늘날 국내외에 인터넷 보급의 대중화가 점차 확대되고 네트워크을 이용하는 게임의 증가에 따라 게임에 관련된 웹 문서에 대한 사용자의 요구가 증가되고 있다. 기존의 수작업에 의한 색인 방식은 많은 전문인력, 시간, 경비등을 필요로 하기 때문에, 기하급수적으로 증가하는 웹 상의 정보를 처리하기에는 이미 그 한계에 이른 실정이다. 이러한 문제점의 해결을 위해 컴퓨터를 이용한 자동색인 시스템의 개발은 매우 중요하고 시급하다. 더구나 게임 분야에서 있어 신조어는 너무나 급속히 생성되고 있다. 따라서 이러한 신조어 처리는 효과적인 자동색인을 위한 중요한 요소이다. 이 논문에서는 사용자들에게 보다 적합하고 안정적인 게임 정보를 제공하기 위해 게임 용어 사전을 이용한 자동색인과 신조어 처리 시스템을 설계, 구현한다. 자동색인 및 신조어 처리를 위해 게임용어사전, TF-IDF, n-gram 추출법을 이용한다.

  • PDF

사전학습 기반의 법률문서 요약 방법 비교연구 (Comparative study of legal document summary method based on pre-trained model)

  • 김의순;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.614-617
    • /
    • 2021
  • 법률 문서는 일반 사용자가 이해하기 어려운 용어로 이루어져 있고 특히 장문의 문서가 많아 법률시스템에 종사하는 종사자들 또한 많은 양의 문서를 읽기가 어려운 현실이다. 이에 문서 요약 방법중 딥러닝 기반의 사전학습 모델을 적용한 추출요약기반, 생성요약 방법론과 딥러닝 이전의 핵심문장 추출 방법론을 비교하여 법률용어의 요약성능에 대한 비교 평가를 수행하고자 하며 추후 연구과제로 법률문서에 특화된 요약 모델을 만들어보고자 한다.

딥러닝 기반 임상 관계 학습을 통한 질병 예측 (Disease Prediction By Learning Clinical Concept Relations)

  • 조승현;이경순
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권1호
    • /
    • pp.35-40
    • /
    • 2022
  • 본 논문에서는 임상 의사 결정 지원을 위하여 의학 지식을 통해 임상 관계를 추출하고 딥러닝 모델을 이용하여 질병을 예측하는 방법을 제안한다. 의학 사전인 UMLS(Unified Medical Language System)와 암 관련 의학 지식에 포함된 임상 용어를 5가지로 분류한다. 분류된 임상 용어들을 사용하여 위키피디아 의학 문서를 추출한다. 추출한 위키피디아 의학 문서와 추출한 임상 용어를 매칭하여 임상 관계를 구축한다. 구축한 임상 관계를 이용하여 딥러닝 학습을 진행한 후 질의에서 표현된 의학 용어를 바탕으로 질의와 연관된 질병을 예측한다. 이후, 예측한 질병과 관계가 있는 의학 용어를 확장 질의로 선택한 뒤 질의를 확장한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS), TREC Precision Medicine(PM) 테스트 컬렉션에 대해 비교 평가한다.

양방향 RNN과 학술용어사전을 이용한 영문학술문서 교정 방법론 (Methodology of Automatic Editing for Academic Writing Using Bidirectional RNN and Academic Dictionary)

  • 노영훈;장태우;원종운
    • 한국전자거래학회지
    • /
    • 제27권2호
    • /
    • pp.175-192
    • /
    • 2022
  • 자연어 처리 기술을 접목한 컴퓨터 보조 언어 학습 연구가 진행되고 있지만, 기존 영문교정은 일반적인 영어 문장을 기반으로 연구되어, 격식을 갖춘 문체와 전문적인 기술 용어를 사용하는 학술 영문의 경우 그 특성을 반영하지 못한 교정 결과를 제공한다. 또한 문장의 문법적 완성도 향상을 위한 다수의 기존 연구는 교정을 통한 문장 전달력 향상의 한계점이 존재한다. 따라서, 본 논문은 전문적인 기술 용어 사용을 기반으로 문장의 명확한 의미 전달을 목적으로 하는 학술 영문을 위한 자동 교정 방법론을 제안한다. 제안 방법론은 오탈자 교정과 문장 전달력 개선 두 단계로 구성된다. 오탈자 교정 단계는 입력된 오탈자와 문맥에 적합한 교정 단어를 제공한다. 문장 전달력 개선 단계는 원문과 교정문의 쌍으로부터 학습할 수 있는 양방향 순환신경망 기계번역 사후교정 모델을 기반으로 문장의 전달력을 개선한다. 실제 교정 데이터를 이용한 실험을 수행하였으며, 정량적·정성적 분석을 통해 제안 방법론의 우수성을 검증하였다.

한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX (A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX)

  • 김남철;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF