• 제목/요약/키워드: 전문용어 사전 구축

검색결과 34건 처리시간 0.03초

패턴생성을 통한 인터넷 문서의 한글-영문용어 추출 (Mining Korean-English Terminologies by Pattern Generation in Internet)

  • 강재호;김종성;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.148-150
    • /
    • 2003
  • 전문용어의 가짓수가 많고 생성빈도 또한 높은 분야에서 고품질의 정보검색과 기계번역 결과를 얻기 위해서는 상당 분량의 번역용어사전의 확보가 필수적이다. 이러한 분야에서 번역용어사전을 수작업으로 구축하는 것은 큰 부담이 된다. 본 논문에서는 이미 알고 있는 용어(원어)와 번역용어를 말뭉치에서 함께 표기한 부분을 찾아 패턴화하는 작업과, 생성된 패턴으로 추가의 용어-번역용어를 추출하는 작업을 반복하여 수행함으로써 번역용어사전을 자동으로 구축하는 방안을 제안한다. 인터넷 문서를 대상으로 본 제안방법을 적용해 본 결과 상당분량의 유효한 한글-영문용어들을 추출할 수 있었다.

  • PDF

사전간 계층관계를 이용한 전문용어 자동 추출 기법 (Automatic Terminology Recognition using the Dictionary Hierarchy)

  • 오종훈;이경순;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.131-136
    • /
    • 2000
  • 기존의 통계에 기반한 용어 자동 추출 기법(Automatic Term Recognition)은 비교적 좋은 성능의 결과를 보여왔다. 하지만 전문용어 사전 등의 정보를 이용하여 성능의 향상을 이룰 수 있는 여지는 여전히 남아있다. 본 논문에서는 이러한 근거에 기반하여 전문용어간의 계층 정보를 전문용어 사전을 통하여 구축하고 이를 이용하여 전문용어를 추출하는 방법을 제안하고자 한다. 본 논문이 제안하는 기법은 기존의 방법에 비해 좋은 성능을 나타내었다.

  • PDF

전문용어 탐지와 해석 모델: 한국어 의학용어 중심으로 (Detecting and Interpreting Terms: Focusing Korean Medical Terms)

  • 염하람;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.407-411
    • /
    • 2022
  • 최근 COVID-19로 인해 대중의 의학 분야 관심이 증가하고 있다. 대부분의 의학문서는 전문용어인 의학용어로 구성되어 있어 대중이 이를 보고 이해하기에 어려움이 있다. 의학용어를 쉬운 뜻으로 풀이하는 모델을 이용한다면 대중이 의학 문서를 쉽게 이해할 수 있을 것이다. 이런 문제를 완화하기 위해서 본 논문에서는 Transformer 기반 번역 모델을 이용한 의학용어 탐지 및 해석 모델을 제안한다. 번역 모델에 적용하기 위해 병렬말뭉치가 필요하다. 본 논문에서는 다음과 같은 방법으로 병렬말뭉치를 구축한다: 1) 의학용어 사전을 구축한다. 2) 의학 드라마의 자막으로부터 의학용어를 찾아서 그 뜻풀이로 대체한다. 3) 원자막과 뜻풀이가 포함된 자막을 나란히 배열한다. 구축된 병렬말뭉치를 이용해서 Transformer 번역모델에 적용하여 전문용어를 찾아서 해석하는 모델을 구축한다. 각 문장은 음절 단위로 나뉘어 사전학습 된 KoCharELECTRA를 이용해서 임베딩한다. 제안된 모델은 약 69.3%의 어절단위 BLEU 점수를 보였다. 제안된 의학용어 해석기를 통해 대중이 의학문서를 좀 더 쉽게 접근할 수 있을 것이다.

  • PDF

텍스트로부터 용어 정의문의 자동 추출 방법 (A Method for Automatic Extract ion of Term Definition from Text)

  • 신효식;김재호;이해윤;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.292-299
    • /
    • 2002
  • 본 연구는 텍스트 코퍼스로부터 용어의 정의를 자동으로 추출하여 용어의 자동 추출기술과 통합하여 다목적의 용어뱅크를 구축하기 위한 목적으로부터 출발하였다. 지식정보의 확산에 따라 기존 전문분야 용어집에 수록되지 알은 용어의 수는 폭발적으로 증가하고 있다. 기존의 용어집 혹은 용어사전의 디지털화만으로는 새로운 전문용어의 포괄성에서 한계가 있는 것이다. 정보의 획득이라는 면에서 보면 이러한 한계를 극복하고 모든 용어에 대해서 즉시적으로 용어의 정의를 제공받는 것이 바람직하다. 자동으로 구축된 용어집의 응용은 여러 가지로 기대된다. 새로운 용어에 대한 의미 파악을 위해서는 물론, 확장된 전문용어집의 작성이나 전문분야 온톨로지의 구축 등에도 이용될 수 있다.

  • PDF

구조적 학술용어사전 데이터베이스 구축에 있어서 용어의 의미관계 형성에 영향을 미치는 요인에 관한 연구 (A Study on the Factors Influencing Semantic Relation in Building a Structured Glossary)

  • 권선영
    • 한국문헌정보학회지
    • /
    • 제48권2호
    • /
    • pp.353-378
    • /
    • 2014
  • 본 연구는 구조적 정의에 의한 학술 용어 사전 데이터베이스 구축을 위해 학술용어의 의미관계 형성에 미치는 요인이 무엇인지를 찾아내고 이러한 요인이 어떠한 영향을 미치고 있는지를 밝히고자 하였다. 이를 위해 2007년부터 2011년 사이에 한국연구재단 등재학술지에 등재된 학술논문에서 학술논문 주제어를 추출하여 이를 대상으로 주제복합성, 언어 네트워크 특성, 출현빈도, 출현패턴을 분석하고 구축된 STNet의 의미관계 형성정도인 용어의 의미적 연결관계 노드의 수와 유형의 수와의 영향 관계를 살펴보았다. 가설 검증을 통해 구조적 학술용어사전의 구축에 있어 의미관계 형성정도에 주요한 영향을 미치는 요인으로 매개 중심성, 출현빈도, 구조적 공백성의 효과크기라는 것을 알 수 있었다. 그리고 용어의 중요성은 일반적으로 알려진 출현빈도를 통한 방법 외에도 연결정도 중심성, 근접 중심성, 매개 중심성, 위세 중심성과 같은 측정방법에 따라서도 판단할 수 있음을 확인하였다. 또한 주제복합성은 직접적으로 의미관계 형성정도에 영향을 미치지는 않지만 용어의 근접 중심성에 영향을 미치기 때문에 크게 4가지의 요인을 고려하여 용어를 선정할 경우 의미관계 형성정도는 높아질 수 있는 것으로 파악 되었다. 본 연구의 결과는 지금까지 용어를 선정하는 프로세스의 주된 방법론인 용어의 출현빈도를 활용하는 방법 이외에도 용어 네트워크상에서의 용어의 위치나 주제복합성 같은 방법론을 적용하여 용어를 선정할 수 있다는 것을 보여준다. 따라서 전문용어 사전을 구축할 때 용어의 네트워크에서의 매개 중심성, 출현빈도, 구조적 공백성의 효과크기, 용어의 주제복합성을 면밀히 판단하여 다각도로 용어를 선정할 경우 전문용어 사전의 질적인 향상과 완성도가 높아질 것을 기대할 수 있다.

재난안전 용어사전 구축을 위한 미디어별 어휘 사용 양상 비교 (Comparing the Usages of Vocabulary by Medias for Disaster Safety Terminology Construction)

  • 이정은;김태영;오효정
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권6호
    • /
    • pp.229-238
    • /
    • 2018
  • 재난사건의 신속한 대응은 다양한 분야의 재난안전 유관기관들이 유기적으로 관계함으로써 가능하며, 이 때 사용되는 재난용어의 표준화는 필수적이다. 따라서 재난안전 분야의 전문 용어사전 구축은 각 유관기관 간의 의사소통 및 국민에게 명확한 정보 전달을 위해 수반되는 핵심 요소이다. 더불어 효율적인 용어사전 구축을 위해서는 구축 대상 용어의 우선순위 선정이 필요하다. 본 연구에서는 구체적인 용어사전 구축방향의 설정을 위하여 용어 사용 주체로 대표되는 미디어를 각각 용어사전, 뉴스미디어, 소셜미디어로 선정하고 어휘의 사용 양상을 비교하였다. 이를 위해 각 미디어에서 수집된 어휘 자원을 바탕으로 미디어별 동시 출현 양상 및 빈도 가중치 분석을 통하여 어휘의 분포를 시각화하였다. 분석 결과를 통해 어휘의 사용 양상에 따라 용어사전의 구축대상이 될 수 있는 어휘의 유형을 4가지로 분류하고, 구축대상 기준별 용어사전 구축의 우선순위 방향성을 제안하였다.

국방과학기술 전문용어 사전 구축 표준화 및 활용 방안 연구 (Application and Standardization of Terminology Dictionary for Defense Science and Technology)

  • 최중환;최석두;김이겸;박영욱;정종희;안희정;정한민;김평
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2011년도 춘계 종합학술대회 논문집
    • /
    • pp.67-68
    • /
    • 2011
  • 국방과학기술 분야 업무의 효율성을 극대화하기 위해서는 국가적인 차원에서 국방 관련 기관들이 사용하고 있는 국방과학기술 분야의 전문용어를 광범위하게 수집하고 기술 체계를 통일하여 관리하는 것이 필요하다. 본 연구에서는 고도의 신뢰성이 요구되는 국방과학기술 정보분석의 기반을 제공하기 위해서 국방과학기술분야를 중심으로 전문용어의 선정, 기술 기준, 기술 구조를 포함하는 모든 프로세스를 표준화하는 것은 물론, 온라인 서비스에 전문용어 사전의 효과적으로 활용하기 위한 방안을 제시하고 있다.

  • PDF

코퍼스를 이용한 정보검색용 전자사전구축에 관한 연구

  • 남영준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.430-440
    • /
    • 1996
  • 지능형 정보검색시스템이 효율적으로 운용되기 위해서는 여러개의 서브시스템이 필요하다. 특히, 시소러스와 색인 및 검색시스템용 전자사전은 중요한 지식베이스이다. 본 연구에서는 한글전자사전의 개발에 필요한 이론과 구축기술에 대해 조사하였다. 그 내용은 1)전자사전의 의미, 2)전자사전의 형태, 3) 전자사전개발을 위한 코퍼스 구축기술 및 방법이라는 이론적인 부분과 실제 과기원코퍼스2를 이용한 균형코퍼스를 설계하였다. 한편, 균형코퍼스를 이용한 기본적인 명사사전과 공기사전, 전문용어사전구축방법도 제시하였다.

  • PDF

면역학 시소러스 및 온톨로지 구축 (Construction of Immunology Thesaurus and Ontology)

  • 임지희;최호섭;배영준;옥철영;최성필;성원경;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.21-27
    • /
    • 2005
  • 본 논문에서는 국가에서 추진하는 차세대신성장동력산업과 관련된 특정 분야('바이오 신약/장기' 분야 중 '면역 기능 제어')를 선택하여, 기구축된 면역학 전문용어사전을 비롯하여 의학용어사전, 표준국어대사전 등을 참조하여 핵심 용어와 관련 용어를 중심으로 면역학 시소러스(어휘 3,462개) 및 온톨로지(개념 노드 4,703개)를 구축하였다. 이것은 전문용어사전부터 온톨로지에 이르기까지 통일화된 표준 체계를 가지고 있으며, 도메인 온톨로지를 구축하여 향후 온톨로지 개발 방향을 설정할 수 있는 계기가 되었다고 할 수 있다. 또한 면역학 시소러스는 검색의 성능을 향상시킬 수 있도록 충분한 양의 데이터를 구축하였고 면역학 온톨로지는 언어처리적 관점에서의 온톨로지를 표현하였다. 이는 정보검색에서의 효율성을 비롯하여, 특정 웹 온톨로지 언어를 이용한 웹 온톨로지로의 변환성, 대규모 도메인 온톨로지라는 점에서 의미를 가진다고 할 수 있다.

  • PDF

국가R&D정보활용을 위한 전문용어사전 구축 (Construction of the Terminology Dictionary for National R&D Information Utilization)

  • 김태현;양명석;최광남
    • 한국콘텐츠학회논문지
    • /
    • 제19권10호
    • /
    • pp.217-225
    • /
    • 2019
  • 국가연구개발(R&D, Research and Development) 정보는 정부부처로부터 발주되는 사업 과제를 수행하는 과정에서 발생되는 다양한 연구분야의 정보들이 포함되어 있다. 따라서 효율적인 R&D정보 검색을 위해서는 이러한 국가R&D정보의 특성을 반영할 수 있는 국가R&D 전문용어사전 구축이 필요하다. 본 연구에서는 국가R&D정보에서 연구분야를 명시하기 위해 활용되는 국가과학기술표준분류를 적용하여 국가R&D용어사전을 구축하기 위한 방안을 제안한다. 국가R&D 과제정보의 구조적 특성과 그에 따른 과제 키워드의 유용성에 대해 언급하고, 국가과학기술표준분류별 국가R&D정보 현황과 국가R&D 용어의 특성에 대해 살펴보고자 한다. 그리고 이를 바탕으로 국가R&D용어사전을 구축하기 위한 방법을 용어사전의 유형과 구조, 사전구축 절차, 정제규칙의 관점에서 정의한다. 본 연구를 기반으로 구축되는 국가R&D용어사전은 국가R&D정보 검색 시 한 영 대역어, 동의어 등을 활용한 검색어 확장과 국가과학기술표준분류를 활용한 검색 범위 명확화, 용어설명 정보를 활용한 이용자 편의기능 제공 등에 다양하게 활용될 수 있다.