• 제목/요약/키워드: 용어추출

검색결과 361건 처리시간 0.03초

임상용어의 효율적 적용을 위한 참조용어 Subset 에디터의 개발 (A Development of Reference Terminology Subset Editor for effective adaption of Clinical Vocabulary)

  • 조훈;김형회;최병관;최영연;김화선;홍해숙
    • 한국멀티미디어학회논문지
    • /
    • 제11권3호
    • /
    • pp.364-372
    • /
    • 2008
  • 하나의 의학용어체계가 모든 의학 개념을 표현할 수 없으므로 전자의무기록의 각 영역에 적합한 의학용어를 적용하고 용어들을 효과적으로 연계하는 것이 실제 임상에서 매우 유용한 방법이다. 표준용어의 편리하고 효율적인 활용을 위해서는 임상과나 임상의의 사용목적에 적합한 범주를 구분하고, 구분한 범주에 입각하여 사용가능성 높은 용어들을 추출하여 정리한 용어 Subset의 개발이 요구된다. 또한 Subset은 표준용어체계의 변경이나 수정, 사용자의 새로운 요구에 알맞도록 지속적으로 개발과 업그레이드가 가능해야 한다. 본 연구에서는 부산대학교병원 신경외과환자의 퇴원요약지를 대상으로 추출된 주호소, 증상, 진단 및 수술명, 과거 시술명의 추출된 자료를 추출하고 분석하였다. 그리고 subset 데이터베이스를 생성하고 추가되는 용어에 대해서는 임상의가 직접 참조용어와의 매핑을 통해 새로운 데이터베이스를 생성될 수 있도록 Subset 에디터를 개발하였다. 결론적으로 본 연구는 용어체계의 방대함으로 인해 생기는 문제점과 비효율성을 줄일 수 있는 효과적인 관리 방법이 될 것이다.

  • PDF

전북 서해안권 국가지질공원 지질명소 안내 표지판에 사용된 용어 분석 (An Analyses of the Terms used in the Information Boards of Geosites at Jeonbuk West Coast National Geopark)

  • 신영준;조규성
    • 한국지구과학회지
    • /
    • 제41권1호
    • /
    • pp.40-47
    • /
    • 2020
  • 본 연구는 전북 서해안권 국가지질공원 지질명소의 안내 표지판에 기술된 용어를 분석하였다. 안내 표지판에 기술된 용어들 중 명사만을 추출하여 표준국어대사전, 지구과학 학술용어집, 2015개정 교육과정에 따른 교과용 도서 개발을 위한 편수 자료를 기준으로 등재 여부를 확인하여 8가지 유형으로 분류하였다. 추출된 용어 중 71개(10.8%)의 용어는 어느 용어집에도 등재되지 않은 [유형 8]에 해당하는 용어들이었다. 이 유형의 용어들은 대부분이 [명사]+[명사] 또는 [명사]+[접사]가 결합하여 파생된 합성어로 그 의미를 명확하게 해석하여 이해하기란 쉽지 않은 것으로 판단되었다. 또한 256개(46%)의 용어가 전문 분야에서 사용되는 전문 용어로 확인되었다. 따라서 국가지질공원 안내 표지판의 제작에 있어 일반인들과 학생들이 더 쉽게 읽고 이해할 수 있도록 전문 용어를 가급적 쉽게 풀어서 기술하고 전문 용어를 사용할 경우에는 용어에 대한 주석을 달아 부연 설명을 통해 충분한 교육적 효과를 얻을 수 있도록 해야 할 것이다.

생의학분야 PLOT 및 관계추출을 위한 테스트컬렉션 구축 (Construction of Test Collection for Extraction of Biomedical PLOT & Relations)

  • 최윤수;최성필;정창후
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2010년도 춘계 종합학술대회 논문집
    • /
    • pp.425-427
    • /
    • 2010
  • 대용량 문서에서 정보를 추출하는 작업은 크게 개체명 인식, 전문용어 인식, 관계추출 작업으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어 왔기 때문에, 이와 관련된 기계학습모델을 위한 테스트컬렉션 또한 독립적으로 구축되어 왔다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많아, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따르므로, 개체명과 전문용어를 동시에 추출 할 수 있는 기계학습 모델을 위한 테스트컬렉션이 필요하다. 본 연구에서는 생의학 분야 과학기술문헌에 대한 개체명, 전문용어를 통합한 PLOT(Person, Location, Organization, Terminology)과, PLOT 간의 관계추출을 위한 테스트컬렉션을 구축한다.

  • PDF

용어 클러스터링을 이용한 단일문서 키워드 추출에 관한 연구 (A Study on Keyword Extraction From a Single Document Using Term Clustering)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제44권3호
    • /
    • pp.155-173
    • /
    • 2010
  • 이 연구에서는 용어 클러스터링을 이용하여 단일문서의 키워드를 추출하는 알고리즘을 제안하고자 한다. 단락단위로 분할한 단일문서를 대상으로 1차 유사도와 2차 분포 유사도를 산출하여 용어 클러스터링을 수행한 결과, 50단어 단락에서 2차 분포 유사도를 적용했을 때 가장 우수한 성능을 나타냈다. 이후, 용어 클러스터링결과를 이용하여 단일문서의 키워드를 추출하기 위해 단순빈도와 상대빈도의 조합을 통해 다양한 키워드 추출 공식을 도출, 적용한 결과, 단락빈도(pf)와 단어빈도$\times$역단락빈도($tf{\times}ipf$) 조건에서 가장 우수한 결과를 나타냈다. 이 결과를 통해, 본 연구에서 제안한 알고리즘은 좋은 키워드가 가져야 할 두 가지 조건인 주제성과 고른 빈도분포라는 측면에서 단일문서를 대상으로 효과적으로 키워드를 추출할 수 있음을 확인하였다.

과학기술 핵심개체 인식기술 통합에 관한 연구 (A Study on the Integration of Recognition Technology for Scientific Core Entities)

  • 최윤수;정창후;조현양
    • 정보관리학회지
    • /
    • 제28권1호
    • /
    • pp.89-104
    • /
    • 2011
  • 대용량 문서에서 정보를 추출하는 작업은 정보검색 분야뿐 아니라 질의응답과 요약 분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로서 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 과학기술문헌을 분석하여 개체명과 전문용어를 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다.

KT 용어 온토로지 구축 (Ontology construction for Korea Telecom(KT) Terms)

  • 노덕근;변동률;박순철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (D)
    • /
    • pp.550-555
    • /
    • 2007
  • 본 논문에서는 한국통신(KT)에서 사용되는 주요 용어들을 추출하여 추출된 용어들 간의 고유성과 관계성을 기초로 한 용어 온토로지를 구축하였다. 또한 생성된 용어 온토로지를 이용한 검색질의 예를 통해서 기업의 다양한 분야를 관리하는데 도움을 줄 수 있는 방안을 모색했다. 온토로지 구축 툴로는 은토로지 에디터, Protege를 사용하였으며. 온토로지는 최상위 클래스 Organization(기관), Employee(직원), Product(상품), Technique(기술) 등 4가지로 분류하여 구축하였다. 본 연구를 기초로 한국통신(KT)의 다양한 지식정보를 체계화하고 KT 데이터베이스를 효과적으로 관리할 수 있을 것이다. 또한 구축된 온토로지를 이용한 미래의 KT 시멘틱 검색시스템 구축에 기초가 되기를 기대한다.

  • PDF

용어정의와 관계추출을 통한 시소러스 확장에 관한 연구 (A Study on Thesaurus Expansion through Definitions of Terms and Extraction of Relationships)

  • 김지훈;김태수
    • 한국문헌정보학회지
    • /
    • 제40권1호
    • /
    • pp.293-314
    • /
    • 2006
  • 정보검색과정에서 용어의 일관성을 유지하기 위해, 시소러스에서 용어의 의미를 명확하게 제시하는 것이 필요하다. 이에 대부분 시소러스는 기본관계나 범위주기를 이용하여 용어의 의미를 제시하여 왔으나, 최근 내용과 형식에 있어서 표준화된 정의를 포함하는 시소러스가 제안되어 왔다. 이 연구는 표준화된 정의를 작성함과 동시에 그러한 과정에서 사용한 정의모델의 내용에서 관계를 추출하고, 이들 표준정의와 추출된 관계를 기존의 시소러스에 통합하거나 대체하여 확장된 시소러스를 구축해 봄으로써, 시소러스가 더욱 발전할 수 있는 가능성을 고찰하였다.

기계학습에 기반한 생의학분야 전문용어의 자동인식 (Machine-Learning Based Biomedical Term Recognition)

  • 오종훈;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권8호
    • /
    • pp.718-729
    • /
    • 2006
  • 일정 분야의 문서들에서 그 분야 특정을 반영하는 전문용어를 자동으로 인식하는 연구에 대한 관심이 증가하고 있다. '전문용어 인식'은 문서에서 전문용어가 될 수 있는 언어적 단위를 파악하는 '용어 추출' 과정과 '용어추출' 과정에서 얻어진 용어목록 중 해당분야의 전문용어를 고르는 '전문용어 선택' 과정으로 구성된다. '전문용어 선택' 과정은 용어목록을 전문용어의 특정에 따라 순위화한 후 타당한 전문용어를 파악하는 작업으로 정의된다. 따라서 전문용어 선택 문제는 용어목록의 순위화 작업과 순위화된 목록에서 전문용어와 비전문용어 간의 경계를 인식하는 작업으로 정의된다. 기존의 전문용어 선택 기법은 주로 용어의 빈도수 등과 같은 통계적 특정만을 이용하였다. 하지만 통계적 특정만으로는 효과적으로 전문용어를 선택하기 어렵다. 본 논문의 논제는 전문용어 선택에서 다양한 전문용어의 특정을 고려하고 이들 중 전문용어 선택에서 효과적인 특정을 찾으려는 것이다. 순위화 문제는 다양한 전문용어 특정을 도출하고 이들을 기계학습방법으로 통합하여 해결한다. 경계인식 문제는 전문용어와 비전문용어의 이진 분류 문제로 정의하고 기계학습방법으로 해결한다. 본 논문의 기법은 경계인식측면에서 78-86%의 정확률과 87% -90%의 재현율을 나타내었으며, 순위화 측면에서 89%-92%의 11포인트 평균정확률을 나타내었다. 또한 기존 연구보다 최고 26% 의 성능향상을 보였다.

Computational Thinking(CT) 관련 국내 연구 동향 분석 : CT 용어 사용을 중심으로 (The Analysis on Research Trends for Computational Thinking in Korea : Based on Terminology of CT)

  • 한정민;김성원;이영준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.223-226
    • /
    • 2017
  • 소프트웨어 교육이 활성화됨에 따라 CT의 중요성이 증가하고 있지만, CT는 다양한 단어로 혼용되고 있다. 이와 같은 현황은 CT 연구에 어려움을 유발하고 있다. 따라서 본 연구에서는 CT 용어 사용의 표준화를 위하여 CT 관련 연구에서 사용하고 있는 CT의 용어를 분석하였다. 이러한 연구를 위하여 선행 연구를 통해 '컴퓨팅 사고(력)', 'computational thinking(CT)', '계산적 사고(력)', '알고리즘적 사고(력)', '컴퓨터적 사고(력)', '컴퓨터 과학적 사고(력)', '정보적 사고(력)', '정보 과학적 사고(력)'이라는 키워드를 추출하였다. 추출한 키워드를 기반으로 학술연구정보서비스에서 CT 관련 논문을 수집한 후 CT 관련 논문 중, 제목에 CT 관련 용어가 포함된 123편의 논문을 최종 연구 대상으로 선정하였다. 이와 같은 논문을 분석한 결과, CT 관련 연구는 2008년부터 지금까지 꾸준히 증가해 왔으며 특히 2014년과 2015년 사이에 큰 폭으로 증가한 것을 알 수 있었다. 또한 CT를 표현하는 여러 용어들이 혼재하는 기간을 거쳐 CT의 한글 용어에 대한 합의가 '컴퓨팅 사고력'으로 귀결되고 있는 것을 확인 할 수 있었다. 이를 출발점으로 연구주제, 연구방법, 연구대상 등을 중심으로 한 CT 관련 연구동향 연구가 추후 이루어져야 함을 제안한다.

  • PDF

음란 사이트 탐지 시스템의 설계 및 구현 (The Design and Implementation of Lewdness Site Detection System)

  • 최상필;김병만;이숙희;김주연;김경호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.196-198
    • /
    • 2000
  • 본 논문에서는 음란사이트를 효과적으로 탐지하기 위하여 퍼지 추론을 이용한 방법을 제안한다. 사용자로부터 몇 개의 음란 사이트 URL을 질의로 입력받아, 해당 URL로부터 수집된 웹 문서들에서 웹 태그와 불용어를 제외한 모든 용어들을 추출한 후, 용어의 DF, TF, HI(Heuristic Information) 정보들을 퍼지 추론에 적용하여 사용자가 제시한 음란 사이트에서 용어의 중요도를 산정한다. 또한, 웹 로봇은 인터넷에서 웹 문서를 수집하고, 퍼지 추론에 의해 산정된 용어의 중요도를 이용하여 수집된 웹 문서가 음란 문서일 가능성을 판별한다.

  • PDF