Search | Korea Science

Automatic Text Categorization by using Normalized Term Frequency Weighting (정규화 용어빈도가중치에 의한 자동문서분류)

김수진;김민수;백장선;박혁로
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.04c
- /
- pp.510-512
- /
- 2003
본 논문에서는 문서의 자동 분류를 위한 용어 빈도 가중치 계산 방법으로 Box-Cox변환기법을 응용한 정규화 용어빈도 가중치를 정의하고, 이를 문서 분류에 적응하였다. 여기서 Box-Cox 변환기법이란 자료를 정규분포화 할 때 적용하는 통계적인 변환방법으로서, 본 논문에서는 이를 응용하여 새로운 용어빈도가중치 계산법을 제안한다. 문서에서 등장한 용어 빈도는 너무 많거나 적게 등장할 경우, 중요도가 떨어지게 되는데, 이는 용어의 중요도가 빈도에 따른 정규분포로 모델링 될 수 있다는 것을 의미한다. 또한 정규화 가중치 계산방법은 기존의 용어빈도 가중치 공식과 비교할 때, 용어마다 계산방법이 달라져, 로그나 루트와 같은 고정된 가중치 방법보다는 좀더 일반적인 방법이라 할 수 있다. 신문기사 8000건을 대상으로 4개의 그룹으로 나누어 실험 한 결과, 정규화 용어빈도가중치 계산방법이 모두 우위의 분류 정확도롤 가져, 본 논문에서 제안한 방법이 타당함을 알 수 있다.
PDF

ISO/IEC JTC1 SC27/WG2의 용어들에 관한 조사 연구

Jin, Won-Il;Kim, Dong-Han;Lee, In-Su;Kim, Chul
- Review of KIISC
- /
- v.6 no.3
- /
- pp.125-151
- /
- 1996
본 고에서는 ISO/IEC JTC1 SC27/WG2의 용어들에 관하여 조사한다. 용어는 이론의 개념을 나타내는 매우 긴요한 구성 요소로서 모든 체계에 있어서 용어의 적절한 정의는 필수적이다. 국내에서 SC27과 관련하여 많은 국내 표준화가 이루어지고 있으나, 용어의 선택과 그 정의에 관한 합의는 아직 도출되지 못한 실정이다. 따라서 본고에서는 관련된 영어 정의와 해당되는 한글 정의를 제시함으로써 국내 관련 용어 표준화에 기여하고자 하며, 암호학의 기본적인 개념들을 정립하고자 할 때 정확한 개념의 확립에 도움이 되고자 한다. 본 고는 ISO/IEC JTC1 SC27/WG2의 Editor인 C. J. Mitchell(영국)에 의한 WG2 문서$^{[Mi]}$에 기초하고 있다. 본 고에서는 단지 ISO/IEC JTC1 SC27/WG2의 용어들만을 정의하며, 추후 다른WG의 용어들의 보강하고, 전문가들의 의견을 종합하여 용어의 국내 표준화를 완성하고자 한다.
PDF

Automatic Generating Stopword Methods for Improving Topic Model (토픽모델의 성능 향상을 위한 불용어 자동 생성 기법)

Lee, Jung-Been;In, Hoh Peter
- Annual Conference of KIPS
- /
- 2017.04a
- /
- pp.869-872
- /
- 2017
정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.
https://doi.org/10.3745/PKIPS.y2017m04a.869 인용 PDF

A Study on Computer Terms in Elementary School (초등학교 컴퓨터 용어에 관한 연구)

Youn, Jung-Suk;Kim, Kap-Su
- 한국정보교육학회:학술대회논문집
- /
- 2004.01a
- /
- pp.558-564
- /
- 2004
21세기를 지식정보화 시대라고 한다. 자고 나면 새로운 것이 발견되고 새로운 책들이 쓰여지는 지식 홍수의 시대라고 할 수 있다. 그 중에서도 컴퓨터 분야는 타 분야에 비해 매우 빠른 변화를 보이고 있으며, 새로운 제품들이 끊임없이 개발 보급되고 있다. 이로 인해 과거에 쓰이던 컴퓨터 용어가 사라지기도 하고, 기술의 발달로 인해 새로운 용어가 생겨나기도 한다. 컴퓨터를 배우거나 컴퓨터를 효과적으로 사용하기 위해서는 컴퓨터에 관련된 용어에 대해 바르게 알고 있어야 한다. 그러나 대부분의 사람들은 잘못된 컴퓨터 용어를 사용하거나 여러 가지 용어를 섞어서 사용하고 있다. 따라서 본 연구는 최근에 개발된 컴퓨터 교과서 편수자료를 바탕으로 하여 현재 초등학교에서 사용하고 있는 계량활동 컴퓨터 교과서에 나타난 컴퓨터 용어를 분석하고 기존의 연구 자료와 비교해 본 후에 초등학교 수준에 맞는 컴퓨터용어를 선정하고, 더 나아가서 정보통신기술교육 영역별로 컴퓨터 용어를 분류해 보고자 한다.
PDF

Text Categorization Based on Terminology and Information Extraction (전문용어 및 정보추출에 기반한 문서분류시스템)

Lee, Kyung-Soon;Choi, Key-Sun
- Annual Conference on Human and Language Technology
- /
- 1999.10e
- /
- pp.79-84
- /
- 1999
본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.
PDF

The Impact of Combining Term Wights on Retrieval Effectiveness (용어가중치 결합이 검색 효율성에 미치는 영향 연구)

최성환;정영미
- Proceedings of the Korean Information Science Society Conference
- /
- 2002.04b
- /
- pp.481-483
- /
- 2002
본 논문에서는 데이터 결합 영역에서 문서값을 정규화 하는 기법과 결합함수에 따라 용어가중치 결합이 검색성능에 어떤 영향을 미치는가를 분석하였으며, 특히 용어가중치 결합이 실질적으로 효율적인가를 성능 향상률 측면과 검색시스템의 효율성 측면에서 검증하고, 성능이 향상된 용어가중치 결합의 특징을 분석하였다. 실헙결과 대부분의 장어가중치 결합은 문서값 정규화 기법과 실험집단에 관계없이 높은 성능 향상률을 보이지 않았다. 특히 단일가중치고 높은 검색성능을 보였던 상위 가중치 알고리즘들은 다른 가중치 알고리즘과 결합할 경우 두드러진 성능 향상률을 보이지 않았다. 검색시스템의 효율성 측면에서 용어가중치 결합을 평가한 결과 문헌 내 단어빈도를 최대단어 빈도로 정규화한 가중치 알고리즘이 코사인 정규화 기법을 적용한 가중치 알고리즘들과 결합될 때 5개 실험집안에서 최적 단일가중치 보다 2% 이상 높은 성능을 보였다. 이는 서로 다른 특성을 지니는 용어가중치 알고리즘들이 장단점을 보완하여 검색성능을 향상시킨 수 있다는 것을 의미한다. 그러나 용어가중치 결합의 효율성은 컬렉션과 가중치 알고리즘의 특성에 의존적이었으며, 비록 각 용어가중치 결합의 성능이 높게 나타날지라도 최적의 성능을 보인 달일가중치와 비교하면 그 성능 차이가 미미하거나 낮아서 대부분의 용어가중치 결합이 실질적으로 효과적이지 못하였다.
PDF

Automatic Term Recognition Through EM Algorithm (EM 알고리즘을 이용한 전문용어의 자동 추출)

오종훈;김재호;최기선
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.10a
- /
- pp.487-489
- /
- 2003
전문용어란 전문분야의 개념이 언어적으로 표현된 형태이다. 전문분야마다 분야 특성 적인 개념이 사용되므로, 전문용어는 전문분야를 특성화하는 단위로 사용된다. 따라서 전문분야문서에 대한 자연언어처리에서 전문용어를 효과적으로 처리하는 것은 매우 중요하다. 전문용어 추출은 분야 특성적인 전문용어를 해당 분야 문서에서 파악하는 작업을 말한다. 본 논문에서는 기계학습방법을 이용한 전문용어 자동 추출 기법을 제안한다. 본 논문의 기법은 전문분야 사전과 전문분야 문서를 이용하여 문서에서 나타나는 전문용어의 특성을 파악하고 이를 이용하여 전문용어를 추출한다. 본 논문의 기법은 70,000단어 수준의 영어 의학분야 300개 문서에 대하여 약 77%의 정확률로 전문용어를 추출하였다.
PDF

Study of Term Life Cycle Management for Efficient Resource Use (효율적인 자원 운영을 위한 전문용어 생명주기 관리 연구)

Jung Hanmin;Koo Hee-Kwan;Lee Byeng-Hee;Sung Won-Kyung
- Proceedings of the Korean Information Science Society Conference
- /
- 2005.07b
- /
- pp.457-459
- /
- 2005
전문용어는 사전, 시소러스 및 온톨로지를 비롯한 다양한 기반지식자원에서 사용되고 있으며, 해당분야 발전에 민감하게 반응하는 특징을 가진다. 그럼에도 불구하고, 용어를 생명주기 관점에서 바라보고 이를 효율적으로 사용할 수 있도록 하는 연구가 부족하다. 본 논문에서는 한정된 인적${\cdot}$물적 자원을 효율적으로 사용할 수 있도록 가까운 미래에도 유용한 용어들을 선정하고 관리하기 위한 방안으로서 용어지배값 (TDV; Term Dominance Value)을 제안한다. 이를 통해 용어 생명주기의 각 단계를 생성, 성장, 유지, 쇠퇴, 소멸, 재생 등으로 정의함으로써 관리해야 할 대상 용어를 명확히 할 수 있도록 한다. 용어지배값과 Coverage와의 관계 실험을 통해 유망한 용어들을 선정하고 관리해야 하는 당위성을 보여준다.
PDF

Implementation of a SNOMED CT Browser for Effective Searching of Clinical Terminology (의학 용어의 효과적인 검색을 위한 SNOMED CT 브라우저의 구현)

Ryu, Woo-Seok
- The Journal of the Korea institute of electronic communication sciences
- /
- v.10 no.9
- /
- pp.1059-1064
- /
- 2015
To write a medical record using SNOMED CT standard clinical terminologies, it is necessary to find and select an appropriate terminology from the huge volume of terminologies within short time. Using previous SNOMED CT search browsers, it is very difficult to select appropriate one from search results since they provide a simple list-up of similar candidate terminologies. This paper proposes a novel search browser which supports effect searching of clinical terminology by utilizing characteristics of SNOMED CT. The proposed system provides a simplified tree-view representing hierarchical structures of search results which enables fast selection of appropriate terminology from the search results. Design and Implementation of the system proves effectiveness of the proposed approach.
https://doi.org/10.13067/JKIECS.2015.10.9.1059 인용 PDF KSCI

Terminology Tagging System using elements of Korean Encyclopedia (백과사전 기반 전문용어 태깅 시스템)

Bae, Young-Jun;Choe, Ho-Seop;Ock, Cheul-Young
- Annual Conference on Human and Language Technology
- /
- 2005.10a
- /
- pp.167-172
- /
- 2005
지금까지 자연언어처리에서의 품사태깅(parts-of-speech tagging) 기술에 대한 연구는 활발히 진행된 반면, 전문용어에 대한 처리 기술은 미비한 점이 많았다. 전문용어에 관련된 연구는 대부분 구축, 표준화, 추출 등에 대한 연구가 많았으나 전문용어 태그 설정과 태깅 기술 연구는 부족한 상황이다. 본 논문에서는 전문용어 태그를 (분야정보: 아이디) 순으로 설정하고 백과사전의 분류 체계를 이용하여 어떤 특정 분야 문서의 전문용어를 자동으로 태깅하는 시스템을 구축하였다. 전문용어 태깅 시스템은 형태소분석기를 사용하지 알고 문맥의 규칙과 조사 어미사전을 이용해 자동으로 태깅을 하게 된다. 이 시스템의 정확률 측정을 위한 정답말뭉치는 웹 상에 공개되어 있는 백과사전 html문서를 이용하였다. 우선 백과사전에 나와있는 용어는 전문용어라고 가정한다. 하나의 문서에는 '용어', '요약', '본문', '이미지', '분류', '참조항목' 등의 정보들이 있다. 이 중 '본문'에는 그 용어에 대한 자세한 설명이 있는데 특정 단어에는 태그로 백과사전 내에 있는 단어를 찾아 볼 수 있게 링크 되어있다. 이 정보를 이용해 태그로 되어있는 것을 설정한 태그로 바꾸고 단계별로 확장 태깅을 해서 정답말뭉치를 만든다. 태깅 시스템과 정답말뭉치를 비교해 정확률을 계산해서 시스템의 성능을 측정하였다.

Search Result 3,808, Processing Time 0.036 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)