• 제목/요약/키워드: 분류화

검색결과 4,805건 처리시간 0.032초

현대 한국어에서 아라비안 숫자의 읽기 규칙 연구 (A Study on the Arabic numeral reading rules in Modern Korean)

  • 정영임;김정세;김상훈;이영직;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-23
    • /
    • 2002
  • 본 논문에서는 아라비안 숫자를 포함한 텍스트를 음성으로 합성하기 위하여, 숫자 형태와 분류사 그리고 숫자가 나오는 문맥에 따라 숫자를 자동으로 문자화할 수 있는 전처리 규칙을 설정하는데 목적을 둔다. 먼저 선행연구를 통해 숫자를 포함한 수사 및 수사표현의 읽기 규칙의 적용 범위 및 한계점을 살펴보고, 음성 합성을 위한 아라비안 숫자의 문자화 규칙을 설정하고자 한다. 현대 한국어에서 아라비안 숫자를 읽는 방식은 크게 고유어 방식과 한자어 방식이 있으며 단(單)단위에서는 영어가 사용되기도 한다. 또한 한자어 방식에서도 단위를 붙여 읽는 경우와 모든 수를 단 단위로 읽는 경우가 있으므로, 아라비안 숫자의 문자화를 단순한 규칙을 설정하여 자동화하기에는 중의성이 높다. 본 연구에서는 (1) 숫자 전 전치어(pre-numeral), (2) 기호를 포함한 숫자열의 표현 형식과 크기, (3) 단위 표현, (4) 숫자 후치어(post-numeral), (5) 분류사(classifier) (6) 분류사 후치어(post-classifier), (7) 수사표현 앞뒤 문맥에 따라, 아라비안 숫자표현이 문자화되는 방식을 살펴보았다. 분석 대상 말뭉치는 C 신문의 2000년 1월부터 2000년 4월까지 전체 기사 1,400건에서 숫자가 포함된 숫자표현 약 63,000개론 구성하였다. 패턴화된 구조 및 중의성이 없는 구조를 12가지로 밝히고 중의성이 있는 구조의 유형을 밝혔으며 분류사 후치어와의 결합 관계, 좌우 문맥정보를 통해 중의성 해결의 단서를 제시하고자 하였다.

  • PDF

데이터 마이닝을 위한 이산화 알고리즘에 대한 비교 연구 (A Comparative Study on Discretization Algorithms for Data Mining)

  • 최병수;김현지;차운옥
    • Communications for Statistical Applications and Methods
    • /
    • 제18권1호
    • /
    • pp.89-102
    • /
    • 2011
  • 이산화는 데이터 마이닝을 위한 전처리 과정으로서 연속형 변수를 이산형 변수로 바꾸는 과정이고, 이산화 시킨 데이터가 원래 가지고 있던 정보손실을 최소로 하면서 높은 분류정확도를 가지는 것을 목적으로 한다. 지금까지 많은 이산화 알고리즘이 제안되었는데, 본 논문에서는 분할 이산화와 병합 이산화의 관점에서 최근까지 제안된 대표적인 이산화 알고리즘들을 비교하고, 이산화 알고리즘이 가지고 있는 특성을 연구하였다. 또한 비교 연구한 이산화 알고리즘을 R코드로 작성하여 다른 연구에 사용할 수 있도록 하였다.

국제기능표준 분류체계

  • 강신각;이종화
    • 전자통신동향분석
    • /
    • 제5권4호
    • /
    • pp.3-11
    • /
    • 1990
  • 본고에서는 현재 ISO/IEC JTC1에서 활발히 추진되고 있는 국제기능표준 제정 활동과 JTC1/SGFS에서 작성된 기술문서 TR10000을 기본으로 프로파일과 분류법, 상세분류사항, 적합성 요구사항 그리고 프로파일구조에 대하여 기술하고 있다. TR10000은 국제기능표준의 형식, 내용구조 및 분류체계를 정의함으로써 국제기능표준안 작성을 위한 지침을 제공한다.

디자인 DB에 있어서 분류체계에 관한 연구 (A Study on the Classification System for Design DB)

  • 유보현;홍석기
    • 한국디자인학회:학술대회논문집
    • /
    • 한국디자인학회 1999년도 춘계 학술발표대회 논문집
    • /
    • pp.40-41
    • /
    • 1999
  • 오늘날의 정보화 사회에 있어서, 인터넷을 이용한 정보 교환시스템인 보편화되면서 필요한 정보를 신속하게 공유하고 이용할 수 있는 환경을 구축하는 것은 어느 분야에서나 가장 중요하게 해결해야 될 선결 과제가 아닐 수 없다. 이에 따라 사용자를 위한 자료(DB)의 구축과 이를 위한 객관적이고도 효율적인 분류체계의 정립이 요구되고 있다. (중략)

  • PDF

eCRM에서 최적화 모형을 이용한 고객 분류 시스템 (Customer Classification System using Optimized Form in eCRM)

  • 이재훈;이성주
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.149-152
    • /
    • 2004
  • 기업들의 고객중심 마케팅 기법중 하나인 고객관계관리(CRM : Customer Relationship Management)가 인터넷의 발전으로 온라인화 되고 있으며 다양하게 발전되어 왔다. 가장 대두되고 있는 문제는 고객 분류를 객관적인 방법으로 어떻게 자동화할 수 있는가 이다. 본 논문은 최적화 모형을 이용하여 고객 분류를 더욱 세밀하게 할 수 있음을 제안하였고 고객 집단 편성 최적화를 반영함으로써 고객을 최적으로 분류할 수 있는 시스템을 설계 및 구축하였다.

  • PDF

동양 관상학을 적용한 성격별 얼굴 설계 시스템에 관한 연구 (A Study on Facial Visualization System based on one's Personality applied with the Oriental Physiognomy)

  • 강선희;김효동;이경원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 2부
    • /
    • pp.346-357
    • /
    • 2008
  • 관상학(Physiognomy)이란 사람의 얼굴을 보고 그의 운명, 성격, 수명 따위를 판단하는 방법을 연구하는 학문을 말한다. 이 논문에서 언급하는 관상학은 동양에서 말하는 관상학, 특히 얼굴의 부분적 특성이나 전체적인 조화를 통해 성격과 운영을 예측하는 학문을 의미한다. 이 연구는 동양 관상학을 적용한 성격별 얼굴 설계 시스템 구축에 관한 것으로, 첫째, 보편적인 성격 분류를 위해 MBTI에서 다루는 성격 어휘 161개를 군집분석을 통해 39개의 대표 어휘로 추출하였다. 추출된 대표 성격 어휘의 의미상 거리를 나타내기 위하여 서베이를 통해 얻은 데이터를 다차원 척도법을 통해 2차원 공간상에 성격 어휘의 관계를 분석하였다. 둘째, 얼굴 시각화를 위해 먼저 얼굴의 형태적 특성을 결정짓는 요소를 크게 얼굴형, 눈, 코, 입, 이마, 눈썹으로 분류하고, 분류된 6가지 얼굴 형태의 29가지 하위요소 별 성격을 한국인의 얼굴 특성을 기준으로 관상학적 정리 및 숫자형식 코드화를 하였다. 추출된 대표 성격 어휘별 얼굴 요소의 형태를 앞서 정리된 코드에 따라 하나의 얼굴 형태로 조합하여 39가지 얼굴을 시각화 하여 마지막으로, 성격별 얼굴 설계 시스템 'FACE'를 제작하였다. 이 연구는 사람의 성격 특성에 따라 그에 맞는 얼굴 형태를 구현하는 시스템을 제작하여 일반 사용자 뿐 아니라 애니메이션 캐릭터 개발자에게 객관적인 도움을 줄 수 있으며 또한 예로부터 내려오는 관상학의 적용 범위를 넓힐 수 있는 가능성을 보여주었다고 할 수 있다.

  • PDF

능동적 학습을 위한 군집화 기반 복수 문의 예제 선정

  • 강재호;류광렬;권혁철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 춘계학술대회
    • /
    • pp.240-249
    • /
    • 2005
  • 사용자 맞춤 서비스를 위하여 온라인상에서 사용자의 관심 분야를 파악하고자 하는 경우에는 적은 수의 훈련 예제로 효율적인 학습이 가능한 능동적 학습이 적절하다. 능동적 학습을 효과적으로 적용하기 위하여 사용자에게 문의할 가치가 높은 예제를 선정하는 것도 중요하지만, 사용자 편의를 위해서는 문의 횟수를 가능한 최소화하여야 한다. 문의 횟수를 줄이면서도 많은 수의 훈련 예제를 획득하기 위해서는 복수의 문의 예제들을 사용자에게 한꺼번에 제시하고 그 관심 여부를 표한하게 하는 것이 효과적이다. 본 논문에서는 능동적 학습 적용 시 사용자에게 문의할 가치가 높은 복수 문의 예제들을 효과적으로 선정하기 위하여 가중치 반영 군집화를 적용하는 방안을 제안한다. 본 제안 방안은 먼저 각 예제의 문의 예제로서의 가치를 파악하고 이를 가중치로 삼아 군집화를 수행하여 상대적으로 유사한 예제들의 집합을 구성한다. 이어서 생성된 각각의 군집에서 가장 보편적인 예제를 문의 예제로 선정하면 선정된 각각의 문의 예지는 문의할 가치가 높으면서 함께 문의하게 될 예제들은 서로 충분히 달라 학습에 보다 유용하게 사용할 수 있는 훈련 예제들을 얻을 수 있다. 문서 분류 문제를 대상으로 본 제안 방안을 실험한 결과, 단순히 문의 가치가 높은 복수의 예제들을 함께 문의할 예제들로 선정하는 방안에 비해 학습 성능이 뛰어났으며, 한 번에 문의하는 예제 수를 증가시키더라도 분류기의 성능 저하가 적음을 확인하였다.

  • PDF

다중 생체 인식 시스템을 위한 정규화함수와 결합알고리즘의 성능 평가 (Performance Evaluation of Various Normalization Methods and Score-level Fusion Algorithms for Multiple-Biometric System)

  • 우나영;김학일
    • 정보보호학회논문지
    • /
    • 제16권3호
    • /
    • pp.115-127
    • /
    • 2006
  • 본 논문의 목적은 다중 생체 인식을 위하여 사용되는 다양한 정규화함수와 결합 및 패턴 분류 알고리즘들의 성능을 비교 평가하는 것이다. 이를 위하여 NIST에서 제공하는 유사도 집합인 BSSR(Biometric from Set-Releasel) 데이터베이스와 다양한 정규화함수, 결합 및 패턴 분류 알고리즘을 이용하여 실험을 수행하였으며, HTER(Half Total Error Rate)을 이용한 평가 결과를 제시하고 있다. 본 연구는 단일 데이터베이스와 평가 항목을 이용한 평가 결과를 제시함으로써 다중 생체 인식시스템의 성능 개선 연구를 위한 토대가 될 수 있다.

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법 (A Clustering-based Undersampling Method to Prevent Information Loss from Text Data)

  • 김종휘;신사임;장진예
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

자동 카테고리 생성과 동적 분류 체계를 사용한 이메일 분류 (Classification of e-mail Using Dynamic Category Hierarchy and Automatic category generation)

  • 안찬민;박상호;이주홍;최범기;박선
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.79-89
    • /
    • 2004
  • 이메일 사용이 보편화됨에 따라 점차 수신되는 메일의 량이 증가하고 있다. 이러한 메일 량의 증가는 사용자로 하여금 이메일을 좀더 효율적으로 분류할 수 있는 방법을 필요하게 한다. 그러나 현재의 이메일 분류는 규칙기반, 베이시안, SVM등을 이용하여 스팸메일을 필터링 하는 이원분류가 주로 연구되고 있다. 이외에도 다원분류에 대한 연구로는 클러스터링을 이용한 방법이 있으나, 이는 단순히 유사도에 의해 메일을 그룹화 하는 수준이다. 본 논문에서는 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성 방법과 동적분류체계 방법을 결합하여 새로운 이메일 자동 분류 방법을 제안했다. 본 논문에서 제안한 방법은 이메일을 자동으로 다원분류하며 대량의 메일도 효율적으로 관리할 수 있다. 또한 메일을 동적으로 재분류 할 수 있게 함으로써 정확율을 높였다.

  • PDF