• 제목/요약/키워드: 연속형 속성

검색결과 35건 처리시간 0.022초

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of continuous-valued attributes considering data distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.217-220
    • /
    • 2003
  • 본 논문에서는 특정 매개변수의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(conti-nuous) 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

  • PDF

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of Continuous-Valued Attributes considering Data Distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.391-396
    • /
    • 2003
  • 본 논문에서는 특정 매개변수(parameter)의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(continuous) 속성 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화 하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

데이터의 공간적 분포를 고려한 퍼지 이산화와 특징선택에의 응용 (Fuzzy discretization with spatial distribution of data and Its application to feature selection)

  • 손창식;신아미;이인희;박희준;박형섭;김윤년
    • 한국지능시스템학회논문지
    • /
    • 제20권2호
    • /
    • pp.165-172
    • /
    • 2010
  • 임상 데이터마이닝에서 최적의 특징 집합을 선택하는 것은 주어진 데이터로부터 생성된 모델의 복잡성을 줄일 뿐만 아니라 유용성을 향상시키는 데에 매우 중요하고, 선택된 특징들의 임계값은 질병의 감별진단을 위해 임상 전문가의 결정기준으로 사용된다. 본 논문에서는 데이터의 공간적인 분포, 즉 중첩영역에서 중복 속성값을 포함하는 데이터의 분리성 정도를 평가함으로써 연속형 속성을 가진 데이터에 대한 퍼지 이산화기법을 제안한다. 제안된 방법에서 중복 속성값의 가중치 평균값은 각 특징의 임계값(즉 경계값)을 결정하기 위해서 사용되었고, 러프집합은 전체 특징들 중에서 중요특징들의 집합을 선택하기 위해서 이용하였다. 제안된 방법의 타당성을 검증하기 위해 호흡곤란을 주호소로 내원한 668명의 환자 데이터를 근거로 3가지 이산화방법과 제안된 이산화방법에 대한 실험을 수행하였다. 실험결과, 퍼지분할을 기반으로 한 이산화방법이 하드분할을 기반으로 한 이산화방법에 비해서 평균 분류정확도와 G-mean 성능에서 보다 좋은 결과를 제공함을 확인하였다.

A Study on Conversational AI Agent based on Continual Learning

  • Chae-Lim, Park;So-Yeop, Yoo;Ok-Ran, Jeong
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권1호
    • /
    • pp.27-38
    • /
    • 2023
  • 본 논문에서는 시간의 흐름에 따라 새로운 데이터를 지속적으로 학습하고 성장할 수 있는 연속 학습 기반 대화형 AI 에이전트를 제안한다. 연속학습 기반 대화형 AI 에이전트는 태스크 관리자 (Task Manager), 사용자 속성 추출(User Attribute Extraction), 자동 확장 지식 그래프(Auto-growing Knowledge Graph), 크게 3가지 요소로 구성된다. 태스크 관리자는 사용자와의 대화에서 새로운 데이터를 발견하면 이전에 학습한 지식을 통해 새로운 태스크를 생성한다. 사용자 특성 추출 모델은 새로운 태스크에서 사용자의 특성을 추출하고, 자동 확장 지식 그래프는 새로운 외부 지식을 지속적으로 학습할 수 있도록 한다. 한정된 데이터셋을 기반으로 학습된 기존 대화형 AI 에이전트와 달리, 본 논문에서 제안하는 방법은 지속적인 사용자의 특성과 지식 학습을 기반으로 대화를 가능하게 한다. 연속학습 기술이 적용된 대화형 AI 에이전트는 사용자와의 대화가 축적될수록 개인 맞춤형 대응이 가능하며, 새로운 지식에도 대응이 가능하다. 본 논문에서는 시간에 따른 대화 생성 모델의 성능 변화 실험을 통해 제안하는 방법의 가능성을 검증한다.

인공신경망을 이용한 개인 신용평가 알고리즘 (A Personal Credit Estimate Algorithm Using Artificial Neural Network)

  • 임성빈;최우경;김성현;김용민;전홍태
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.293-296
    • /
    • 2005
  • 최근 우리나라는 가계신용의 급신장과 신용불량의 급증 등으로 개인 신용부문이 금융기관의 건전성 유지에 부정적인 영향을 미치고 있다. 이러한 잠재적 문제를 사전에 방지하기 위해 금융기관 등에서는 개인 신용평가에 대한 수요가 커지고 있는 실정이다. 주어진 데이터로부터의 반복적인 학습 과정을 거쳐 패턴을 분류하고 또한 모델과 학습 방법에 따라 입력변수와 목적변수의 속성이 연속형이나 이산형인 경우를 모두 다룰 수 있는 신경망 모델은 개개인의 다양하고 복잡한 데이터를 입력변수로 받아서 신용등급을 나누는데 우수한 능력을 보여줄 수 있다. 본 논문에서는 신경망 모델을 이용해 개인의 신용등급을 객관적이고 일률적으로 평가해서 등급을 나누어주는 알고리즘을 제안하고자 한다.

  • PDF

인공지능 대화형 에이전트의 지능적 속성에 대한 기대와 기대 격차 (Expectation and Expectation Gap towards intelligent properties of AI-based Conversational Agent)

  • 박현아;태문영;허영진;이준환
    • 한국HCI학회논문지
    • /
    • 제14권1호
    • /
    • pp.15-22
    • /
    • 2019
  • 본 연구에서는 인공지능 대화형 에이전트인 스마트 스피커의 지능형 에이전트로서의 속성, 즉 자율성, 사회성, 반응성, 능동성, 시간연속성, 목표지향성에 대하여 이용자들이 일상적 상호작용을 통하여 어떤 기대를 가지는지, 또한 어떤 기대격차를 갖는지 살펴보고자 하였다. 이를 위해 스마트 스피커 이용자들을 대상으로 반구조화 인터뷰(semi-structured interview)를 진행하고 그라운드 이론에 기반하여 분석하였다. 연구 결과 사람들은 기술수준의 한계로 인해 스마트 스피커의 사회성이나 인간다움에 대해 큰 기대격차를 갖고 있었다. 스마트 스피커의 반응성에 대해서는 긍정적인 기대격차를 갖는 것으로 드러났고, 시간연속적으로 정보를 기억하는 것에 대해서는 정보의 민감성 정도나 제시방식에 따라 양가적 기대격차가 나타났다. 자율적인 추천에 대해서는 낮은 기대수준이 나타났고 능동적인 말걸기에 대해서는 맥락에 맞는 경우에만 선호하는 것으로 나타났다. 본 연구는 스마트 스피커와 상호작용하는 방식을 설계하고 기대 수준을 관리하는데 있어서 함의점을 제시한다.

증분 의사결정 트리 구축을 위한 연속형 속성의 다구간 이산화 (Multi-Interval Discretization of Continuous-Valued Attributes for Constructing Incremental Decision Tree)

  • 백준걸;김창욱;김성식
    • 대한산업공학회지
    • /
    • 제27권4호
    • /
    • pp.394-405
    • /
    • 2001
  • Since most real-world application data involve continuous-valued attributes, properly addressing the discretization process for constructing a decision tree is an important problem. A continuous-valued attribute is typically discretized during decision tree generation by partitioning its range into two intervals recursively. In this paper, by removing the restriction to the binary discretization, we present a hybrid multi-interval discretization algorithm for discretizing the range of continuous-valued attribute into multiple intervals. On the basis of experiment using semiconductor etching machine, it has been verified that our discretization algorithm constructs a more efficient incremental decision tree compared to previously proposed discretization algorithms.

  • PDF

R명령어들의 속도 평가

  • 이진아;허문열
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.301-305
    • /
    • 2003
  • 최근에 R은 여러 분야에서 많이 사용되고 있다. 특히 모의실험(simulation)이나 통계학 관련 연구에 많이 사용되고 있다. 모의실험을 하는 경우에는 많은 반복으로 인해 R 프로그램의 수행 속도가 매우 중요하다. 또한 데이터마이닝 분야에서도 R을 많이 사용하고 있다. 우리는 데이터 마이닝에서 데이터의 전처리 과정 중 Fayyad & Irani 방법을 사용하여 연속형 변수를 이산화하는 실험을 하였으며, 이를 위해 R을 사용하였다. 이 프로그램은 재귀 함수를 이용하고 이런 과정에서 빈도표 작성, information계산, 빈도표의 분할, 정지 규칙 등의 여러 함수를 사용하게 되어있다. 우리가 작성한 R 로드를 사용하여 UCI DB의 Iono 자료를 (속성이 35개, 사례수가 약 1000개정도) 이산화 하였을 때 7초 이상의 상당한 시간이 소요된다. 반면에 JAVA로 만들어진 Weka에서 똑같은 Fayyad & Irani 방법을 수행했을 때 위와 같은 큰 자료를 이산화하는 속도가 매우 빨라 수행시간은 거의 무시할 만하였다. 이런 차이점을 보고 R 프로그램의 수행 속도를 늘이는 방법을 찾게 되었다. 이 본 발표에서는 R 코드 중 시간이 많이 소요되는 것들을 몇 가지 선정하고 이들을 더 효율적으로 만들 수 있는 코드를 작성하여 이들 코드의 수행속도를 비교하였다. 또한 몇 가지 명령에 대해서는SAS와도 비교하였다.

  • PDF

러브집합이론과 SOM을 이용한 연속형 속성의 이산화 (Discretization of Continuous Attributes based on Rough Set Theory and SOM)

  • 서완석;김재련
    • 산업경영시스템학회지
    • /
    • 제28권1호
    • /
    • pp.1-7
    • /
    • 2005
  • Data mining is widely used for turning huge amounts of data into useful information and knowledge in the information industry in recent years. When analyzing data set with continuous values in order to gain knowledge utilizing data mining, we often undergo a process called discretization, which divides the attribute's value into intervals. Such intervals from new values for the attribute allow to reduce the size of the data set. In addition, discretization based on rough set theory has the advantage of being easily applied. In this paper, we suggest a discretization algorithm based on Rough Set theory and SOM(Self-Organizing Map) as a means of extracting valuable information from large data set, which can be employed even in the case where there lacks of professional knowledge for the field.

프리즘 구조의 집광효과를 이용한 이산형 LED 패널의 광학적 연속성 구현에 관한 연구 (A Study on Optical Seemless of Discrete LED panels with Focusing Effect of prism Structure)

  • 조성환;김응보;최원석;정연호
    • 한국위성정보통신학회논문지
    • /
    • 제12권2호
    • /
    • pp.11-14
    • /
    • 2017
  • 본 논문은 프리즘 구조물의 집광효과를 이용하여 옥외용 사이니지 이산형 LED 패널의 광학적 불연속성을 개선할 수 있는 방법적 접근에 관한 것이다. 광투과성이 우수한 Polycarbonate에 MEMS(Microelectromechanical systems) 공정 및 극초단파(Femto-second) 레이저를 이용하여 프리즘 형태를 패터닝을 하였다. 패터닝된 polycarbonate는 light guide film의 역할을 하여 서로 다른 디스플레이 패널에서 발생하는 빛을 프리즘 구조에 의해 한 곳으로 모이게 함을 확인하였다. Polycarbonate와 디스플레이 패널의 간격에 따라 디스플레이 패널간의 거리를 조절할 수 있었으며 한 곳으로 모인 빛은 마치 두 디스플레이 패널이 연결된 것과 같은 효과를 나타내었다. 이는 아웃도어 사이니지용 디스플레이 패널에서 발생하는 문제점인 광학적 불연속성을 개선할 수 있을 것으로 보인다.