• 제목/요약/키워드: Classification accuracy

검색결과 3,065건 처리시간 0.028초

블로그 연결망의 성향 판정 방안 (An Approach for Determining Propensities of Blog Networks)

  • 윤석호;박선주;김상욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권3호
    • /
    • pp.178-188
    • /
    • 2009
  • 블로그(blog)는 사용자가 글을 작성하여 게시할 수 있는 일종의 개인 웹사이트이며, 블로그는 다른 블로그와 관계를 맺을 수 있다 본 논문에서는 블로그와 블로그 간의 관계들로 이루어진 연결망을 블로그 연결망(blog network)이라고 정의한다. 블로그 연결망은 그 내부에 게시된 글의 목적에 따라 정보 중시 성향과 친분 중시 성향을 가질 수 있다. 블로그 연결망이 가지고 있는 각 성향의 정도는 블로그 연결망의 비즈니스 정책 결정에 중요한 요소로서 사용된다. 본 논문에서는 주어진 블로그 연결망과 두 성향의 정도를 판정하는 방안에 관하여 논의한다. 먼저, 데이타 마이닝 기법의 하나인 분류(classification)를 이용하여 블로그 연결망의 기본 단위인 관계 성향의 정도를 판정하고, 그 결과를 이용하여 주어진 연결망의 전체 성향의 정도를 판정한다. 또한, 블로그 연결망의 규모에 따라 성향의 정도가 좌우되는 문제를 해결하기 위한 기법을 제안한다. 본 논문에서는 제안하는 방안의 우수성을 검증하기 위하여 실제 블로그 데이타를 이용한 다양한 실험을 수행한다. 실험 결과에 의하면, 판정된 관계 성향의 정도는 두 성향에 대하여 모두 약 93%의 높은 정확도를 보였다. 또한, 실제 블로그 연결망의 각 성향의 정도를 판정함으로써 제안하는 방안이 정보 중시 성향과 친분 중시 성향의 연결망을 올바르게 판정할 수 있는 지를 보였다.

감정 온톨로지의 구축을 위한 구성요소 분석 (Component Analysis for Constructing an Emotion Ontology)

  • 윤애선;권혁철
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.157-175
    • /
    • 2010
  • 의사소통에서 대화자 간 감정의 이해는 메시지의 내용만큼이나 중요하다. 비언어적 요소에 의해 감정에 관한 더 많은 정보가 전달되고 있기는 하지만, 텍스트에도 화자의 감정을 나타내는 언어적 표지가 다양하고 풍부하게 녹아들어 있다. 본 연구의 목적은 인간언어공학에 활용할 수 있는 감정 온톨로지를 구축할 수 있도록 그 구성요소를 분석하는 데 있다. 텍스트 기반 감정 처리 분야의 선행 연구가 감정을 분류하고, 각 감정의 서술적 어휘 목록을 작성하고, 이를 텍스트에서 검색함으로써, 추출된 감정의 정확도가 높지 않았다. 이에 비해, 본 연구에서 제안하는 감정 온톨로지는 다음과 같은 장점이 있다. 첫째, 감정 표현의 범주를 기술 대상과 방식에 따라 6개 범주로 분류하고, 이들 간 상호 대응관계를 설정함으로써, 멀티모달 환경에 적용할 수 있다. 둘째, 세분화된 감정을 분류할 수 있되, 감정 간 차별성을 가질 수 있도록 24개의 감정 명세를 선별하고, 더 섬세하게 감정을 분류할 수 있는 속성으로 강도와 극성을 설정하였다. 셋째, 텍스트에 나타난 감정 표현을 명시적으로 구분할 수 있도록, 경험자 기술 대상과 방식 언어적 자질에 관한 속성을 도입하였다. 넷째, 본 연구의 감정분류는 Plutchik의 분류와 호환성을 갖고 있으며, 언어적 요소의 기술에서 국제표준의 태그세트를 수용함으로써, 다국어 처리에 활용을 극대화할 수 있도록 고려했다.

  • PDF

IKONOS 영상을 이용한 천수만 황도 갯벌 표층 퇴적상 분류 (Classification of Sedimentary Facies Using IKONOS Image in Hwangdo Tidal Flat, Cheonsu Bay)

  • 유주형;우한준;박찬홍;유홍룡
    • 한국습지학회지
    • /
    • 제7권2호
    • /
    • pp.121-132
    • /
    • 2005
  • 천수만 황도 갯벌의 IKONOS 영상을 이용한 표층 퇴적상 분류를 위하여 광학 반사도를 입도, 조류로의 형태, 지잔존수 (surface remnant water)의 면적비와 같은 다양한 퇴적환경 요소들과 비교하였다. IKONOS 영상과 갯벌 내의 소지형별 퇴적환경 사이의 관계를 분석하기 위하여 Echo-sounder를 이용하여 갯벌 Digital Elevation Model (DEM)을 만들었다. 펄-혼합 퇴적상과 모래 퇴적상의 경계에서 광학 반사도의 차이가 뚜렷하게 나타났으며 사주의 구분도 가능하였다. 펄-혼합 퇴적상 지역은 조류로가 매우 복잡하게 발달하고 있으며 지형이 상대적으로 높은 곳에 위치하고 있었다. 펄과 혼합 퇴적의 경계에서 지표수의 존재 유무가 다르게 나타났으나 광학 반사도의 차이가 뚜렷하지 않았다. 모래 퇴적상의 경우 조류로가 단순하게 직선형으로 발달했으며 지형도 상대적으로 낮은 지역에 분포하였으며 지표잔존수가 거의 전 지역을 덮고 있어 광학 반사도가 낮게 나타났다. 최대우도 분류법을 이용한 표층 퇴적상 분류정밀도는 86.2 %로 나타났다. 이 결과로부터 IKONOS와 같은 고해상도 영상에 대해 지표잔존수, 조류로 분포와 지형 등의 갯벌 퇴적학적 특성을 고려한다면 펄, 혼합 그리고 모래 퇴적상 구분은 가능하다는 것을 알 수 있다.

  • PDF

딥러닝 기술을 활용한 멀웨어 분류를 위한 이미지화 기법 (Visualization of Malwares for Classification Through Deep Learning)

  • 김형겸;한석민;이수철;이준락
    • 인터넷정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.67-75
    • /
    • 2018
  • Symantec의 인터넷 보안위협 보고서(2018)에 따르면 크립토재킹, 랜섬웨어, 모바일 등 인터넷 보안위협이 급증하고 있으며 다각화되고 있다고 한다. 이는 멀웨어(Malware) 탐지기술이 암호화, 난독화 등의 문제에 따른 질적 성능향상 뿐만 아니라 다양한 멀웨어의 탐지 등 범용성을 요구함을 의미한다. 멀웨어 탐지에 있어 범용성을 달성하기 위해서는 탐지알고리즘에 소모되는 컴퓨팅 파워, 탐지 알고리즘의 성능 등의 측면에서의 개선 및 최적화가 이루어져야 한다. 본고에서는 최근 지능화, 다각화 되는 멀웨어를 효과적으로 탐지하기 위하여 CNN(Convolutional Neural Network)을 활용한 멀웨어 탐지 기법인, stream order(SO)-CNN과 incremental coordinate(IC)-CNN을 제안한다. 제안기법은 멀웨어 바이너리 파일들을 이미지화 한다. 이미지화 된 멀웨어 바이너리는 GoogLeNet을 통해 학습되어 딥러닝 모델을 형성하고 악성코드를 탐지 및 분류한다. 제안기법은 기존 방법에 비해 우수한 성능을 보인다.

공격자 그룹 특징 추출 프레임워크 : 악성코드 저자 그룹 식별을 위한 유전 알고리즘 기반 저자 클러스터링 (The attacker group feature extraction framework : Authorship Clustering based on Genetic Algorithm for Malware Authorship Group Identification)

  • 신건윤;김동욱;한명묵
    • 인터넷정보학회논문지
    • /
    • 제21권2호
    • /
    • pp.1-8
    • /
    • 2020
  • 최근 악성코드를 활용한 APT(Advanced Persistent Threat) 공격의 수가 점차 증가하면서 이를 예방하고 탐지하기 위한 연구가 활발히 진행되고 있다. 이러한 공격들은 공격이 발생하기 전에 탐지하고 차단하는 것도 중요하지만, 발생 공격 사례 또는 공격 유형에 대한 정확한 분석과 공격 분류를 통해 효과적인 대응을 하는 것 또한 중요하며, 이러한 대응은 해당 공격의 공격 그룹을 분석함으로써 정할 수 있다. 따라서 본 논문에서는 공격자 그룹의 특징을 파악하고 분석하기 위한 악성코드를 활용한 유전 알고리즘 기반 공격자 그룹 특징 추출 프레임워크를 제안한다. 해당 프레임워크에서는 수집된 악성코드를 디컴파일러와 디셈블러를 통해 관련 코드를 추출하고 코드 분석을 통해 저자와 관련된 정보들을 분석한다. 악성코드에는 해당 코드만이 가지고 있는 고유한 특징들이 존재하며, 이러한 특징들은 곧 해당 악성코드의 작성자 또는 공격자 그룹을 식별할 수 있는 특징이라고 할 수 있다. 따라서 우리는 저자 클러스터링 방법을 통해 바이너리 및 소스 코드에서 추출한 다양한 특징들 중에 특정 악성코드 작성자 그룹만이 가지고 있는 특징들을 선별하고, 정확한 클러스터링 수행을 위해 유전 알고리즘을 적용하여 주요 특징들을 유추한다. 또한 각 악성코드 저자 그룹들이 가지고 있는 특성들을 기반으로 각 그룹들만을 표현할 수 있는 특징들을 찾고 이를 통해 프로필을 작성하여 작성자 그룹이 정확하게 군집화되었는지 확인한다. 본 논문에서는 실험을 통해 유전 알고리즘을 활용하여 저자가 정확히 식별되는 지와 유전 알고리즘을 활용하여 주요 특징 식별이 가능한지를 확인 할 것이다. 실험 결과, 86%의 저자 분류 정확도를 보이는 것을 확인하였고 유전 알고리즘을 통해 추출된 정보들 중에 저자 분석에 사용될 특징들을 선별하였다.

랜덤포레스트를 이용한 모기업의 하향 거래처 기업의 분류: 자동차 부품산업의 가치사슬을 중심으로 (Classification of Parent Company's Downward Business Clients Using Random Forest: Focused on Value Chain at the Industry of Automobile Parts)

  • 김태진;홍정식;전윤수;박종률;안태욱
    • 한국전자거래학회지
    • /
    • 제23권1호
    • /
    • pp.1-22
    • /
    • 2018
  • 가치사슬은 경쟁우위 강화를 위한 전략적 도구로써 주로 기업수준, 산업수준에서 분석되어 왔다. 그런데 기업수준에서 가치사슬 분석을 수행하기 위해서는 분석 기업의 거래처 기업들이 그 기업의 가치 사슬에 속하는지의 여부에 따라 분류되어야 한다. 단일 기업에 대한 가치사슬 분류는 전문가들에 의해 원활히 수행될 수 있지만 다수의 기업을 대상으로 분류할 때는 많은 비용과 시간이 소요되는 등의 한계점이 따른다. 따라서 본 연구에서는 실거래 데이터를 기반으로 특정 기업의 거래처 기업들을 분류해서 가치사슬 기업을 자동적으로 도출해주는 모형을 제안하고자 한다. 총 19개의 거래 속성 변수를 실거래 데이터로부터 도출하여 기계학습의 입력 데이터의 형태로 가공하였고, 랜덤포레스트 알고리즘을 이용하여 가치사슬 분류 모형을 구축하였다. 자동차 부품 기업 사례에 본 연구 모형을 적용한 결과, 정확도 92%, F1-척도 76% 그리고 AUC 94%로 자동적 가치사슬 분류의 가능성을 확인하였다. 또한 거래집중도, 거래금액 그리고 거래처별 총 매출액 등과 같은 거래 속성들이 가치사슬에 속하는 기업들을 대표하는 주요 특성임을 확인하였다.

SIFT와 신경망을 이용한 학습 기반 차량 번호판 검출 (Learning-based Detection of License Plate using SIFT and Neural Network)

  • 홍원주;김민우;오일석
    • 전자공학회논문지
    • /
    • 제50권8호
    • /
    • pp.187-195
    • /
    • 2013
  • 차량 번호판 검출의 기존 연구들은 대부분 높은 성능을 얻기 위해 영상 획득 환경을 제한한다. 본 논문은 제약사항이 적은 환경에서 다양한 종류의 차량 번호판을 검출하기 위해 SIFT와 신경망을 이용한 새로운 방법을 제안한다. SIFT는 영상의 크기, 회전 변화에 불변하는 지역특징으로서 처리해야 할 환경이 고정되지 않은 경우에도 분별력이 뛰어나다. 영상에서 추출한 SIFT를 번호판 내부의 것(내부 부류)과 외부의 것(외부 부류)으로 나누어 2부류 분류기를 학습한다. 분류기는 신경망을 사용하며, 찾고자 하는 번호판의 종류를 학습 집합에 포함하는 것으로 다양한 종류의 번호판을 동일한 알고리즘으로 검출할 수 있다. 제안하는 방법은 입력 영상에서 지역특징을 추출하고 미리 학습한 분류기로 번호판 내부 부류를 가려낸다. 분류기의 성능이 높지 않더라도 분류 결과 내부 부류는 번호판 내부에 밀집하여 나타나고 번호판 외부에서는 흩어져 나타난다. 이러한 특성을 이용해 지역특징 맵을 만들고, 이 맵에서 임계값 이상인 전역 최댓값을 번호판 영역으로 검출한다. 다양한 환경에서 데이터 베이스를 수집하고 지역특징 분류와 번호판 검출 알고리즘을 실험한다. 지역특징을 분류기로 분류한 결과 정인식률은 97.1%, 정확률은 62.0%, 재현율은 50.2%를 보였다. 정인식률에 비해 정확률과 재현율은 낮았지만, 번호판 검출 결과 98.6%의 높은 검출 성능을 보였다.

자궁경부암 진단을 위한 3차원 세포핵 질감 특성값 유의성 평가에 관한 연구 (Study on evaluating the significance of 3D nuclear texture features for diagnosis of cervical cancer)

  • 최현주;김태윤;;;최흥국
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권10호
    • /
    • pp.83-92
    • /
    • 2011
  • 본 연구의 목적은 세포핵의 3차원 염색질 질감 특성값이 암의 진행정도를 인식하는데 있어 유용한 특성값인지 평가하는데 있다. 특히, 제안한 방법이 악성이라고 진단된 세포진 도말 표본에서 정상으로 보이는 세포의 염색질 패턴에서의 미세한 차이를 인식할 수 있는지 살펴보고자 한다. 분류등급 정상(Normal), 저등급 편평 상피내 병변(LSIL, Low grade Squamous Intraepithelial Lesion), 고등급 편평 상피내 병변(HSIL, High grade Squamous Intraepithelial Lesion)에서 각각 100개씩의 세포 볼륨데이터로부터 3차원 GLCM(Gray Level Co occurrence Matrix)에 기반한 질감 특성값과 3차원 Wavelet 변환에 기반한 질감 특성값을 추출하고 분류기를 생성한 후 각 분류기에 대한 분류정확도를 비교하였으며, 2차원 세포진 영상에서의 세포핵 질감 특성값과 비교하기 위해 동일한 실험 볼륨데이터의 투영된 2차원 영상을 이용하여 같은 방법으로 2차원 세포핵 질감 특성값을 추출하고 분류기를 생성한 후 분류정확도를 비교하였다. 2차원 세포핵 질감 특성값과의 비교연구에서 3차원 세포핵 질감 특성값이 등급별 분류에 있어 보다 효율적인 것을 확인 할 수 있었으며 이는 3차원 염색질 질감 특성값이 자궁경부 세포의 정량화에 대한 정확성과 재현성을 개선할 수 있음을 의미한다.

백태 중 후태 및 박태 분류 판별함수 설계 (Design of discriminant function for thick and thin coating from the white coating)

  • 최은지;김근호;유현희;이혜정;김종열
    • 한국한의학연구원논문집
    • /
    • 제13권3호
    • /
    • pp.119-124
    • /
    • 2007
  • Introduction: In Oriental medicine, the status of tongue is the important indicator to diagnose one's health, because it represents physiological and clinicopathological changes of inner parts of the body. The method of tongue diagnosis is not only convenient but also non-invasive, so tongue diagnosis is most widely used in Oriental medicine. By the way, since tongue diagnosis is affected by examination circumstances a lot, its performance depends on a light source, degrees of an angle, a medical doctor's condition etc. Therefore, it is not easy to make an objective and standardized tongue diagnosis. In order to solve this problem, in this study, we tried to design a discriminant function for thick and thin coating with color vectors of preprocessed image. Method: 52 subjects, who were diagnosed as white-coated tongue, were involved. Among them, 45 subjects diagnosed as thin coating and 7 subjects diagnosed as thick coating by oriental medical doctors, and then their tongue images were obtained from a digital tongue diagnosis system. Using those acquired tongue images, we implemented two steps: Preprocessing and image analyzing. The preprocessing part of this method includes histogram equalization and histogram stretching at each color component, especially, intensity and saturation. It makes the difference between tongue substance and tongue coating was more visible, so that we can separate tongue coating easily. Next part, we analyzed the characteristic of color values and found the threshold to divide tongue area into coating area. Then, from tongue coating image, it is possible to extract the variables that were important to classify thick and thin coating. Result : By statistical analysis, two significant vectors, associated with G, were found, which were able to describe the difference between thick and thin coating very well. Using these two variables, we designed the discriminant function for coating classification and examined its performance. As a result, the overall accuracy of thick and thin coating classification was 92.3%. Discussion : From the result, we can expect that the discriminant function is applicable to other coatings in a similar way. Also, it can be used to make an objective and standardized diagnosis.

  • PDF

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.