• 제목/요약/키워드: Large-set Classification

검색결과 183건 처리시간 0.023초

Newly-Diagnosed, Histologically-Confirmed Central Nervous System Tumours in a Regional Hospital in Hong Kong : An Epidemiological Study of a 21-Year Period

  • He, Zhexi;Wong, Sui-To;Yam, Kwong-Yui
    • Journal of Korean Neurosurgical Society
    • /
    • 제63권1호
    • /
    • pp.119-135
    • /
    • 2020
  • Objective : To investigate the epidemiology of newly-diagnosed, histologically-confirmed (NDHC) central nervous system (CNS) tumours and its changes over a 21-year period in a regional hospital in Hong Kong. Methods : This is a single-institute retrospective descriptive study of patients undergoing surgery for CNS tumours in a regional hospital of Hong Kong in the period from January 1996 to December 2016. The histological definition of CNS tumours was according to the World Health Organization classification, while the site definition for case ascertainment of CNS tumours was as set out by the Central Brain Tumour Registry of the United States. Patients of any age, who had NDHC CNS tumours, either primary or secondary, were included. The following parameters of the patients were retrieved : age at diagnosis, gender, tumour location, and histological diagnosis. Population data were obtained from sources provided by the Government of Hong Kong. The incident rate, estimated by the annual number of cases per 100000 population, for each histology grouping was calculated. Statistical analyses, both including and excluding brain metastases, were performed. Statistical analysis was performed with Microsoft Excel, 2016 (Microsoft, Redmond, WA, USA). Results : Among the 2134 cases of NDHC CNS tumours, there were 1936 cases of intracranial tumours and 198 cases of spinal tumours. The annual number of cases per 100000 population of combined primary intracranial and spinal CNS tumours was 3.6 in 1996, and 11.1 in 2016. Comparing the 5-year average annual number of cases per 100000 population of primary CNS tumours from the period 1996-2000 to 2011-2015, there was an 88% increase, which represent an increase in the absolute number of cases by 4.52 cases/100000 population. This increase was mainly contributed by benign histologies. In the aforementioned periods, meningiomas increased by 1.45 cases/100000 population; schwannomas by 1.05 cases/100000 population, and pituitary adenomas by 0.91 cases/100000 population. While gliomas had a fluctuating 5-year average annual number of cases per 100000 population, it only had an absolute increase of 0.51 cases/100000 population between the 2 periods, which was mainly accounted for by the change in glioblastomas. Conclusion : This retrospective study of CNS tumour epidemiology revealed increasing trends in the incidences of several common CNS tumour histologies in Hong Kong, which agrees with the findings in large-scale studies in Korea and the United States. It is important for different geographic locations to establish their own CNS tumour registry with well-defined and structured data collection and analysis system to meet the international standards.

데이터베이스 구축을 통한 산사태 위험도 예측식 개발 (Development of Landslide-Risk Prediction Model thorough Database Construction)

  • 이승우;김기홍;윤찬영;유한중;홍성재
    • 한국지반공학회논문집
    • /
    • 제28권4호
    • /
    • pp.23-33
    • /
    • 2012
  • 최근 들어 집중호우 및 태풍과 국지성 집중호우로 인한 산사태 피해가 자주 보고되고 있다. 국내 지형특성상 산지 인근에서 도시가 발달되고 도로 철도 등의 기간시설물이 건설된 경우가 많기 때문에 산사태로 인한 인명 및 재산피해는 매우 심각하다. 이러한 피해를 효과적으로 방지하기 위해서는 건설계획 단계부터 산사태 위험이 높은 지역을 파악하고 적절한 대책을 마련하는 것이 중요하다. 본 연구에서는 산사태 발생에 영향을 미칠 수 있는 지형학적 특성, 토질의 특성, 강우 정보, 나무의 종류 정보 등의 자료를 재해대장 분석, 항공사진 분석, 현장조사를 실시하여 구축한 423 지점의 산사태 데이터에 대한 통계학적 분석을 수행하여 산사태 위험도 예측식을 제안하였다. 제안된 예측식으로 예측된 결과와 실제 산사태 발생여부를 비교해 본 결과 약 92%의 분류 정확도를 보였다. 예측식에 필요한 입력치들은 단 시간 내에 저비용으로 획득할 수 있도록 구성하였다. 또한 예측결과의 경우 재해지도 형식으로 표현하기 용이하기 때문에 제안된 산사태 위험도 예측식은 광범위한 지역의 산사태 발생 위험도를 산정하는데 효과적으로 활용될 수 있다고 판단된다.

텍스트 문서 기반의 감성 인식 시스템 (An Emotion Scanning System on Text Documents)

  • 김명규;김정호;차명훈;채수환
    • 감성과학
    • /
    • 제12권4호
    • /
    • pp.433-442
    • /
    • 2009
  • 요즈음 인터넷을 통해 물건을 구매하는 경향이 증가하고 있다. 또한 물건을 구매한 소비자는 리뷰, 댓글, 비평 또는 블로그 등의 형식으로 온라인에 그들의 사용 후기를 작성한다. 또한 작성된 사용 후기부터 많은 구매자들은 물건을 구매하기 전에 자신이 구입하고자 하는 물건에 대한 정보를 얻는다. 따라서 회사나 공공기관은 대중이 다른 사람의 의견에 관심을 기울인다는 점 때문에 대중의 의견을 수집하고 분석할 필요성에 직면하였다. 그러나 온라인상에 댓글이 너무 많고, 중복적이면서 짧은 경향이 있다. 이러한 환경 속에서 텍스트 문서의 감성을 인식하는 시스템의 필요성이 대두되었다. 텍스트로부터 작성자의 의견이나 주관적인 생각을 추출할 수 있게 영어에서는 단어에 속성이 주어진 GI와 LKB가 있으나 한글은 아직 속성이 주어진 사전이 존재하지 않는다. 이 논문에서는 한글 품사 중 4개의 품사(명사, 동사, 형용사, 부사)에 속성을 주었다. 그리고 학습 군을 만들어서 감성 단어의 패턴을 구성하고, 문장에서 단어 사이의 공기관계를 구성하여 학습 시켰다. 이 학습을 바탕으로, SO-PMI을 이용하여 문서를 긍정과 부정 2가지 극성을 분류하고, 4개의 품사(명사, 동사, 형용사, 부사)를 각각 조합하여 최상의 조건을 구하였다. 마지막으로 사용자 인터페이스를 통해 새로운 감성 표현, 구성형식, 단어 연관성을 반자동적으로 삽입하고 교정할 수 있는 시스템을 설계하였다.

  • PDF

전력데이터 분석에서 이상점 추출을 위한 데이터 클러스터링 아키텍처에 관한 연구 (A Novel of Data Clustering Architecture for Outlier Detection to Electric Power Data Analysis)

  • 정세훈;신창선;조용윤;박장우;박명혜;김영현;이승배;심춘보
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권10호
    • /
    • pp.465-472
    • /
    • 2017
  • 과거에는 전력데이터를 분석하는 기법으로 주로 기계학습의 지도학습 기법을 많이 활용하였고 데이터 마이닝 기법을 통한 패턴 검출을 주로 연구하였다. 그러나 전력데이터의 규모 커지고 실시간 데이터 공급이 가능해진 현재에는 과거의 데이터 분류 및 분석 기법을 통한 데이터 분석 연구는 한계가 존재한다. 이에 본 논문에서는 큰 규모의 전력데이터를 분석할 수 있는 클러스터링 아키텍처를 제안한다. 제안하는 클러스터링 프로세스는 비지도학습기법인 K-means 알고리즘의 문제점을 보완하고 전력데이터 수집과 분석까지의 모든 과정을 자동화할 수 있는 프로세스이다. 총 3 Level로 구분하여 Row Data Level, Clustering Level, User Interface Level로 구분하여 전력데이터를 분류 및 분석한다. 또한 클러스터링의 효율성 향상을 위하여 주성분분석 및 정규분포기반의 최적의 클러스터 수 K값 추출과 이상점으로 분류되는 데이터 감소를 위한 변형된 K-means 알고리즘을 제시한다.

유전자 알고리즘을 이용한 분류자 앙상블의 최적 선택 (Optimal Selection of Classifier Ensemble Using Genetic Algorithms)

  • 김명종
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.99-112
    • /
    • 2010
  • 앙상블 학습은 분류 및 예측 알고리즘의 성과개선을 위하여 제안된 기계학습 기법이다. 그러나 앙상블 학습은 기저 분류자의 다양성이 부족한 경우 다중공선성 문제로 인하여 성과개선 효과가 미약하고 심지어는 성과가 악화될 수 있다는 문제점이 제기되었다. 본 연구에서는 기저 분류자의 다양성을 확보하고 앙상블 학습의 성과개선 효과를 제고하기 위하여 유전자 알고리즘 기반의 범위 최적화 기법을 제안하고자 한다. 본 연구에서 제안된 최적화 기법을 기업 부실예측 인공신경망 앙상블에 적용한 결과 기저 분류자의 다양성이 확보되고 인공신경망 앙상블의 성과가 유의적으로 개선되었음을 보여주었다.

SNS에서의 개선된 소셜 네트워크 분석 방법 (Improved Social Network Analysis Method in SNS)

  • 손종수;조수환;권경락;정인정
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.117-127
    • /
    • 2012
  • 최근 온라인 소셜 네트워크 서비스(SNS)의 사용자가 크게 늘어나고 있으며 다양한 분야에서 SNS의 사용자 관계 구조 및 메시지를 분석하기 위한 연구를 진행하고 있다. 그러나 대부분의 소셜 네트워크 분석 방법들은 노드 사이의 최단 거리를 기초로 하고 있으므로 계산 시간이 오래 걸린다. 이는 점차 대형화 되어가는 SNS의 데이터를 여러 분야에서 활용하는데 걸림돌이 되고 있다. 이에 따라 본 논문에서는 SNS의 사용자 그래프에서 사용자간 최단거리를 빠르게 찾기 위한 휴리스틱 기반의 최단 경로 탐색 방법을 제안한다. 제안하는 방법은 1) 트리로 표현된 소셜 네트워크에서 시작 노드와 목표 노드를 설정한다. 그리고 2) 만약 목표 노드가 경사 트리의 단말에 있다면 경사 트리가 시작하는 노드를 임시 골 노드로 설정한다. 마지막으로 3) 연결의 차수를 평가값으로 하는 휴리스틱 기반 최단거리 탐색을 수행한다. 이렇게 최단거리를 탐색한 후 매개 중심성 분석(Betweenness Centrality) 및 근접 중심성(Closeness Centrality)를 계산한다. 제안하는 방법을 사용하면 소셜 네트워크 분석에서 가장 많은 시간이 필요한 최단거리 탐색을 빠르게 수행할 수 있으므로 소셜 네트워크 분석의 효율성을 기대할 수 있다. 본 논문에서 제안하는 방법을 검증하기 위하여 약 16만 명으로 구성된 SNS에서의 실제 데이터를 이용하여 매개 중심성 분석과 근접 중심성 분석을 수행하였다. 실험 결과, 제안하는 방법은 전통적 방식에 비하여 매개 중심성, 근접 중심성의 계산 시간이 각각 6.8배, 1.8배 더 빠른 결과를 보였다. 본 논문에서 제안한 방법은 소셜 네트워크 분석의 시간을 향상시켜 여러 분야에서 사회 현상 및 동향을 분석하는데 유용하게 활용될 수 있다.

데이터기반의 신규 사업 매출추정방법 연구: 지능형 사업평가 시스템을 중심으로 (A Data-based Sales Forecasting Support System for New Businesses)

  • 전승표;성태응;최산
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.1-22
    • /
    • 2017
  • 사업타당성 분석이나 기업 기술가치평가 등 미래의 사업에 대한 진입이나 투자 타당성을 분석하기 위해서는 새로운 사업과 관련한 시장을 추정하고 그 안에서 확보 가능한 매출을 객관적으로 추정하는 과정이 필수 불가결하다. 이런 신규 매출이나 시장규모의 추정 방법은 다양한 방법으로 구분이 가능한데 크게 정량적인 방법과 정성적인 방법으로 구분할 수 있다. 그러나 두 가지 방법 모두 많은 자원과 시간을 필요로 한다. 그래서 우리는 신규 사업의 평가지원을 위한 데이터 기반의 지능형 매출 예측 시스템을 제안하고자 한다. 본 연구는 사업타당성 분석이나 기술가치평가를 위한 신규 사업의 매출 추정 시스템을 개발하는데, 알고리즘 기반으로 전통적인 정량 예측방법 중 하나인 유추방법에 주목했다. 동일한 국내 산업에서 최근 창업한 기업의 매출 실적을 국내 신규 사업의 매출액을 추정하는 유추 대상 변수로 활용할 수 있는지 검토한다. 여기서 유추예측 대상은 최초 매출액과 초기 성장률이며, 주요 비교 차원은 산업분류, 창업시기 등이 고려된다. 특히 본 연구는 우리나라 창업 기업이 가지는 매출 성장률의 평균회귀 현상을 활용하는 지능형 정보 지원 시스템을 제안하다. 본 연구에서는 신규 매출 추정을 위해서 역사적 자료인 창업 매출 실적을 활용하는 방법이 적절한지 판단하기 위해서 잠재성장모형 등을 활용해 산업분류에 따른 신규 사업의 초기 매출액과 연도별 성장률이 산업분류별로 차이가 있는지 분석한다. 기존 기업의 창업 후 4년간 매출 성과의 종단자료를 잠재성장모형으로 분석하는데, 특정 산업분류에서 차이를 보여주는지 분석해 산업분류가 유추 예측에서 고려해야할 유의미한 변수인지 분석하는 것이다. 본 연구의 결과는 신속하고 객관적인 신규 사업 매출 추정을 가능하게 하는 지능형 정보시스템을 개발하게 해서 사업성타당성 분석이나 기술가치평가 과정의 효율성을 개선시켜 줄 것으로 기대된다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

스마트폰 다종 데이터를 활용한 딥러닝 기반의 사용자 동행 상태 인식 (A Deep Learning Based Approach to Recognizing Accompanying Status of Smartphone Users Using Multimodal Data)

  • 김길호;최상우;채문정;박희웅;이재홍;박종헌
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.163-177
    • /
    • 2019
  • 스마트폰이 널리 보급되고 현대인들의 생활 속에 깊이 자리 잡으면서, 스마트폰에서 수집된 다종 데이터를 바탕으로 사용자 개인의 행동을 인식하고자 하는 연구가 활발히 진행되고 있다. 그러나 타인과의 상호작용 행동 인식에 대한 연구는 아직까지 상대적으로 미진하였다. 기존 상호작용 행동 인식 연구에서는 오디오, 블루투스, 와이파이 등의 데이터를 사용하였으나, 이들은 사용자 사생활 침해 가능성이 높으며 단시간 내에 충분한 양의 데이터를 수집하기 어렵다는 한계가 있다. 반면 가속도, 자기장, 자이로스코프 등의 물리 센서의 경우 사생활 침해 가능성이 낮으며 단시간 내에 충분한 양의 데이터를 수집할 수 있다. 본 연구에서는 이러한 점에 주목하여, 스마트폰 상의 다종 물리 센서 데이터만을 활용, 딥러닝 모델에 기반을 둔 사용자의 동행 상태 인식 방법론을 제안한다. 사용자의 동행 여부 및 대화 여부를 분류하는 동행 상태 분류 모델은 컨볼루션 신경망과 장단기 기억 순환 신경망이 혼합된 구조를 지닌다. 먼저 스마트폰의 다종 물리 센서에서 수집한 데이터에 존재하는 타임 스태프의 차이를 상쇄하고, 정규화를 수행하여 시간에 따른 시퀀스 데이터 형태로 변환함으로써 동행 상태분류 모델의 입력 데이터를 생성한다. 이는 컨볼루션 신경망에 입력되며, 데이터의 시간적 국부 의존성이 반영된 요인 지도를 출력한다. 장단기 기억 순환 신경망은 요인 지도를 입력받아 시간에 따른 순차적 연관 관계를 학습하며, 동행 상태 분류를 위한 요인을 추출하고 소프트맥스 분류기에서 이에 기반한 최종적인 분류를 수행한다. 자체 제작한 스마트폰 애플리케이션을 배포하여 실험 데이터를 수집하였으며, 이를 활용하여 제안한 방법론을 평가하였다. 최적의 파라미터를 설정하여 동행 상태 분류 모델을 학습하고 평가한 결과, 동행 여부와 대화 여부를 각각 98.74%, 98.83%의 높은 정확도로 분류하였다.

Support Vector Regression에서 분리학습을 이용한 고객의 구매액 예측모형 (The Prediction of Purchase Amount of Customers Using Support Vector Regression with Separated Learning Method)

  • 홍태호;김은미
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.213-225
    • /
    • 2010
  • 본 연구에서는 기업의 마케팅 프로모션에 따른 반응고객의 구매액 예측을 위한 방법을 제시하고 SVR의 효과적인 학습방법을 제시하였다. 프로모션에 의한 고객의 구매액을 기반으로 고객을 5등급으로 등급화하고 각 등급 내에서 SVR을 적용하여 고객의 구매액을 예측하였다. 본 연구에서 제안하는 예측된 고객의 등급 내에서 고객 구매액을 예측하는 분리데이터 학습법이 프로모션에 반응한 모든 고객을 대상으로 구매액을 예측하는 전체데이터 학습법보다 높은 예측성과를 보여주었다. 일반적으로 세분화된 고객집단을 하나의 집단으로 보고 동일한 마케팅 전략을 제시하나 본 연구를 통해 구매액에 따라 등급화 된 고객의 등급 내에서 다시 고객의 거래 구매액을 예측하여 동일한 집단 내에서도 차별화된 마케팅 전략을 제시할 수 있는 기반을 제시하였다. 즉 동일한 등급에서도 고객 구매액에 따라 고객의 우선순위를 정할 수 있으며, 이는 마케팅 담당자가 프로모션을 제시할 고객을 선정할 때 유용한 정보로 활용될 수 있다.