• 제목/요약/키워드: Learning Repository

검색결과 107건 처리시간 0.022초

Centroid and Nearest Neighbor based Class Imbalance Reduction with Relevant Feature Selection using Ant Colony Optimization for Software Defect Prediction

  • B., Kiran Kumar;Gyani, Jayadev;Y., Bhavani;P., Ganesh Reddy;T, Nagasai Anjani Kumar
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.1-10
    • /
    • 2022
  • Nowadays software defect prediction (SDP) is most active research going on in software engineering. Early detection of defects lowers the cost of the software and also improves reliability. Machine learning techniques are widely used to create SDP models based on programming measures. The majority of defect prediction models in the literature have problems with class imbalance and high dimensionality. In this paper, we proposed Centroid and Nearest Neighbor based Class Imbalance Reduction (CNNCIR) technique that considers dataset distribution characteristics to generate symmetry between defective and non-defective records in imbalanced datasets. The proposed approach is compared with SMOTE (Synthetic Minority Oversampling Technique). The high-dimensionality problem is addressed using Ant Colony Optimization (ACO) technique by choosing relevant features. We used nine different classifiers to analyze six open-source software defect datasets from the PROMISE repository and seven performance measures are used to evaluate them. The results of the proposed CNNCIR method with ACO based feature selection reveals that it outperforms SMOTE in the majority of cases.

Identification of Mechanical Parameters of Kyeongju Bentonite Based on Artificial Neural Network Technique

  • Kim, Minseop;Lee, Seungrae;Yoon, Seok;Jeon, Min-Kyung
    • 방사성폐기물학회지
    • /
    • 제20권3호
    • /
    • pp.269-278
    • /
    • 2022
  • The buffer is a critical barrier component in an engineered barrier system, and its purpose is to prevent potential radionuclides from leaking out from a damaged canister by filling the void in the repository. No experimental parameters exist that can describe the buffer expansion phenomenon when Kyeongju bentonite, which is a buffer candidate material available in Korea, is exposed to groundwater. As conventional experiments to determine these parameters are time consuming and complicated, simple swelling pressure tests, numerical modeling, and machine learning are used in this study to obtain the parameters required to establish a numerical model that can simulate swelling. Swelling tests conducted using Kyeongju bentonite are emulated using the COMSOL Multiphysics numerical analysis tool. Relationships between the swelling phenomenon and mechanical parameters are determined via an artificial neural network. Subsequently, by inputting the swelling tests results into the network, the values for the mechanical parameters of Kyeongju bentonite are obtained. Sensitivity analysis is performed to identify the influential parameters. Results of the numerical analysis based on the identified mechanical parameters are consistent with the experimental values.

데이터 시각화 기반의 UCI Sensor Data 분석 (UCI Sensor Data Analysis based on Data Visualization)

  • 장일식;최희조;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.21-24
    • /
    • 2020
  • 대용량의 데이터를 시각적 요소를 활용하여 눈으로 볼 수 있도록 하는 데이터 시각화에 대한 관심이 꾸준히 증가하고 있다. 데이터 시각화는 데이터의 전처리를 거쳐 차원 축소를 하여 데이터의 분포를 시각적으로 확인할 수 있다. 공개된 데이터 셋은 캐글(kaggle), 아마존 AWS 데이터셋(Amazon AWS datasets), UC 얼바인 머신러닝 저장소(UC irvine machine learning repository)등 다양하다. 본 논문에서는 UCI의 화학 가스의 데이터셋을 이용하여 딥러닝을 이용하여 다양한 환경 및 조건에서의 학습을 통한 데이터분석 및 학습 결과가 좋을 경우와 그렇지 않을 경우의 마지막 레이어의 특징 벡터를 시각화하여 직관적인 결과를 확인 가능 하도록 하였다. 또한 다차원 입력 데이터를 시각화 함으로써 시각화 된 결과가 딥러닝의 학습결과와 연관이 있는지를 확인 한다.

  • PDF

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

스마트교육을 위한 오픈 디지털교과서 (Open Digital Textbook for Smart Education)

  • 구영일;박충식
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.177-189
    • /
    • 2013
  • 스마트교육에서 디지털교과서의 역할은 학습자와 대면하는 교육미디어로써 그 중요성은 재론의 여지없다. 이러한 디지털교과서는 학습자의 편의와 더불어 교수자, 콘텐츠 제작자, 유통업자를 위하여 표준화되어야 활성화되고 산업화될 수 있다. 본 연구에서는 다음과 같은 3가지 목표를 지향하는 디지털교과서 표준화 방안을 모색한다. (1) 디지털교과서는 온-오프 수업을 모두 지원하는 혼합학습 매체의 역할을 해야 하며, 특별한 전용뷰어 없이 표준을 준수하는 모든 EPUB 뷰어에서 실행가능 해야 하며, 기존의 이러닝 학습 콘텐츠와 학습관리시스템를 활용할 수 있도록 하며, 디지털 교과서를 사용하는 학습자의 정보를 추적 관리할 수 있는 트랙킹기능이 있으면서도, 오프라인 동안의 정보를 축적하여 서버와 통신할 수 있는 기능도 필요하다. 디지털교과서의 표준으로서 EPUB을 고려하는 이유는 디지털교과서가 책의 형태를 가져야 하는데 이를 위해서 따로 표준을 정할 필요가 없으며, EPUB 표준을 채택함으로써 풍부한 콘텐츠, 유통구조, 산업기반을 활용할 수 있기 때문이다. (2) 디지털교과서는 오픈소스를 적극 활용하여 저비용으로 현재 사용가능한 서비스를 구성하여 표준과 더불어 실제 실행 가능한 프로그램으로 제시되어야 하며, 관련 학습 콘텐츠가 오픈마켓의 형태로 운영될 수 있어야 한다. (3) 디지털교과서는 학습자에게 적절한 학습 피드백을 제공하기 위하여 모든 학습활동 정보를 축적하고 관리될 수 있는 인프라를 표준에 따라 구축하여 교육 빅데이터 처리의 기반을 제공하여야 한다. 이북 표준인 EPUB 3.0을 기반으로 하는 오픈 디지털교과서는 (1) 학습활동 정보를 기록하고 (2) 이 학습활동 지원을 위한 서버와 통신하여야 한다. 현재 표준으로 정해져 있지 않은 이북의 기록과 통신 기능을 EPUB 3.0의 JavaScript로 구현하여 현재 EPUB 3.0 뷰어에서도 활용하면서 이를 차세대 이북 표준 또는 교육을 위한 이북 표준(EPUB 3.0 for education)으로 제안하여 향후 제정된 표준 이북 뷰어에서는 JavaScript없이도 처리되도록 하는 전략이 필요하다. 향후 연구는 제안한 오픈 디지털교과서 표준에 의한 오픈소스 프로그램을 개발하고, 개발된 오픈 디지털교과서의 학습활동정보를 활용한 새로운 교육서비스 방안(교육 빅데이터 활용방안 포함)을 제시하는 것이다.

교수·학습자료용 기록정보 콘텐츠 서비스의 구성 및 개발 (Composition and Development of Archival Content Service for Teaching-learning Materials)

  • 심성보
    • 기록학연구
    • /
    • 제16호
    • /
    • pp.201-256
    • /
    • 2007
  • 최근 국가기록원과 민주화운동기념사업회 사료관 등 한국의 주요 아카이브즈와 매뉴스크립트 보존소는 학생과 교사를 대상으로 하는 기록정보 서비스를 적극 추진하고 있다. 이에, 영국의 TNA와 미국의 NARA 및 LC에서 제공하고 있는 학생과 교사 대상의 기록정보 서비스 선진사례에 대한 분석과, 한국의 기록관리 현실 및 교육과정에 대한 분석을 기반으로 하여, 학생과 교사를 대상으로 하는 기록정보 서비스의 개발과정에서 발생할 주요 문제점을 분석하고 이의 해결방안을 제시하고자 한다. 학생과 교사 대상의 기록정보 서비스는 '서비스 개발을 통한 이용 활성화'와 '기록관리 품질의 점진적 향상'이라는 목적하에 진행되어야 한다. 고객군은 '한국사 교수 학습 당사자로서의 학생과 교사'로 세분화하여 식별할 수 있다. 교육과정과 교육환경을 분석한 결과, 기록정보는 교수 학습자료용으로 개발되어야 하며, 이를 위해서는 기록정보를 콘텐츠화할 필요가 있다. 따라서 서비스의 성격은 '교수 학습자료용 기록정보 콘텐츠 서비스'로 개념화할 수 있다. 콘텐츠 서비스를 개념화하고 구성한 후 실제로 개발하는 전 과정에서는 다음의 사항이 핵심적이다. 첫째, 고객 중심의 서비스로 개발되어야 한다. 둘째, 기록관리의 체계화와 전통적인 기록관리 서비스의 활성화에도 기여할 수 있는 방향으로 개발되어야 한다. 셋째, 교육용 서비스 담당자를 중심으로 한 협업체계가 구축되어야 한다. 넷째, 기록정보와 주제별 교수 학습활동이 연계될 수 있도록 개발되어야 한다. 다섯째, 콘텐츠의 수량보다 콘텐츠의 품질을 우선으로 해야 한다. 여섯째, 다른 기관과의 서비스 제휴를 적극적으로 모색해야 한다. 한편, 초 중 고 교육과정이 개정되어 2011년에는 모든 국사 교과서가 새로운 내용으로 보급될 예정이고, 서책형 교과서뿐만 아니라 디지털 교과서도 개발되고 있는 상황에 비추어볼 때, 이 시기에 학생 교사 대상의 서비스가 획기적으로 발전된다면, 기록문화의 창달에 큰 도움이 될 것이다. 이 시기를 적극 활용하여, 한국사를 교수 학습하는 430만명의 학생과 1만 4천명의 교사가 한 학기에 한 번 이상 교수 학습자료용 기록정보 콘텐츠 서비스로 교수 학습하게 한다는 비전을 수립하고, 교수 학습자료용 기록정보 콘텐츠 서비스를 성공적으로 개발 보급하기 위해 다음과 같은 사항을 추진할 것을 제언한다. 첫째, '고객 중심의 서비스' 개념을 확립하고 체계화해야 한다. 둘째, 교육과정과 교과서를 심도 깊게 분석해야 한다. 셋째, 교육용 기록정보 콘텐츠 서비스 방법론을 개발해야 한다. 넷째, 기록관리 전문가집단과 교사집단의 전략적 협력체계를 수립해야 한다. 다섯째, 2011년까지의 단계별 추진 과제와 추진 일정을 수립해야 한다. 기록문화의 창달을 위한 알찬 씨앗이 초 중 고등학교에도 하루빨리 뿌려지기를 기대한다.

인식기 풀 기반의 다수 인식기 시스템 구축방법 (Construction of Multiple Classifier Systems based on a Classifiers Pool)

  • 강희중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권8호
    • /
    • pp.595-603
    • /
    • 2002
  • 우수한 인식 성능을 보이기 위하여 가용한 인식기 풀(pool)로부터 다수 인식기를 선택하는 방법에 관한 연구는 소수에 불과하였다. 그래서, 어떻게 또는 얼마나 많은 인식기를 선택해야 하는가에 관한 인식기의 선택 문제는 여전히 중요한 연구 주제로 남아 있다. 본 논문에서는 선택되는 인식기의 개수가 미리 제한되어 있다는 가정 하에서, 다양한 선택 기준을 제안하고, 이들 선택 기준에 따라서 다수 인식기 시스템을 구축하며, 구축된 다수 인식기 시스템의 성능을 평가함으로써 제안된 선택 기준을 평가하고자 한다. 모든 가능한 다수 인식기의 집합은 선택 기준에 의해서 조사되고, 그 중 일부가 다수 인식기 시스템의 후보로 선정된다. 이러한 다수 인식기 시스템 후보들은 Concordia 대학과 UCI(University of California, Irvine)의 기계학습 자료로부터 얻은 무제약 필기 숫자를 인식하는 실험에 의해 평가되었다. 다양한 선택기준 중에서, 특히 조건부 엔트로피에 기반한 정보 이론적 선택 기준에 의하여 구축된 다수 인식기 시스템 후보가 다른 선택 기준에 의한 후보보다 더 유망한 결과를 보여 주었다.

시멘틱 웹 환경에서의 개인화 검색 (Personalized Search Service in Semantic Web)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.533-540
    • /
    • 2006
  • 웹에 분산된 모든 윈 페이지는 구조가 서로 다르다. 시멘틱 웹 환경은 이형적인 구조를 갖는 웹 페이지들의 메타데이터 바탕으로 시멘틱 검색이 가능하다. 그러나 일반적으로 사용자의 요구에 따른 시멘틱 김색은 상황에 따라 엄청난 수의 검색 결과를 내놓는다. 따라서 검색 결과에 대해 각 사용자에 맞는 검색 결과 순위를 적용할 필요가 있다. Culture Finder는 시멘틱 웹 검색 에이전트들이 개인화 된 문화 정보를 검색할 수 있도록 도움을 준다. Culture Finder는 웹에 존재하는 각 웹 페이지에 대한 메타 데이터를 작성하고, 시멘틱 검색을 이행하며 사용자 프로파일을 기반으로 삼아 검색 결과에 대한 순위 점수를 계산한다. Culture Finder에는 개인화 된 시멘틱 검색을 효율적으로 실행하기 위해 중요한 5가지 기법이 적용되었다. 사용자의 검색 행위로부터 사용자 프로파일을 생성하기 위한 기계 학습기법, 시멘틱 웹 검색 에이전트를 위한 효율적인 시멘틱 검색 기법, 사용자 질의의 효과적인 파악을 위한 질의 분석 기법, 각 사용자에게 적합한 검색 결과를 제공하기 위한 순위 적용 기술, 메타데이터를 생성하기 위한 상위 온톨로지 표현 방법, 본 논문에서는 Culture Finder의 구조를 통해서 시멘틱 개인화 검색에 대한 기법을 제안한다.

클래스가 부가된 커널 주성분분석을 이용한 비선형 특징추출 (Nonlinear Feature Extraction using Class-augmented Kernel PCA)

  • 박명수;오상록
    • 전자공학회논문지SC
    • /
    • 제48권5호
    • /
    • pp.7-12
    • /
    • 2011
  • 본 논문에서는 자료패턴을 분류하기에 적합한 특징을 추출하는 방법인, 클래스가 부가된 커널 주성분분석(class-augmented kernel principal component analysis)를 새로이 제안하였다. 특징추출에 널리 이용되는 부분공간 기법 중, 최근 제안된 클래스가 부가된 주성분분석(class-augmented principal component analysis)은 패턴 분류를 위한 특징을 추출하기 위해 이용되는 선형분류분석(linear discriminant analysis)등에 비해 정확한 특징을 계산상의 문제 없이 추출할 수 있는 기법이다. 그러나, 추출되는 특징은 입력의 선형조합으로 제한되어 자료에 따라 적절한 특징을 추출하기 어려운 경우가 발생한다. 이를 해결하기 위하여 클래스가 부가된 주성분분석에 커널 트릭을 적용하여 비선형 특징을 추출할 수 있는 새로운 부분공간 기법으로 확장하고, 실험을 통하여 성능을 평가하였다.

지역문화콘텐츠를 활용한 대학도서관 활성화 방안 연구 (A Study on the Revitalization of University Libraries Using Local Cultural Contents)

  • 노영희;이석형;신영지;곽우정
    • 한국비블리아학회지
    • /
    • 제31권3호
    • /
    • pp.169-189
    • /
    • 2020
  • 본 연구에서는 시대적 요구와 함께 대학도서관의 역할 및 기능이 지역 정보서비스의 거점이자 지역정보서비스센터로 확대되었다. 이에 따라, 대학도서관이 지역정보서비스를 강화하기 위한 방안 중 하나로 지역문화콘텐츠를 활용한 대학도서관서비스 활성화 방안을 모색하고자 하였다. 그 결과, 첫째, 대학도서관에서는 지역을 대표하는 핵심 문화콘텐츠 또는 지역 출신 인물과 관련한 콘텐츠 등을 지역문화콘텐츠로 선정하여, 지역의 관련 기관으로부터 정보를 제공받아 서비스하거나, 직접 자료를 제작하여 지역의 문화와 예술을 기반으로 한 사회적, 문화적, 교육적 기능을 수행하여야 한다. 둘째, 대학도서관은 지역문화콘텐츠 관련 프로그램을 기획할 때, 지역 탐방과 학습, 독서, 체험 등이 결합된 형태로 진행하여야 한다. 셋째, 대학도서관은 지역문화자원 관리시스템 구축을 통해 문화자원의 체계적이고 안정적인 보존과 광범위한 서비스 확대를 통해 문화자원 저장소와 문화자원의 허브로서의 역할을 수행해야 한다.