• 제목/요약/키워드: 기계학습 구조

검색결과 314건 처리시간 0.026초

결함 심각도에 기반한 소프트웨어 품질 예측 (Software Quality Prediction based on Defect Severity)

  • 홍의석
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.73-81
    • /
    • 2015
  • 소프트웨어 결함 예측 연구들의 대부분은 입력 개체의 결함 유무를 예측하는 이진 분류 모델들에 관한 것들이다. 하지만 모든 결함들이 같은 심각도를 갖지는 않으므로 예측 모델이 입력 개체의 결함경향성을 몇 개의 심각도 범주로 분류할 수 있다면 훨씬 유용하게 사용될 수 있다. 본 논문에서는 전통적인 복잡도와 크기 메트릭들을 입력으로 하는 심각도 기반 결함 예측 모델을 제안하였다. 학습 알고리즘은 많이 사용되는 네 개의 기계학습 기법들을 사용하였으며, 모델 구조는 삼진 분류 모델로 하였다. 모델 성능 평가를 위해 실험 데이터는 두 개의 NASA 공개 데이터 집합을 사용하였고, 평가 측정치는 Accuracy를 이용하였다. 평가 실험 결과는 역전파 신경망 모델이 두 데이터 집합에 대해 각각 81%와 88% 정도의 Accuracy 값으로 가장 좋은 성능을 보였다.

마스크 언어 모델 기반 비병렬 한국어 텍스트 스타일 변환 (Unpaired Korean Text Style Transfer with Masked Language Model)

  • 배장성;이창기;황정인;노형종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.391-395
    • /
    • 2021
  • 텍스트 스타일 변환은 입력 스타일(source style)로 쓰여진 텍스트의 내용(content)을 유지하며 목적 스타일(target style)의 텍스트로 변환하는 문제이다. 텍스트 스타일 변환을 시퀀스 간 변환 문제(sequence-to-sequence)로 보고 기존 기계학습 모델을 이용해 해결할 수 있지만, 모델 학습에 필요한 각 스타일에 대응되는 병렬 말뭉치를 구하기 어려운 문제점이 있다. 따라서 최근에는 비병렬 말뭉치를 이용해 텍스트 스타일 변환을 수행하는 방법들이 연구되고 있다. 이 연구들은 주로 인코더-디코더 구조의 생성 모델을 사용하기 때문에 입력 문장이 가지고 있는 내용이 누락되거나 다른 내용의 문장이 생성될 수 있는 문제점이 있다. 본 논문에서는 마스크 언어 모델(masked language model)을 이용해 입력 텍스트의 내용을 유지하면서 원하는 스타일로 변경할 수 있는 텍스트 스타일 변환 방법을 제안하고 한국어 긍정-부정, 채팅체-문어체 변환에 적용한다.

  • PDF

HTML 태그 깊이 임베딩: 웹 문서 기계 독해 성능 개선을 위한 BERT 모델의 입력 임베딩 기법 (HTML Tag Depth Embedding: An Input Embedding Method of the BERT Model for Improving Web Document Reading Comprehension Performance)

  • 목진왕;장현재;이현섭
    • 사물인터넷융복합논문지
    • /
    • 제8권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 최근 종단 장치(Edge Device)의 수가 증가함에 따라 빅데이터가 생성되었고 특히 정제되지 않은 HTML 문서가 증가하고 있다. 따라서 자연어 처리 모델을 이용해 HTML 문서 내에서 중요한 정보를 찾아내는 기계 독해(Machine Reading Comprehension) 기술이 중요해지고 있다. 본 논문에서는 기계 독해의 여러 연구에서 준수한 성능을 보이는 BERT(Bidirectional Encoder Representations from Transformers) 모델이 HTML 문서 구조의 깊이를 효과적으 로 학습할 수 있는 HTDE(HTML Tag Depth Embedding Method)를 제안하였다. HTDE는 BERT의 각 입력 토큰에 대하여 HTML 문서로부터 태그 스택을 생성하고 깊이 정보를 추출한다. 그리고 BERT의 입력 임베딩에 토큰의 깊이를 입력으로하는 HTML 임베딩을 더한다. 이 방법은 문서 구조를 토큰 단위로 표현하여 주변 토큰과의 관계를 식별할 수 있기 때문에 HTML 문서에 대한 BERT의 정확도를 향상시키는 효과가 있다. 마지막으로 실험을 통해 BERT의 기존 임베딩 기법에 비해 HTML 구조에 대한 모델 예측 정확도가 향상됨을 증명하였다.

공간 클래스 단순화를 이용한 의미론적 실내 영상 분할 (Semantic Indoor Image Segmentation using Spatial Class Simplification)

  • 김정환;최형일
    • 인터넷정보학회논문지
    • /
    • 제20권3호
    • /
    • pp.33-41
    • /
    • 2019
  • 본 논문에서는 실내 공간 이미지의 의미론적 영상 분할을 위해 배경과 물체로 재설계된 클래스를 학습하는 방법을 제안한다. 의미론적 영상 분할은 이미지의 벽이나 침대 등 의미를 갖는 부분들을 픽셀 단위로 나누는 기술이다. 기존 의미론적 영상 분할에 대한 연구들은 신경망을 통해 이미지의 다양한 객체 클래스들을 학습하는 방법들을 제시해왔고, 긴 학습 시간에 비해 정확도가 부족하다는 문제가 지적되었다. 그러나 물체와 배경을 분리하는 문제에서는, 다양한 객체 클래스를 학습할 필요가 없다. 따라서 우리는 이 문제에 집중해, 클래스를 단순화 후에 학습하는 방법을 제안한다. 학습 방법의 실험 결과로 기존 방법들보다 정확도가 약 5~12% 정도 높았다. 그리고 같은 환경에서 클래스를 달리 구성했을 때 학습 시간이 약 14 ~ 60분 정도 단축됐으며, 이에 따라 물체와 배경을 분리하는 문제에 대해 제안하는 방법이 효율적임을 보인다.

기계학습 기법을 이용한 다지점 일강수량 모의 모형 개발 (Deelopment of a Multisite Daily Rainfall Simulation Model Using a Machine Learning)

  • 소병진;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.83-83
    • /
    • 2017
  • 수자원공학에서 일강수량 모의기법은 다양한 목적으로 활용되고 있지만, 일반적으로 홍수와 가뭄의 영향을 고려할 수 있는 수공구조물의 위험도 및 신뢰성 평가 및 수자원 계획을 수립하기 위한 입력 자료생성을 목적으로 활용된다. 유역 단위의 분석시 단일 지점에 대한 강수 모의 기법을 적용할 경우 각각의 지점에서 관측된 강수 자료의 시계열 및 통계치 특성이 효과적으로 재현되지만 공간적으로 발생하는 즉, 지점 간의 종속관계를 재현하지 못하는 문제가 발생한다. 이러한 이유로 공간적인 전이 특성이 있는 가뭄 분석 및 유역내 유출량의 공간적 변동 특성 분석에 단일지점별 모의 결과를 이용할 경우 관측 자료와 상반된 공간적 변동성으로 인하여 잘못된 가뭄 및 유출 분석 결과가 도출되는 문제점이 있다. 따라서, 실제적으로 발생하는 강수 특성을 반영한 유역 단위의 홍수 및 가뭄 등의 수문 분석을 위해서는 지점간의 종속성을 반영할 수 있는 다지점 강수 모의 모형의 적용이 필수적이다. 본 연구에서는 다지점 모의에 있어서, Wilks 모형의 지점별 시변동 특성과 공간상관성 재현 능력, HMM 모형이 갖는 강수 사상별로 분포된 양적 분포 패턴 재현 능력을 복합적으로 나타낼 수 있는 새로운 다지점 일강수량 모의 모형인 기계학습 기반 범주화 기법을 이용한 다지점 일강수량 모의 모형(ML-MRS)을 개발하였다. 또한, 지점별 강수량에 적용되는 확률분포모형은 Gamma 분포로 구성된 혼합모형을 적용하여 단일 확률 분포 모형의 자료 적합 문제를 개선하였다. 모의를 통한 일강수량 시계열 자료는 일 강수자료의 통계량을 효과적으로 모의하였으며, 다지점 모형의 모의 결과를 적용한 가뭄 모의 결과 관측 자료에서 나타나는 공간적 패턴이 재현되었다. 본 모형은 시 공간적 사상을 효과적으로 재현함으로서 지역의 변동특성을 반영한 가뭄, 홍수, 기상 현상 분석 등 활용도가 매우 높을 것으로 판단된다.

  • PDF

점진적 샘플링과 정규 상호정보량을 이용한 온라인 기계학습 공조기 급기온도 예측 모델 개발 (Development of Online Machine Learning Model for AHU Supply Air Temperature Prediction using Progressive Sampling and Normalized Mutual Information)

  • 추한경;신한솔;안기언;라선중;박철수
    • 대한건축학회논문집:구조계
    • /
    • 제34권6호
    • /
    • pp.63-69
    • /
    • 2018
  • The machine learning model can capture the dynamics of building systems with less inputs than the first principle based simulation model. The training data for developing a machine learning model are usually selected in a heuristic manner. In this study, the authors developed a machine learning model which can describe supply air temperature from an AHU in a real office building. For rational reduction of the training data, the progressive sampling method was used. It is found that even though the progressive sampling requires far less training data (n=60) than the offline regular sampling (n=1,799), the MBEs of both models are similar (2.6% vs. 5.4%). In addition, for the update of the machine learning model, the normalized mutual information (NMI) was applied. If the NMI between the simulation output and the measured data is less than 0.2, the model has to be updated. By the use of the NMI, the model can perform better prediction ($5.4%{\rightarrow}1.3%$).

적응형 뉴로-퍼지(ANFIS)를 이용한 건축공사비 예측 (Prediction of Building Construction Project Costs Using Adaptive Neuro-Fuzzy Inference System(ANFIS))

  • 윤석헌;박우열
    • 한국건축시공학회지
    • /
    • 제23권1호
    • /
    • pp.103-111
    • /
    • 2023
  • 건설 프로젝트의 초기단계에서 공사비를 정확하게 예측하는 것은 프로젝트를 성공적으로 수행하기 위해 매우 중요하다. 본 연구에서는 ANFIS 모델을 활용하여 건설프로젝트의 초기단계에 건축공사비를 예측할 수 있는 모델을 제시하였다. 모델의 활용도를 높이기 위해 공개된 공사비 데이터를 활용하였으며 프로젝트 초기단계의 제한된 정보를 바탕으로 예측할 수 있는 모델을 제시하고자 하였다. ANFIS와 관련된 기존 연구를 분석하여 최근의 동향을 파악하였으며 ANFIS의 기본 구조를 고찰한 후 건축공사비 예측을 위한 ANFIS 모델을 제시하였다. ANFIS의 모델의 소속함수의 종류와 개수에 따라 달라지는 예측 성능을 분석하여 가장 성능이 우수한 모델을 제시하였으며, 대표적인 기계학습 모델의 예측 정확도와 비교분석하였다. 적용결과 ANFIS 모델을 다른 기계학습 모델과 비교한 결과 동등 이상으로 성능을 나타내 프로젝트 초기단계 공사비 예측에 적용 가능할 것으로 판단된다.

시멘틱 환경에서의 개인화 검색 (Personalized Search Service in Semantic Web)

  • 김제민;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.649-651
    • /
    • 2005
  • 웹에 분산된 모든 웹 페이지는 구조가 서로 다르다. 시멘틱 웹 환경은 이형적인 구조를 갖는 웹 페이지들의 메타데이터를 바탕으로 시멘틱 검색이 가능하다. 그러나 일반적으로 사용자의 요구에 따른 시멘틱 검색은 상황에 따라 엄청난 수의 검색 결과를 내놓는다. 따라서 검색 결과에 대해 각 사용자에 맞는 검색 결과 순위를 적용할 필요가 있다. Culture Finder는 시멘틱 웹 검색 에이전트들이 개인화된 문화 정보를 검색할 수 있도록 도움을 준다. Culture Finder는 웹에 존재하는 각 웹 페이지에 대한 메타 데이터를 작성하고, 시멘틱 검색을 이행하며, 사용자 프로파일을 기반으로 삼아 검색 결과일 대한 순위 점수를 계산한다. Culture Finder에는 개인화된 시멘틱 검색을 효율적으로 실행하기 위해 중요한 5가지 기법이 적용되었다. 사용자의 검색 행위로부터 사용자 프로파일을 생성하기위한 기계 학습기법, 시멘틱 웹 검색 에이전트를 위한 효율적인 시맨틱 검색 기법, 사용자 질의의 효과일인 파악을 위한 질의 분석 기법, 각 사용자에게 적합한 검색 결과를 제공하기 위한 순위 적용 기술, 메타데이터를 생성화기 위한 상위 온톤로지 표현 기법. 본 논문에서는 Culture Finder의 구조를 통해서 시멘틱 개인화 검색에 적용되는 여러 가지 방법을 제안한다.

  • PDF

U-health 환경에 부합하는 통계기반의 질환 유무 판별 기법 (A Statistical Method for Disease Identification in u-Health)

  • 송지수;한동수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.470-474
    • /
    • 2007
  • U-healthcare는 종래의 헬스케어 영역에 유비쿼터스 기술을 접목하여 개인의 건강상태 관리를 도와주는 서비스이다. 이의 기반이 되는 기술인 질환 유무를 판별하는 기법은 그 동안 헬스케어 영역에 적용시켜 왔다. 하지만, 적시에 언제 어디서나 지속적인 모니터링이 요구되는 U-health환경에서는 기존의 기계학습기법을 그대로 적용하는 데에는 어려움이 있다. 본 논문에서는 통계기반의 질환 유무 판별 기법을 제안한다. 본 판별 기법은 질환 판별에 이용되는 생체신호와 신체증상의 종류로 배열 구조를 설정하고 축적된 데이터로부터 생체신호와 신체증상간의 쌍에 누적 빈도 수를 기록하여 학습한 뒤 고안한 판별식을 적용시켜 사용자의 질환을 판별하는 기법이다. 제한적인 검증이지만 약 360명의 실제 환자 데이터를 이용하여 기법을 검증하였고, 빠른 속도와 지속적인 개선이 가능한 기법임을 알 수 있었다. 추후 정확한 데이터를 기반으로 다른 기법과의 비교 검증으로 엄밀한 검증이 요구된다.

  • PDF

통계적 기계학습 기술을 이용한 시뮬레이션 결과 예측 시스템 개발 (Development of a Simulation Prediction System Using Statistical Machine Learning Techniques)

  • 이기용;신윤재;최연정;김선정;서영균;사정환;이종숙;조금원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.593-606
    • /
    • 2016
  • 컴퓨터 시뮬레이션은 전산유쳬역학, 나노 물리, 계산화학, 구조 동역학, 전산설계 등 여러 계산과학공학 분야에서 시스템의 움직임을 예측하기 위해 널리 사용되고 있다. 하지만 시뮬레이션의 정밀도와 복잡도가 점점 증가함에 따라 시뮬레이션을 수행하는 비용 역시 크게 증가하고 있다. 따라서 시뮬레이션의 수행비용을 줄이는 것은 특히 입력 변수들의 값을 변화시켜가며 시뮬레이션을 반복적으로 수행하는 경우, 시뮬레이션 수행 시간 단축을 위해 매우 중요하다. 본 논문은 어떤 시뮬레이션의 수행이 요청되었을 때, 해당 시뮬레이션을 실제로 수행하지 않고도 기존에 수행된 시뮬레이션의 결과를 저장하여 이전에 획득되거나 혹은 예측된 결과를 반환하는 시스템을 개발한다. 이를 위해 본 논문에서 개발된 시스템은 크게 다음 2가지 기능을 제공한다: (1) 수행이 완료된 시뮬레이션의 결과를 데이터베이스에 저장하는 기능, (2) 사용자가 요청한 시뮬레이션의 결과를 통계적 기계학습 기술을 사용하여 예측하는 기능. 본 논문에서 개발한 예측 시스템의 예측 성능을 실제 유체역학 시뮬레이션 데이터를 사용하여 평가한 결과, 출력변수에 따라 0.9%의 매우 낮은 평균 예측 오차율을 보였다. 본 논문에서 개발한 시스템을 통하여 사용자들은 계산 및 저장 자원에 큰 부하를 주는 시뮬레이션을 실제 수행하지 않고도, 수행을 원하는 시뮬레이션의 결과를 빠르게 예측해 볼 수 있다.