• 제목/요약/키워드: weighted function

검색결과 743건 처리시간 0.021초

소의 경제형질 관련 유전자 네트워크 분석 시스템 구축 (Construction of Gene Network System Associated with Economic Traits in Cattle)

  • 임다정;김형용;조용민;채한화;박종은;임규상;이승수
    • 생명과학회지
    • /
    • 제26권8호
    • /
    • pp.904-910
    • /
    • 2016
  • 가축의 경제형질은 대부분 복합형질 상태이며, 많은 유전자와 생물대사회로에 의해 조절된다. 시스템 생물학은 생명현상을 하나의 복합체로 가정하고, 형질에 관여하는 유전자들에 대한 기능적 관계를 분석하는 학문이다. 유전자 네트워크는 시스템 생물학의 하나의 연구분야로써, 유전자 기능의 상관관계를 지도화하여 오믹스 데이터를 통합 분석하여 해석한다. 유전자 네트워크는 단백질-단백질 상호작용, 공발현, 조절인자, 유전자형 기반으로 다양한 유전자의 기능적 상호작용을 표현할 수 있다. 또한, 네트워크를 구성하기 위해서는 유전자 간 연결 정도에 가중치를 두거나, 인접한 유전자 수 계산 등의 네트워크 토폴로지 알고리즘이 적용된다. 가축에서는 이러한 연구가 단형질에 대한 유전자 발현, 단백질 상호작용 등에 국한되어 있는 실정이다. 본 논문에서는 유전자 공발현 네트워크와 단백질-단백질 상호작용 네트워크 분석법을 확립하고 소의 102개 경제형질에 대하여 유전자 네트워크 분석 결과에 대한 데이터베이스를 구축하였다. 102개의 경제형질은 Animal Trait Ontology (ATO) 명명법에 의하여 분류하여 제공하였다. 각 형질에 포함된 유전자 리스트는 Animal QTL database에서 제공하는 양적유전형질좌위의 물리적 위치에 존재하는 유전자군을 추출하였다. 유전자 공발현 네트워크는 R의 WGCNA 패키지를 활용하였으며, 단백질-단백질 상호작용 네트워크는 Human Protein Reference Database에서 사람과 소의 orthologous group에 포함된 유전자를 대상으로 단백질 상호작용 관계를 규명하였다. 네트워크 분석 결과는 관계형 테이블로 구축하였으며, 구축한 데이터베이스를 관련 연구진에게 공유하기 위하여 웹 기반의 유전자 네트워크 가시화 시스템을 구현하였다(http://www.nabc.go.kr/cg). 웹 데이터베이스 구현을 위하여 Ontle 프로그램을 활용하여 다양한 방식으로 유전자 네트워크 가시화 작업을 수행하였다. 이 시스템을 통하여 사용자는 관련 형질의 후보 유전자군 탐색, 유전자 네트워크 분석 결과, 유전자 사이의 기능적 연결관계를 손쉽게 살펴볼 수 있게 될 것이다.

EPC 프로젝트의 위험 관리를 위한 ITB 문서 조항 분류 모델 연구: 딥러닝 기반 PLM 앙상블 기법 활용 (Research on ITB Contract Terms Classification Model for Risk Management in EPC Projects: Deep Learning-Based PLM Ensemble Techniques)

  • 이현상;이원석;조보근;이희준;오상진;유상우;남마루;이현식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.471-480
    • /
    • 2023
  • 국내 건설수주 규모는 2013년 91.3조원에서 2021년 총 212조원으로 특히 민간부문에서 크게 성장하였다. 국내외 시장 규모가 성장하면서, EPC(Engineering, Procurement, Construction) 프로젝트의 규모와 복잡성이 더욱 증가되고, 이에 프로젝트 관리 및 ITB(Invitation to Bid) 문서의 위험 관리가 중요한 이슈가 되고 있다. EPC 프로젝트 발주 이후 입찰 절차에서 실제 건설 회사에게 부여되는 대응 시간은 한정적일 뿐만 아니라, 인력 및 비용의 문제로 ITB 문서 계약 조항의 모든 리스크를 검토하는데 매우 어려움이 있다. 기존 연구에서는 이와 같은 문제를 해결하고자 EPC 계약 문서의 위험 조항을 범주화하고, 이를 AI 기반으로 탐지하려는 시도가 있었으나, 이는 레이블링 데이터 활용의 한계와 클래스 불균형과 같은 데이터 측면의 문제로 실무에서 활용할 수 있는 수준의 지원 시스템으로 활용하기 어려운 상황이다. 따라서 본 연구는 기존 연구와 같이 위험 조항 자체를 정의하고 분류하는 것이 아니라, FIDIC Yellow 2017(국제 컨설팅엔지니어링 연맹 표준 계약 조건) 기준 계약 조항을 세부적으로 분류할 수 있는 AI 모델을 개발하고자 한다. 프로젝트의 규모, 유형에 따라서 세부적으로 검토해야 하는 계약 조항이 다를 수 있기 때문에 이와 같은 다중 텍스트 분류 기능이 필요하다. 본 연구는 다중 텍스트 분류 모델의 성능 고도화를 위해서 최근 텍스트 데이터의 컨텍스트를 효율적으로 학습할 수 있는 ELECTRA PLM(Pre-trained Language Model)을 사전학습 단계부터 개발하고, 해당 모델의 성능을 검증하기 위해서 총 4단계 실험을 진행했다. 실험 결과, 자체 개발한 ITB-ELECTRA 모델 및 Legal-BERT의 앙상블 버전이 57개 계약 조항 분류에서 가중 평균 F1-Score 기준 76%로 가장 우수한 성능을 달성했다.

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.