• 제목/요약/키워드: Clustering Problem

검색결과 708건 처리시간 0.027초

EST Analysis system for panning gene

  • Hur, Cheol-Goo;Lim, So-Hyung;Goh, Sung-Ho;Shin, Min-Su;Cho, Hwan-Gue
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2000년도 International Symposium on Bioinformatics
    • /
    • pp.21-22
    • /
    • 2000
  • Expressed sequence tags (EFTs) are the partial segments of cDNA produced from 5 or 3 single-pass sequencing of cDNA clones, error-prone and generated in highly redundant sets. Advancement and expansion of Genomics made biologists to generate huge amount of ESTs from variety of organisms-human, microorganisms as well as plants, and the cumulated number of ESTs is over 5.3 million, As the EST data being accumulate more rapidly, it becomes bigger that the needs of the EST analysis tools for extraction of biological meaning from EST data. Among the several needs of EST analyses, the extraction of protein sequence or functional motifs from ESTs are important for the identification of their function in vivo. To accomplish that purpose the precise and accurate identification of the region where the coding sequences (CDSs) is a crucial problem to solve primarily, and it will be helpful to extract and detect of genuine CD5s and protein motifs from EST collections. Although several public tools are available for EST analysis, there is not any one to accomplish the object. Furthermore, they are not targeted to the plant ESTs but human or microorganism. Thus, to correspond the urgent needs of collaborators deals with plant ESTs and to establish the analysis system to be used as general-purpose public software we constructed the pipelined-EST analysis system by integration of public software components. The software we used are as follows - Phred/Cross-match for the quality control and vector screening, NCBI Blast for the similarity searching, ICATools for the EST clustering, Phrap for EST contig assembly, and BLOCKS/Prosite for protein motif searching. The sample data set used for the construction and verification of this system was 1,386 ESTs from human intrathymic T-cells that verified using UniGene and Nr database of NCBI. The approach for the extraction of CDSs from sample data set was carried out by comparison between sample data and protein sequences/motif database, determining matched protein sequences/motifs that agree with our defined parameters, and extracting the regions that shows similarities. In recent future, in addition to these components, it is supposed to be also integrated into our system and served that the software for the peptide mass spectrometry fingerprint analysis, one of the proteomics fields. This pipelined-EST analysis system will extend our knowledge on the plant ESTs and proteins by identification of unknown-genes.

  • PDF

깊이정보 생성을 위한 영상 분할에 관한 연구 (A study on image segmentation for depth map generation)

  • 임재성
    • 한국산학기술학회논문지
    • /
    • 제18권10호
    • /
    • pp.707-716
    • /
    • 2017
  • 디스플레이 기기들이 고도화 되면서, 사용자의 목적에 부합하는 영상이 요구되어져 가고 있다. 따라서, 3D 디스플레이에서 필요하게 되는 깊이 정보가 요구될 때 디스플레이 기기들은 객체 기반의 영상 정보를 제공 할 수 있어야 한다. 따라서, 본 논문에서 깊이 정보 생성을 위한 히스토그램 기반의 영상분할 알고리즘을 제안한다. 기존의 K 군집 알고리즘에서 군집의 수를 파라미터화 하여, 영상에 적응적으로 군집 수를 결정할 수 없게 되는 한계를 지닌다. 또한, k 군집 알고리즘이 지니고 있던 지역 최소점에 빠져 영상 분할에 있어 과분할을 야기하는 지역 최소점에 빠지게 되는 경향이 있다. 반면에, 제안하는 알고리즘은 분할해야할 군집 선정에서 계산량을 고려하여 적응적으로 선택 가능할 수 있게 하는 히스토그램 기반의 알고리즘을 설계하여 적응적으로 선택 가능하게 하였다. 기존 알고리즘이 가지고 있었던 지역 최소점에 빠지지 않도록 방지하게 하여 결과 영상에서 객체 기반의 결과를 보여줄 수 있도록 설계 했다. 이 후 연결요소 알고리즘을 통해 과분할 요소를 제거했다. 따라서, 제안하는 알고리즘은 객체 기반의 깊이 정보 결과를 보여 줄 뿐만 아니라, 벤치마크 방법에 비해 확률 랜드 인덱스, 분할 커버링 측면에서도 각각 벤치마크 방법에 비해 0.017, 0.051으로 향상된 결과치를 보여준다.

과학기술 전거데이터 시스템에서의 해외 학술논문 저자 식별요소 추출 (Extraction of Author Identification Elements of Overseas Academic Papers on Authority Data System for Science and Technology)

  • 최현미;이석형;김광영;김환민
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.711-713
    • /
    • 2013
  • 페이스북, 트위터, 등의 소셜 네트워크의 확산으로 전 세계의 다양한 인적정보를 접할 수 있다. 과학기술 분야에서도 많은 인적정보가 있지만 과학기술자 정보가 체계적으로 정리되지 않아 협력 연구 파트너, 등 업무에 적합한 연구자를 찾기 어려운 문제점이 있다. 이런 문제점을 해결하고자 학술문헌 저자를 중심으로 과학기술 전거데이터를 구축하고 있다. 이 논문에서는 1994년부터 2012년까지 수집한 해외 학술논문 저자명 전거데이터를 구축하기 위하여 수백만건의 학술논문에서 저자 식별 요소를 추출한다. 저자 식별요소는 한글, 영문, 한문(일본어 포함)을 대상으로 저자명, 소속기관명, 학술지명, 발행년도, 키워드, 공저자와 공저자 소속기관, 등이 있다. 이 언어별 식별정보를 기반으로 해외 학술논문 정보에서 저자 식별 정보를 추출하여 데이터베이스를 구축하였다. 향후, 이 추출된 정보를 기반으로 저자 식별 정보를 클러스터링하고 수정, 편집하여 연구자에 대한 학술정보 활동내역을 정리할 예정이다. 구축될 해외 학술논문 전거 데이터는 연구 협력 파트너 찾기, 과제 심사위원 추천, 등 연구자 정보의 활용도를 높여 연구자 커뮤니티를 활성화시키는데 유용하게 사용될 수 있다.

  • PDF

학생 교육지원의 효율적 운영에 대한 단계적 벤치마킹 방안 연구 (A Study on the Stepwise Benchmarking Method for Efficient Operation of Student Education Support)

  • 정규한;이장희
    • 실천공학교육논문지
    • /
    • 제12권1호
    • /
    • pp.213-230
    • /
    • 2020
  • 지금까지 학교 교육은 교육 예산 및 시설, 프로그램 등이 다양하게 투입되었지만 그 성과 평가는 명확하게 이루어지지 못했다. 본 연구는 전국 고등학교에서 학생들을 위한 교육 지원의 효율성을 분석하는 모델을 제시하였다. 학생 교육지원이 비슷한 학교의 운영 효율성을 분석하기 위하여 1차적으로 EM 군집분석을 수행한 후, 군집별로 상대적 효율성을 Network DEA를 이용하여 분석하였다. 본 연구에서 Network DEA는 학교 인프라 측면의 6개 투입요소, 1차적 산출 요소인 학업지속자, 학교 프로그램 측면의 10개 2차 투입 요소, 2차적 산출 요소인 진학자와 취업자, 연결 변수인 1인당도서관이용률을 고려하여 분석하였다. 효율성 분석 결과를 기반으로 벤치마킹할 대상을 선정하기 위해 유클리드 거리 계산방법을 적용하여 Tier분석을 수행하였다. 본 연구에서는 전국의 일반계고등학교와 직업계고등학교에서의 학생 교육지원 데이터를 수집하여 교육 지원의 효율성을 분석하는 모델을 적용하였다. 단계적 벤치마킹방안은 벤치마킹 대상 선택의 문제점을 보완하기 위해 비효율적인 학교의 요소를 고려하여 단계적으로 효율성 개선 대상을 선정하도록 제안하였다. 학생 교육지원 효율성이 낮은 학교가 학생 교육지원의 효율적 운영을 위한 단계적 벤치마킹을 하는데 기초적 자료로 활용될 것으로 기대된다.

퍼지 RBFNNs와 증분형 주성분 분석법으로 실현된 숫자 인식 시스템의 설계 (Design of Digit Recognition System Realized with the Aid of Fuzzy RBFNNs and Incremental-PCA)

  • 김봉연;오성권;김진율
    • 한국지능시스템학회논문지
    • /
    • 제26권1호
    • /
    • pp.56-63
    • /
    • 2016
  • 본 연구에서는 퍼지 RBFNNs과 증분형 주성분 분석법으로 실현된 숫자인식 시스템의 설계를 소개한다. 주성분 분석법은 차원축소를 위해 사용되는 알고리즘으로 학습데이터의 차원 수가 고차원이거나 데이터의 양이 많을 때 특징 추출을 위한 많은 계산 시간을 필요로 한다. 따라서 고차원 데이터의 효율적인 차원축소와 점진적인 학습을 위해 증분형 주성분분석법을 적용하는 방법을 제안한다. 방사형 기저함수 신경회로망의 구조는 조건부, 결론부, 추론부의 3가지 기능적 모듈로서 구분이 가능하다. 조건부에서는 FCM 클러스터링 알고리즘의 도움으로 실현된 퍼지 클러스터링의 사용으로 입력 공간을 분할한다. 또한 가우시안 함수 대신 FCM(Fuzzy C-Means)클러스터링 알고리즘의 멤버쉽 값을 사용함으로써 입력 데이터의 특성을 좀 더 잘 반영할 수 있도록 개선하였으며, 결론부에서 연결가중치는 상수항에서 일차식과 이차식, 그리고 변형된 이차식과 같은 다항식의 형태로 확장하여 사용한다. 실험 결과는 공인 숫자 데이터인 MNIST 필기체 숫자 데이터를 사용하여 제안된 숫자 인식 시스템의 효율성을 다른 연구와의 비교를 통해 입증한다.

매크로 블록 정보와 시공간 히스토그램을 이용한 빠른 장면전환검출 (Fast Scene Change Detection Using Macro Block Information and Spatio-temporal Histogram)

  • 진주경;조주희;정재협;정동석
    • 대한전자공학회논문지SP
    • /
    • 제48권1호
    • /
    • pp.141-148
    • /
    • 2011
  • 기존의 많은 장면 전환 검출 알고리즘은 점진적 장면 전환을 검출하기보다는 급격한 장면 전환 검출에 중점이 맞추어졌다. 일반적으로 점진적 장면 전환 검출에 중점을 둔 알고리즘은 많은 연산량을 필요로 한다. 또한 장면 전환 검출에 오류 요소인 플래쉬 라이트, 카메라 움직임 및 특수효과 등의 다양한 오류 요소를 고려하지 못하는 경우가 많다. 또한 기존의 많은 방법들은 히스토그램 기반의 알고리즘을 제시하였지만 좋은 성능에 비해 처리속도에서 취약하다. 본 논문에서는 저장된 동영상으로 부터 수직과 수평 블록의 시간적 슬라이스 영상과 슬라이스 영상 내 매크로 블록에 해당되는 정보를 이용한 빠르고 정확한 장면 전환 검출 알고리즘을 제안한다. 슬라이스 영상으로부터 시, 공간 상관관계의 히스토그램을 구성하고, 이를 그래프 컷 분할 알고리즘에 적용하였다. 처리속도 향상을 위해 영상 전체가 아닌 각각 영상 내 수직, 수평 방향의 중심 부분의 해당되는 위치의 블록에서만 시공간 정보를 추출하여 히스토그램을 구성하였다. 또한 카메라, 물체의 움직임 및 특수효과 변화 등을 효과적으로 검출할 수 있도록 매크로 블록의 움직임과 형태 정보를 이용하여 상당한 변별력 향상을 보였다.

ICPSR 데이터 재이용 저작물 분석을 통한 사회과학 분야의 지적구조 분석 (An Investigation on Intellectual Structure of Social Sciences Research by Analysing the Publications of ICPSR Data Reuse)

  • 정은경
    • 한국문헌정보학회지
    • /
    • 제52권1호
    • /
    • pp.341-357
    • /
    • 2018
  • 오픈 사이언스 패러다임과 발달된 디지털 정보기술의 영향으로 여러 학문 분야에서 데이터의 공유와 재이용이 활발해지고 있으며, 데이터 중심(data intensive)의 학술 커뮤니티로 변모하고 있다. 본 논문은 사회과학 분야의 대규모 데이터 리파지토리인 Inter-university Consortium for Political and Social Research(ICPSR)에 수록된 데이터를 재이용한 저작물이 구현한 지적구조를 규명하고자 하였다. 이를 위하여 ICPSR 사이트의 2017년 발간된 데이터 재이용 저작물 570건을 분석의 대상으로 하였다. 분석의 과정은 두 단계를 거쳤다. 첫 번째 단계는 총 570건의 저작물에 대해서 저자, 저작물 형태, 저작물 자체의 주제 분석을 수행하였다. 저자를 살펴보면, 미국 대학과 연구기관 소속 연구자가 출현빈도 비중이 높은 것으로 나타났다. 저작물의 형태는 대부분은 학술지였으며, 이를 학술지 주제 분야로 분석하면, 사회과학, 의학, 심리학 분야로 나타났다. 두 번째 단계의 분석은 저작물의 제목에서 추출한 단어를 대상으로 동시출현단어 분석을 수행하여 군집과 네트워크로 시각화하였다. 이러한 결과는 보다 미시적인 주제 분야의 규명을 위해서 수행되었다. 분석결과 총 12군집인 정신건강, 담배영향, 학교/유년기/청년기장애, 청년기 성적위험, 아동부상, 육체활동, 폭력행동, 서베이, 가족역할, 여성, 문제행동, 성별차이로 구성되었음을 밝혔다. 이러한 결과를 종합적으로 살펴보면, ICPSR 데이터의 재이용을 통해 사회과학적 시각으로 의학 주제 분야의 연구가 비중있게 이루어지고 있음을 알 수 있다.

X-means 확장을 통한 효율적인 집단 개수의 결정 (Extensions of X-means with Efficient Learning the Number of Clusters)

  • 허경용;우영운
    • 한국정보통신학회논문지
    • /
    • 제12권4호
    • /
    • pp.772-780
    • /
    • 2008
  • K-means는 알고리즘의 단순함과 효율적인 구현이 가능함으로 인해 군집화를 위해 현재까지 널리 사용되는 방법 중 하나이다. 하지만 K-means는 집단의 개수가 사전에 결정되어야 하는 근본적인 문제점이 있다. 이 논문에서는 BIC(Bayesian information criterion) 점수를 이용하여 효율적으로 집단의 개수를 추정할 수 있는 X-means 알고리즘을 확장한 두 가지 알고리즘을 제안한다. 제안한 방법은 기본적으로 X-means 방법을 따르면서 집단이 임의의 분산 행렬을 가질 수 있도록 함으로써 X-means 알고리즘이 원형 집단만을 허용함에 따른 over-fitting을 개선한다. 제안한 방법은 하나의 집단에서 시작하여 계속해서 집단을 나누어가는 하향식 방법으로, BIC score를 최대로 증가시키는 집단을 분할해 나간다. 제안한 알고리즘은 Modified X-means(MX-means)와 Generalized X-means(GX-means)의 두 가지로, 전자는 K-means 알고리즘을, 후자는 EM 알고리즘을 사용하여 현재 주어진 집단들에서 최적의 분할을 찾아낸다. MX-means는 GX-means보다 그 속도에서 앞서지만 집단들이 중첩 된 경우에는 올바른 집단을 찾아낼 수 없는 단점이 있다. GX-means는 실행 속도가 느린 단점이 있지만 집단들이 중첩된 경우에도 안정적으로 집단들을 찾아낼 수 있다. 이러한 점들은 일련의 실험을 통해서 확인할 수 있으며, 제안한 방법들이 기존의 방법들에 비해 나은 성능을 보임을 확인할 수 있다.

K-means clustering analysis and differential protection policy according to 3D NAND flash memory error rate to improve SSD reliability

  • Son, Seung-Woo;Kim, Jae-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.1-9
    • /
    • 2021
  • 3D-NAND 플래시 메모리는 평면적 구조인 2D-NAND 셀을 적층하는 방식으로 단위 면적당 고용량을 제공한다. 하지만 적층 공정의 특성상 각 레이어별 또는 물리적인 셀 위치에 따라 오류 발생 빈도가 달라질 수 있는 문제가 있다. 이와 같은 현상은 플래시 메모리의 쓰기/지우기(P/E) 횟수가 증가할수록 두드러진다. SSD와 같은 대부분의 플래시 기반 저장장치는 오류 교정을 위하여 ECC를 사용한다. 이 방법은 모든 플래시 메모리 페이지에 대하여 고정된 데이터 보호 강도를 제공하므로 물리적 위치에 따라 오류 발생률이 각기 다르게 나타나는 3D NAND 플래시 메모리에서는 한계를 보인다. 따라서 본 논문에서는 오류 발생률 차이를 보이는 페이지와 레이어를 K-means 머신러닝 알고리즘을 통해 군집으로 분류하고, 각 군집마다 차별화된 데이터 보호강도를 적용한다. 본 논문에서는 페이지와 레이어별로 오류 발생률이 현저하게 달라지는 내구성 테스트가 끝난 시점에서 측정된 오류 발생 횟수를 바탕으로 페이지와 레이어를 분류하고 오류에 취약한 영역에 대해서는 스트라이프에 패리티 데이터를 추가하여 차별화된 데이터 보호 강도 제공을 예시로 보인다. 본 논문에서는 기존의 ECC 또는 RAID 방식의 데이터 보호 구조와 비교하여 제안하는 차별화된 데이터 보호정책이 3D NAND 플래시 메모리의 신뢰성과 수명향상에 기여할 수 있음을 보인다.

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구 (Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences)

  • 김선우;고건우;최원준;정희석;윤화묵;최성필
    • 정보관리학회지
    • /
    • 제35권4호
    • /
    • pp.141-164
    • /
    • 2018
  • 최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.