• 제목/요약/키워드: sequence-to-sequence 모델

검색결과 695건 처리시간 0.03초

하둡 플랫폼을 이용한 대량의 스몰파일 처리방법 (Processing Method of Mass Small File Using Hadoop Platform)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권4호
    • /
    • pp.401-408
    • /
    • 2014
  • 하둡(Hadoop)은 맵리듀스(MapReduce) 분산처리 프로그래밍 모델과 HDFS(Hadoop distributed file system) 분산 파일시스템으로 구성된다. 하둡은 빅데이터 처리에 적합한 프레임워크로서, 대량의 스몰파일 처리에 문제점이 있다. 하둡에서 대량의 스몰파일 처리는 하나의 파일마다 매퍼가 생성되며, 파일의 메타정보를 저장하기 위해 많은 메모리가 필요한 문제점이 있다. 본 논문은 하둡 플랫폼에서 다양한 방법으로 대량의 스몰파일 처리방법을 비교 검토하였다. 일반 압축은 데이터의 크기와 상관없이 하나의 매퍼로 처리해야 하기 때문에, 하둡 처리 포맷으로 적절하지 않다. 시퀀스 와 하둡 아카이브 파일의 처리는 스몰파일을 압축 및 병합을 통해 네임노드의 메모리 문제가 제거되었다. 하둡 아카이브 파일은 스몰파일의 병합시간이 시퀀스 파일보다 빠른 속도를 보였다. CombineFileInputFormat 클래스를 이용한 처리는 병합과정이 필요 없으며, 빅데이터 처리방법과 유사한 속도를 보였다.

중저준위 방폐물 처분 사일로 구조물의 구조거동 수치해석 연구 (Numerical Study of Structural Behavior of Underground Silo Structures for Low-and-Intermediate-level Radioactive Waste Disposal Facility)

  • 김선훈;김광진
    • 한국전산구조공학회논문집
    • /
    • 제35권3호
    • /
    • pp.183-190
    • /
    • 2022
  • 경주 방폐물 처분시설의 1단계 시설로 건설된 지하 사일로 구조는 2014년에 10만 드럼 규모로 완공되어 현재 운영중에 있다. 지하 사일로 구조는 지름 25m, 높이 50m로써 방폐물을 저장하는 실린더부분과 돔 부분으로 구성되어 있으며, 돔부분은 운영터널과 연결되는 하부 돔 부분과 상부 돔 부분으로 구분할 수 있다. 지하 사일로 구조의 벽체는 철근콘크리트 라이너이고, 두께는 약 1m이다. 본 논문에서는 지하 사일로 구조의 건설과정 및 운영과정의 단계별 유한요소해석을 수행하였다. SMAP-3D 프로그램을 사용하여 2차원 축대칭 유한요소해석을 수행하였다. 2차원 축대칭 유한요소모델의 신뢰성을 검토하고자 3차원 유한요소해석도 수행하였다. 본 논문에서는 지하 사일로 구조의 구조거동을 분석하고 구조적 안전성을 검토결과를 제시하였다.

점토의 중금속 흡착에 대한 통계모델링 (Statistical Modeling on the Sorption of Heavy Metals by Clay Minerals)

  • 정찬호;김수진
    • 지질공학
    • /
    • 제13권3호
    • /
    • pp.369-378
    • /
    • 2003
  • 캐오리나이트, 일라이트, 녹리석의 중금속(Pb, Cu, Zn, Cd) 흡착에 다양한 실험적 변수의 영향을 박스-벤켄(Box-Benken)모델을 이용한 통계 모델링을 실시하였다 중금속 흡착에 미치는 변수로 pH, 중금속의 초기농도, HCO3 (혹은 K)농도를 변수로 하고, 각 실험변수의 농도를 3차원으로 설정하여 모델에 근거한 벳치실험과 3차원 통계모델링을 실시하였다. 아울러 일라이트에 한하여 pH변화에 따른 중금속의 흡착특성을 알아보았다. 통계적 해를 얻기 위하여 SAS 프로그램을 이용하여 표면반응 분석을 통하여 실시하였다 중금속의 흡착에 영향을 미치는 가장 큰 변수는 pH이며, 그다음 중금속의 초기 농도와 중탄산(혹은 K성분)의 농도가 실험적 조건에 따라서 서로 다른 영향력을 보인다. 점토광물에 따른 중금속 흡착능력의 차이는 크지 않지만 일라이트의 경우 중금속의 초기농도에 따라서 흡착율에 상당한 차이를 보인다. 일라이트의 중금속 흡착에 K 성분이 흡착경쟁에 영향을 미치는 것으로 나타났다. 중금속간의 흡착경쟁은 Cu>Pb>>Zn>Cd의 순서를 보인다. 중금속 흡착에 점토광물의 광물학적 영향보다는 수용액의 화학적 조건이 더 큰 영향을 미치는 것으로 나타났다. 통계모델에 근거한 흡착모델링은 흡착결과를 3차원으로 효과적으로 표현할 수 있으며, 실험적 노력을 경감할 수 있는 효과적인 방법으로 판단된다.

Duration HMM을 이용한 진핵생물 유전자 예측 프로그램 개발 (A Eukaryotic Gene Structure Prediction Program Using Duration HMM)

  • 태홍석;박기정
    • 미생물학회지
    • /
    • 제39권4호
    • /
    • pp.207-215
    • /
    • 2003
  • 주어진 염기서열에서 단백질로 코딩되는 영역을 예측하는 유전자 구조 예측은 유전자 annotation의 가장 핵심적인 부분으로 유전자 분석 및 유전체 프로젝트 전체에 큰 영향을 준다. 진핵생물의 유전자가 원핵생물의 유전자에 비해 더 복잡한 구조를 가지기 때문에 진핵생물의 유전자 구조 예측 모델 역시 원핵생물에 비해 다양하고 복잡한 모델로 구성되어 있다. 본 연구팀은 duration hidden markov model을 기본형태로 하여 진핵생물의 유전자 구조 예측 프로그램인 EGSP를 개발하였다. 이 프로그램은 각 생명체의 유전자 구조 예측에 필요한 파라메터를 생성하는 학습기능과, 이를 기반으로 핵산 서열을 입력으로 해서 단백질을 코딩하는 부위를 예측하여 출력하는 기능으로 구성되며, 최근의 프로그램들의 추세대로 복수 개 유전자 예측의 기능을 갖추고 있다. EGSP의 학습과 예측에 사용되는 각 파라메터의 전체 성능에 대한 효과 분석 등을 위해 여러 개 signal에 대한 개별 모델이 주는 효과 등을 분석하였다. 진핵생물의 유전자 구조 예측에 가장 많이 연구되는 human dataset을 이용하여 현재 개발된 유전자 구조 예측 프로그램인 GenScan과 GeneID, Morgan 등 보편적으로 사용되는 프로그램들과의 성능을 여러 가지 기준에서 비교한 결과, 본 프로그램이 실용성 있는 수준을 보여주는 것을 확인하였다. 그리고 진핵 미생물인 Saccharomyces cerevisiae로 성능을 테스트한 결과 만족할 만한 수준의 성능을 나타내는 것을 알 수 있었다.

9성분계 모델 콜타르 흡수유 중에 함유된 질소고리화합물의 메탄올 추출 (Methanol Extraction of Nitrogen Heterocyclic Compound Contained in Model Coal Tar Fraction of Nine Components System)

  • 김수진;강호철
    • 공업화학
    • /
    • 제25권2호
    • /
    • pp.142-146
    • /
    • 2014
  • 9성분계 모델 콜타르 유분 중에 함유된 질소고리화합물(NHC)의 분리를 분배평형에 의해 검토했다. 원료로서는 NHC group (NHCs; quinoline (Q), iso-quinoline (iQ), indole (In), quinaldine(Qu)), 2환 방향족 화합물 group (BACs; 1-methylnaphthalene (1MN), 2-methylnaphthalene (2MN), dimethylnaphthalene (DMN)), biphenyl (Bp)과 phenyl ether (Pe)로 제조한 모델 콜타르 유분을, 용매로서는 메탄올 수용액을 각각 사용했다. 액-액 접촉 장치로서는 회분 교반기를 각각 사용했다. 평형조작 온도가 상승함에 따라 NHCs의 분배계수는 증가했으나, 역으로 BACs를 기준한 NHCs의 선택도는 감소했다. 초기 물/용매의 체적비가 감소함에 따라 BACs를 기준한 NHCs의 선택도는 급격히 감소했으나, NHCs의 분배계수는 증가했다. 일정 조건하에서, 각 group별 분배계수와 BACs를 선택도의 순서는 NHCs > Bp > BACs > Pe와 NHCs > Bp > Pe를 각각 나타냈다. 또한 전체 성분에 대한 분배계수의 순서는 In > iQ = Q > Qu > Bp > 1MN = 2MN > Pe > DMN을 나타냈다. 메탄올 추출에 의해 얻어진 NHCs의 최대 수율과 BACs를 기준한 NHCs의 최대 선택도는 각각 94%, 23이었다. 본 연구를 통해 얻어진 실험적 결과를 이용하여 콜타르 중에 함유된 NHCs의 회수공정을 검토했다.

복합재료 라미네이트 경량화 자전거 프레임의 강도 설계 (Strength Design of Lightweight Composite Bicycle Frame)

  • 이진아;홍형택;전흥재
    • 대한기계학회논문집A
    • /
    • 제37권2호
    • /
    • pp.265-270
    • /
    • 2013
  • 본 논문에서는 Tsai-Wu 파손이론을 적용하여 복합재료 자전거 프레임의 경량화를 위한 강도설계에 대하여 연구하였다. 설계에 있어서 자전거 프레임의 경량화는 중요한 문제이며, 동시에 요구 강도를 만족시켜야 한다. 하중조건으로 유럽표준위원회의 EN14764 규격에 의거하여 페달, 수직, 레벨 하중조건을 적용하였다. 복합재료는 이방성을 가지므로 적절한 적층수 및 적층 순서를 결정하는 것이 중요하다. 따라서 $[0]_{8n}$, $[90]_{8n}$, $[0/90]_{2ns}$, $[{\pm}45]_{2ns}$, $[0/{\pm}45/90]_{ns}$ 의 적층에 대하여 적층수를 변화시켜가며(n=1,2,3,4) 연구를 수행하였다. 연구 결과로부터 하중 조건에 따른 자전거 프레임의 취약부와 취약적층을 확인하였고, $[0/{\pm}45/90]_{3s}$ 이 가장 적절한 적층각 모델임을 제안하였다.

HMM을 기본으로한 집단화 방법의 불특정화자 단어 인식에 응용 (The Application of an HMM-based Clustering Method to Speaker Independent Word Recognition)

  • 임현;박순영;방만원
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.5-10
    • /
    • 1995
  • 본 논문에서는 단어를 발음하는 방법 이 각각 다른 화자들의 변이성을 잘 흡수하도록 복수개의 통계적인 모델들을 구성하기 위하여 HMM을 기본으로 하는 집단화 방법을 제시한다. 또한 개발된 방법으로부터 얻어진 HMM집단화된 모델들이 불특정화자 고립단어 인식에 응용된다. HMM 집단화 방법은 학습용 데이타로부터 어떤 경계치 보다 낮은 유사도를 갖는 관측열들을 분리하여 새로운 집단을 만들고 이 집단내에 있는 관측열들을 이용하여 새로운 모델들을 학습시키는 방법이다. 집단화 과정은 반복되는데 최고의 유사도를 갖는 모델의 집단에 관측열들을 재분배하고 집단내 관측열들이 변화하면 새로운 모델을 재 추정하여 기존의 모델을 대신한다. 그러므로 이 집단화 방법은 집단화 과정과 파라미터 추정이 일체화되어 기존의 패턴에 의한 집단화 방법보다 더욱 효율적이 된다. 실험결과 HMM에 의한 집단화 방법이 기존의 패턴에 의한 집단화 방법보다. 고립 숫자음 인식에 있어서 $1.43\%$의 인식률을 향상시킬 수 있었으며 단일 모델의 사용보다는 $2.08\%$의 인식률이 향상되었다.

  • PDF

UML을 이용한 닷넷기반의 경영관리시스템에 대한 설계 (Design of the Business Management System Based on .NET Using UML)

  • 이상영
    • 한국컴퓨터산업학회논문지
    • /
    • 제7권3호
    • /
    • pp.179-184
    • /
    • 2006
  • 많은 기업들은 정보기술의 발전과 더불어 이익을 증대시키고 비용을 절감하기 위하여 정보화 시스템을 도입하고 있다. 본 논문에서는 객체지향 방법론 설계 도구인 UML을 사용하여 AS-IS를 구축하고 닷넷 환경의 유스케이스 다이어그램, 시퀀스 다이어그램, 컴포넌트 다이어그램 등을 통하여 TO-BE 프로세스 모델을 설계한다. 그리고 소규모 회사 조직 시스템에 적용시키기 위하여 닷넷 기반으로 구축하면 컴포넌트 재사용 및 소프트웨어 생산성을 증진시킬 수 있다.

  • PDF

다기능 프로토콜 시험시스템 설계 (Design of Multiple-Purpose Protocol Test System)

  • 최양희
    • 한국통신학회논문지
    • /
    • 제15권5호
    • /
    • pp.434-445
    • /
    • 1990
  • OSI 모델에 입각한 기능확인 위주의 종래의 단순한 프로토콜 시험기법은 성능시험, 적합성시험, 상호접속시험으로 세분화되고 대상 프로토콜도 일대일, 일대다수(Point-to -multipoint)로 확장되었다. 본 논문에서는 시험항목 생성부분과 시험결과 분석기능을 공통 플랫폼으로 하고 시험 대상 프로토콜의 성격과 시험목적에 따라서 모듈화된 시험수행기부분을 선택적으로 변경하는 다기능 프로토콜 시험시스템을 제시하였다. 본 논문은 다기능 시험시스템 설계에 입각한 예로서 망루팅 프로토콜 시험시스템, 트랜스포트 프로토롤 시험시스템의 구조를 보인다.

  • PDF

변형된 비속어 탐지를 위한 토큰 기반의 분류 및 데이터셋 (Token-Based Classification and Dataset Construction for Detecting Modified Profanity)

  • 고성민;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.181-188
    • /
    • 2024
  • 기존의 비속어 탐지 방법들은 의도적으로 변형된 비속어를 식별하는 데 한계가 있다. 이 논문에서는 자연어 처리의 한 분야인 개체명 인식에 기반한 새로운 방법을 소개한다. 우리는 시퀀스 레이블링을 이용한 비속어 탐지 기법을 개발하고, 이를 위해 한국어 악성 댓글 중 일부 비속어를 레이블링하여 직접 데이터셋을 구축하여 실험을 수행하였다. 또한 모델의 성능을 향상시키기 위하여 거대 언어 모델중 하나인 ChatGPT를 활용해 한국어 혐오발언 데이터셋의 일부를 레이블링을 하는 방식으로 데이터셋을 증강하여 학습을 진행하였고, 이 과정에서 거대 언어 모델이 생성한 데이터셋을 인간이 필터링 하는 것만으로도 성능을 향상시킬 수 있음을 확인하였다. 이를 통해 데이터셋 증강 과정에는 여전히 인간의 관리감독이 필요함을 제시하였다.