• 제목/요약/키워드: vector representation

검색결과 287건 처리시간 0.028초

개방환경에서 지형정보의 웹지도화 방법과 적용에 관한 연구 (A Study on the Web Mapping Method and Application of the Topographic Information in an Open Environment)

  • 김남신
    • 한국지역지리학회지
    • /
    • 제13권5호
    • /
    • pp.563-575
    • /
    • 2007
  • 본 연구는 개방환경에서 지형정보 웹지도화를 통한 활용가능성에 대한 검토 분석이다. 웹지형도는 기존 지형도의 기능을 수행하면서 동적인 지형정보 활용을 위한 기능과 분석, 시각화에 초점을 두고자 하였다. 웹지형정보도의 주요 기능 구현으로는 공간검색, 확대 축소, 이동, 토지이용 정보, 사용자정의 3차원 표현, 지형단면 및 고도분석, 거리분석, 지역간 경로안내, 지역검색, 필드정보, 지역 영상정보 등이다. 이러한 기능을 수행하기 위해 SVG, MYSQL, PHP, XML을 사용하였다. 공간정보는 SVG를 이용하여 표현되도록 하였다. SVG는 소스가 개방되어 누구나 쉽게 사용할 수 있을 뿐만 아니라, 웹언어를 통한 데이터베이스 연동, 지도학적 표현이 효과적이다. 본 연구에서 중점을 두어 개발한 기능은 사용자 정의 3차원지도, 지형단면도, 최단경로 분석이다. 3차원지도는 수치고도모델을 제작하여 고도에 따른 픽셀에 불투명도 간을 부여하여 태양빛에 따라 입체영상이 표현되도록 하였다. 지형단면분석은 사용자가 범위를 지정하면 수치고도모델의 고도간을 데이터베이스에서 가져와 지형단면도과 통계정보가 나타나도록 하였다. 지역간 최단경로는 다익스트라 알고리즘을 적용하여 개발하였다. 앞으로 WebGIS는 정보전달 보다는 사용자 제공 지리정보(WebGIS 2.0) 확산에 더 기여할 것으로 예상된다. 이를 위하여 보다 많은 WebGIS 에 대한 연구개발이 요구된다.

  • PDF

웹환경에서 LoD와 좌표변형에 의한 지도일반화 (Generalization by LoD and Coordinate Transformation in On-the-demand Web Mapping)

  • 김남신
    • 한국지역지리학회지
    • /
    • 제15권2호
    • /
    • pp.307-315
    • /
    • 2009
  • 지도일반화는 간결한 지도 표현과 지리적 의미의 효과적 전달을 목적으로 하는 지도제작 방법이다. 컴퓨터 지도학의 발달로 인하여 새로운 알고리즘들이 디지털 환경에서 적용할 수 있도록 연구되어 왔다. 본 연구는 인터넷 환경에서 좌표변형과 Lod(level of detail)기법에 의한 일반화를 적용하여 다축척지도의 활용 가능성을 검토하고자 하였다. WebGIS에 있어서 좌표변형 방법은 데이터 용량을 감소시켜 공간정보의 전송속도를 향상시키기 위해 적용할 수 있는 방법이다. Lod 기법은 사용자의 줌레벨에 따라 공간정보를 선택하여 웹지도를 제직하는 방법이다. 연구의 진행은 등고선, 하계망, 지명, 행정구역, 산정, 행정관청에 대한 레이어를 구축하여, 선과 면사장에 대해 줌레벨에 따라 XML 기반의 SVG를 이용하여 일반화를 적용하였다. 적용결과, 모니터 해상도 1024${\ast}$768를 기준으로 지리좌표계로 작성된 SVG 문서는 9.76Mb, 좌표변형 문서는 4.08Mb로 41% 감소하였다. 지리정보 해상도를 결정하는 LoD에 따른 렌더링 일반화는 줌레벨 1, 2, 3단계 별로 실시하였다. 1단계에서는 주요 지명 및 행정관청, 고차수 하계망, 산정 등 소축척 지도에 표현되는 요소들이 나타낼 수 있도록 하였다. 고차 레벨로 갈수록 지도요소의 수와 양은 많아진다. 본 연구결과는 인터넷환경에서 다량의 공간정보와 속성정보 전송에 필요한 WebGIS의 자료전송효과 및 다축척의 지도학적 표현에 기여할 것으로 본다. 또한, 공간데이터베이스 및 전송환경에서 일반화를 위한 알고리즘 개발에 보다 많은 연구가 있어야 할 것으로 판단된다.

  • PDF

분절 특징 HMM을 이용한 영어 음소 인식 (English Phoneme Recognition using Segmental-Feature HMM)

  • 윤영선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.167-179
    • /
    • 2002
  • 본 논문에서는 여러 프레임 특징으로 표현되는 분절 특징(segmental feature) 표현 방법을 제안하고, HMM 개념 위에서 음향학적 모델과 그 알고리즘을 개발하여 HMM의 약점으로 지적되는 독립관측 가정을 완화시키고자 한다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 한다. 분절 특징은 다항식의 회귀 함수(polynomial regression function)에 의하여 관측 벡터의 궤적으로 표현되고, 이 특징을 패턴 분류에 사용하기 위하여 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM(segmental HMM)을 이용한다. SHMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하며, 외적 분절 변이는 장기적인 변화를, 내적 분절 변이는 단기적인 변화를 나타낸다. 음향학적 모델에서 분절 특성을 고려하기 위하여 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정한 분절 특징 HMM(SFHMM; segmental-feature HMM)을 제안한다. SFHMM에서는 분절의 관측 확률을 분절 우도와 궤적의 추정 오차의 관계로써 표현하며, 추정오차는 특정 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 이들 실험 결과에서, 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

2차원 PCA 얼굴 고유 식별 특성 부분공간 모델 기반 강인한 얼굴 인식 (Robust Face Recognition based on 2D PCA Face Distinctive Identity Feature Subspace Model)

  • 설태인;정선태;김상훈;장언동;조성원
    • 대한전자공학회논문지SP
    • /
    • 제47권1호
    • /
    • pp.35-43
    • /
    • 2010
  • 고유얼굴 기반 얼굴 인식 방법과 같은 얼굴 형태 기반 얼굴 인식 방법에 사용되는 1차원 PCA는 고차원의 얼굴 형태 데이터 벡터들의 처리로 인하여 부정확한 얼굴 표현과 과도한 계산량을 초래할 수 있다. 이에 개선 방안의 하나로 2차원 PCA 기반 얼굴 인식 방법이 개발되었다. 그러나 단순한 2차원 PCA 적용으로 얻어진 얼굴 표현 모델에는 얼굴 공통 특성 성분과 개인 식별 특성 성분이 모두 포함된다. 얼굴 공통 특성 성분은 오히려 개인 식별 능력을 방해할 수가 있고 또한 인식 처리 시간의 증가를 초래한다. 본 논문에서는 2차원 PCA 적용으로 얻어진 얼굴 특성 공간에서 얼굴 공통 특성 영향이 분리된 얼굴 고유 식별 특성 부분공간 모델을 개발하고 개발된 모델에 기반한 새로운 강인한 얼굴 인식 방법을 제안한다. 제안한 얼굴 고유식별 특성 부분공간 모델 기반 얼굴 인식 방법은 얼굴 고유 식별 특성에만 주로 의존하기 때문에 기존 1차원 PCA 및 2차원 PCA 기반 얼굴 인식 방법보다 얼굴 인식 성능 및 인식 속도에 대해서 더 우수한 성능을 보인다. 이는 다양한 조명 조건하에 다양한 얼굴 자세를 갖는 얼굴 이미지들로 구성된 Yale A 및 IMM 얼굴 데이터베이스를 이용한 실험을 통해 확인하였다.

구문분석에 기반한 한글 자연어 질의로부터의 불리언 질의 생성 (Boolean Query Formulation From Korean Natural Language Queries using Syntactic Analysis)

  • 박미화;원형석;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1219-1229
    • /
    • 1999
  • 일반적으로 AND, OR, NOT과 같은 연산자를 사용하는 불리언 질의는 사용자의 검색의도를 정확하게 표현할 수 있기 때문에 검색 전문가들은 불리언 질의를 사용하여 높은 검색성능을 얻는다고 알려져 있지만, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 본 논문에서는 검색성능의 향상과 사용자 편의성을 동시에 만족하기 위하여 사용자의 자연어 질의를 확장 불리언 질의로 자동 변환하는 방법론을 제안한다. 먼저 자연어 질의를 범주문법에 기반한 구문분석을 수행하여 구문트리를 생성하고 연산자 및 키워드 정보를 추출하여 구문트리를 간략화한다. 다음으로 간략화된 구문트리로부터 명사구를 합성하고 키워드들에 대한 가중치를 부여한 후 불리언 질의를 생성하여 검색을 수행한다. 또한 구문분석의 오류로 인한 검색성능 저하를 최소화하기 위하여 상위 N개 구문트리에 대해 각각 불리언 질의를 생성하여 검색하는 N-BEST average 방법을 제안하였다. 정보검색 실험용 데이타 모음인 KTSET2.0으로 실험한 결과 제안된 방법은 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존의 벡터공간 모델에 기반한 자연어질의 시스템에 비해 23% 성능향상을 보였다. Abstract There have been a considerable evidence that trained users can achieve a good search effectiveness through a boolean query because a structural boolean query containing operators such as AND, OR, and NOT can make a more accurate representation of user's information need. However, it is not easy for ordinary users to construct a boolean query using appropriate boolean operators. In this paper, we propose a boolean query formulation method that automatically transforms a user's natural language query into a extended boolean query for both effectiveness and user convenience. First, a user's natural language query is syntactically analyzed using KCCG(Korean Combinatory Categorial Grammar) parser and resulting syntactic trees are structurally simplified using a tree-simplifying mechanism in order to catch the logical relationships between keywords. Next, in a simplified tree, plausible noun phrases are identified and added into the same tree as new additional keywords. Finally, a simplified syntactic tree is automatically converted into a boolean query using some mapping rules and linguistic heuristics. We also propose an N-BEST average method that uses top N syntactic trees to compensate for bad effects of single incorrect top syntactic tree. In experiments using KTSET2.0, we showed that a proposed method outperformed a traditional vector space model by 23%, and surprisingly manually constructed boolean queries by 8%.

모바일 한자 학습 애니메이션 생성 (Animation Generation for Chinese Character Learning on Mobile Devices)

  • 구상옥;장현규;정순기
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권12호
    • /
    • pp.894-906
    • /
    • 2006
  • 모바일 기기의 성능 및 화면, 무선 네트워크의 속도 등의 제약으로 모바일 컨텐츠 개발에는 많은 어려움이 있다. 단순히 유선 웹상에서 기존에 서비스 되던 컨텐츠의 가시적인 축소만으로는 양질의 컨텐츠 제작이 어렵다. 빠르게 변화하는 모바일 컨텐츠 시장에 적응하기 위해서는 컨텐츠 특성에 최적화된 데이타 표현 기법 및 저작 도구의 개발이 이루어져야 한다. 본 논문에서는 모바일 기기 상에서의 한자 학습을 위한 적은 용량의 모바일 컨텐츠 및 저작 도구를 개발하였다. 본 연구에서 개발한 모바일 컨텐츠는 단순히 한자 이미지와 설명 정보를 보여주는 것이 아니라, 한자 획순으로 붓으로 쓰는 것과 같은 애니메이션 효과를 줄 수 있다. 또한 저작 도구는 사용자가 그래픽이나 한자, 모바일 프로그래밍에 관한 전문가가 아니더라도 쉽고 빠르게 컨텐츠를 생성할 수 있는 개발 환경을 제공한다. 본 논문은 트루타입 폰트로부터 글자 모양을 획득하여, 간단한 사용자 입력으로 획 분할 및 획 순서 정보를 얻고, 자동으로 획의 방향을 추출, 각 획마다 붓으로 쓰는 효과의 애니메이션을 생성한다. 다음으로 모바일 기기에서의 효율적인 글자 애니메이션을 위해 애니메이션 데이타를 압축한다. 본 논문은 한자뿐 아니라, 한글 또는 다른 형태의 그래픽에도 이용될 수 있으며, 향후 획 분할 및 획 순서 결정을 자동화하는 방법을 연구하고자 한다.

위성영상 검색에서 사용자 관심영역을 이용한 적합성 피드백 (Relevance Feedback using Region-of-interest in Retrieval of Satellite Images)

  • 김성진;정진완;이석룡;김덕환
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권6호
    • /
    • pp.434-445
    • /
    • 2009
  • 내용 기반 영상 검색(content based image retrieval)은 영상 자체의 정보를 이용하여 유사 영상을 검색하는 기법이다. 하지만 멀티미디어 데이터는 텍스트 데이터와 달리 얻을 수 있는 데이터가 정확하지 않고 또한 시스템에서 표현되는 데이터의 저차원(low-level)의 표현법과 사용자가 인식하는 고차원(high-level)의 개념(concept)은 상당한 차이를 나타내게 된다. 즉 시스템 상에서 벡터들로 표현된 영상 데이터들이 벡터스페이스 상에서는 가깝지만 실제 사용자는 유사하지 않다고 인식하는 문제점이 발생한다. 이를 의미적 간극(semantic-gap) 문제라고 부른다. 이런 의미적 간극 문제로 인해 영상검색 결과는 좋지 않은 성능을 보이게 된다. 이를 해결하기 위해 사용자의 피드백 정보를 이용하여 질의를 수정하는 적합성 피드백 기법이 널리 사용되고 있다. 하지만 기존의 적합성 피드백은 사용자의 관심영역(region-of-interest, 이하 ROI)를 고려하지 않아 적합한(relevant) 영역의 모든 영역들이 새로운 질의 점을 계산하는 과정에서 사용된다. 시스템은 그 스스로 사용자 관심영역을 알지 못하기 때문에 적합성 피드백을 영상수준(image-level)으로 진행하기 때문이다. 이 논문에서는 복잡한 위성영상 영역 검색에서 관심영역을 사용자가 직접 선택하도록 유도하여 더욱 정확한 질의 점을 계산하여 정확도를 높이는 사용자 관심영역 적합성 피드백 방법을 제시한다. 또한 사용자가 선택하지 않은 부정확한 영상 정보를 이용하여 정확도를 향상시키는 프루닝 기법도 함께 제시한다. 실험을 통하여 사용자 관심영역 적합성 피드백의 우수성과 함께 제안한 프루닝 기법의 효율성도 함께 보여준다.

Coordinative movement of articulators in bilabial stop /p/

  • Son, Minjung
    • 말소리와 음성과학
    • /
    • 제10권4호
    • /
    • pp.77-89
    • /
    • 2018
  • Speech articulators are coordinated for the purpose of segmental constriction in terms of a task. In particular, vertical jaw movements repeatedly contribute to consonantal as well as vocalic constriction. The current study explores vertical jaw movements in conjunction with bilabial constriction in bilabial stop /p/ in the context /a/-to-/a/. Revisiting kinematic data of /p/ collected using the electromagenetic midsagittal articulometer (EMMA) method from seven (four female and three male) speakers of Seoul Korean, we examined maximum vertical jaw position, its relative timing with respect to the upper and lower lips, and lip aperture minima. The results of those dependent variables are recapitulated in terms of linguistic (different word boundaries) and paralinguistic (different speech rates) factors as follows. Firstly, maximum jaw height was lower in the across-word boundary condition (across-word < within-word), but it did not differ as a function of different speech rates (comfortable = fast). Secondly, more reduction in the lip aperture (LA) gesture occurred in fast rate, while word-boundary effects were absent. Thirdly, jaw raising was still in progress after the lips' positional extrema were achieved in the within-word condition, while the former was completed before the latter in the across-word condition. Lastly, relative temporal lags between the jaw and the lips (UL and LL) were more synchronous in fast rate, compared to comfortable rate. When these results are considered together, it is possible to posit that speakers are not tolerant of lenition to the extent that it is potentially realized as a labial approximant in either word-boundary condition while jaw height still manifested lower jaw position in the across-word boundary condition. Early termination of vertical jaw maxima before vertical lower lip maxima across-word condition may be partly responsible for the spatial reduction of jaw raising movements. This may come about as a consequence of an excessive number of factors (e.g., upper lip height (UH), lower lip height (LH), jaw angle (JA)) for the representation of a vector with two degrees of freedom (x, y) engaged in a gesture-based task (e.g., lip aperture (LA)). In the task-dynamic application toolkit, the jaw angle parameter can be assigned numerical values for greater weight in the across-word boundary condition, which in turn gives rise to lower jaw position. Speech rate-dependent spatial reduction in lip aperture may be able to be resolved by means of manipulating activation time of an active tract variable in the gestural score level.

3차원 형상 복원을 위한 점진적 점유 예측 네트워크 (Progressive occupancy network for 3D reconstruction)

  • 김용규;김덕수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권3호
    • /
    • pp.65-74
    • /
    • 2021
  • 3차원 형상 복원(3D reconstruction)은 이미지 또는 영상 속 물체를 3차원 형상으로 복원하는 것을 말한다. 본 연구는 물체의 전반적 형상을 넘어 세부적인 모습까지 복원할 수 있는 표현력을 가진 3차원 형상 복원 네트워크인, 점진적 점유 네트워크를 제안한다. 본 연구가 제안하는 네트워크는 이미지 전체의 정보를 담고 있는 특징(feature)을 사용하는 기존 점유 네트워크와 달리, 수용 영역(receptive field)의 크기에 따라 다양한 수준의 이미지 특징을 추출해서 사용한다. 그리고, 다양한 수준의 이미지 특징을 디코더(decoder) 내 디코더 블록(decoder block)들에 순차적으로 반영하여, 형상 복원의 품질이 단계적으로 개선하는 네트워크 구조를 제안한다. 본 연구는 또한, 다양한 수준의 이미지 특징을 적절히 조합하여 사용하는 디코더 블록구조를 제안한다. 본 연구는 제안하는 네트워크의 성능 검증을 위해 ShapeNet 데이터 세트를 사용하였으며, 기존의 점유 네트워크(ONet) 및 다양한 수준의 이미지 특징을 사용하는 최신 연구(DISN)와 성능 비교하였다. 그 결과, 기존 점유 네트워크 대비 세 가지 검증 지표 모두에서 높은 성능을 달성하였으며, DISN과는 대등한 수준의 성능을 보여주었다. 그리고 복원 형상의 시각적 비교 결과, 본 연구의 점진적 점유 네트워크가 기존 점유 네트워크 대비, 물체의 세부 모습을 잘 복원하는 것을 확인하였다. 또한, DISN이 복원 실패한 물체의 얇은 부분 또는 이미지에서 가려진 부분을 본 연구의 네트워크는 잘 잡아내는 결과를 확인할 수 있었다. 이러한 결과는 본 연구가 제안하는 점진적 점유 네트워크의 유용성을 검증하는 결과다.

RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 (Extending StarGAN-VC to Unseen Speakers Using RawNet3 Speaker Representation)

  • 박보경;박소민;홍현기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권7호
    • /
    • pp.303-314
    • /
    • 2023
  • 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.