• 제목/요약/키워드: 집합론

검색결과 279건 처리시간 0.029초

자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안 (A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing)

  • 송치호
    • 한국기록관리학회지
    • /
    • 제24권2호
    • /
    • pp.65-88
    • /
    • 2024
  • 본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다. 디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다. 그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.

비모수 분석방법에 의한 국내 건설조직 성과 측정 방향에 관한 연구 - DEA를 이용한 국내 연구 문헌 고찰을 기반으로 - (A Survey of DEA Applications in Measuring the Efficiency Performance of Construction Organizations)

  • 이윤선
    • 한국건설관리학회논문집
    • /
    • 제15권5호
    • /
    • pp.103-114
    • /
    • 2014
  • 자료포락분석모형은 다수의 산출을 생성하기 위해 다수의 투입을 사용하는 생산시스템의 상대적 효율성을 평가하는 비모수적 방법으로 건설생산체계의 복잡하고 동적인 특성을 반영할 수 있는 유용한 성과측정도구로 활용되고 있다. 본 연구는 DEA 방법론을 적용한 건설 생산조직의 성과측정 문헌들을 체계적으로 분석하고, 주요 이슈들과 향후 연구과제를 도출하였다. 국내외 선행 연구를 분석하여 성과 측정 목표 및 대상, 자료 구조화 방법, 생산가능집합과 효율성 척도 선정, 벤치마킹 및 사후 검증 등의 일련의 단계로 이루어진 성과측정체계를 제안하고, 1997년부터 2013년까지 DEA를 적용하여 국내 건설산업 성과측정 연구를 수행한 21편의 학술지를 분석하였다. 관찰된 주요 특성 및 결과들은 건설기업이 자신의 상대적 효율성 수준을 진단하고, 개선 방향을 제시하고, 향후 예측을 하는데 DEA방법론이 유용하게 적용되어왔다고 나타났다. 그러나 타산업의 연구와 비교해볼 때 국내 건설산업의 효율성 측정은 제한적으로 적용되고 있었다. 본 연구는 연구대상, 자료의 구조화, 측정모형, 모형 검증 등에 대한 개선방향을 제시함으로써 향후 DEA을 적용한 건설산업의 생산성 제고를 위한 연구 체계를 수립하는데 활용할 수 있을 것이다.

길찾기 과정의 도로명주소 체계 연계를 위한 선형 객체 매칭 방법 (Line Matching Method for Linking Wayfinding Process with the Road Name Address System)

  • 방윤식;유기윤
    • 대한공간정보학회지
    • /
    • 제24권4호
    • /
    • pp.115-123
    • /
    • 2016
  • 지난 2012년부터 도로명주소가 본격 시행 및 활용되고 있지만, 아직도 상당 부분에서는 기존의 지번주소가 많이 통용되고 있다. 이는 일반인들의 공간 인식체계와 도로명주소의 공간 구조화 방식의 간극으로 인한 문제이다. 따라서 도로명주소 기반의 공간 인식 체계가 자리잡기 위해서는 생활 속에서 활용되는 각종 공간정보들이 도로명에 의하여 주소정보를 부여받을 수 있어야 한다. 본 연구는 공간 인식 과정이 가장 중요하게 나타나는 길찾기 과정에서의 도로명주소 체계의 연계를 목적으로, 이를 위하여 필요한 공간데이터의 기하학적 매칭 방법론을 설계 및 구현하였다. 도로명주소 기본도의 도로구간 레이어와 보행자용 도로 네트워크에 대하여, 개별 도로 객체를 중심으로 네트워크 이웃을 생성하였다. 그 다음, 생성된 이웃 집합 간의 기하학적 유사도 비교를 통하여, 네트워크 데이터의 각 객체에 매칭되는 도로구간을 탐색하였다. 매칭 성능은 F0.5 값을 기준으로 0.936의 결과를 얻었으며, 유사도 값을 기준으로 10% 수동 검사를 수행한 결과 이 값을 0.978까지 향상시킬 수 있었다. 이렇게 생성된 매칭 대응관계를 이용하여, 보행자용 도로 네트워크 데이터에 도로명 정보를 부여하였다. 이러한 방법론을 통하여, 도로명주소를 기반으로 한 길찾기 서비스 제공 및 공간 인식체계 정착에 도움을 줄 수 있다.

LLE 알고리즘을 사용한 얼굴 모션 데이터의 투영 및 실시간 표정제어 (Realtime Facial Expression Control and Projection of Facial Motion Data using Locally Linear Embedding)

  • 김성호
    • 한국콘텐츠학회논문지
    • /
    • 제7권2호
    • /
    • pp.117-124
    • /
    • 2007
  • 본 논문은 얼굴 모션 캡쳐 데이터를 재사용하여 실시간 표정 제어 및 표정 애니메이션을 생성하기 위한 방법론을 기술한다. 이 방법의 핵심요소는 얼굴 표정들을 정의할 수 있는 표정상태 표현법을 정하고, 이를 LLE 알고리즘에 적용하여 표정들을 적당한 공간에 분포시키는 방법론과, 이 공간을 사용하여 실시간 표정 애니메이션 생성 및 표정제어를 수행하기 위한 사용자 인터페이스 기법이다. 본 논문에서는 약 2400개의 얼굴 표정 프레임 데이터를 이용하여 공간을 생성하고, 애니메이터가 이 공간을 자유롭게 항해할 때, 항해경로 상에 위치한 얼굴 표정 프레임 데이터들이 연속적으로 선택되어 하나의 애니메이션이 생성되거나 표정제어가 가능하도록 하였다. 약 2400개의 얼굴 표정 프레임 데이터들을 직관적인 공간상에 분포하기 위해서는 얼굴 표정 프레임 데이터로부터 얼굴 표정상태를 표현할 필요가 있고, 이를 위해서는 임의의 두 마커 사이의 거리들로 구성된 거리행렬 벡터를 이용한다. 직관적인 공간에서의 데이터 배치는 얼굴 표정상태벡터들의 집합을 LLE 알고리즘에 적용하고, 이로부터 2차원 평면에 균일하게 분포하였다. 본 논문에서는 애니메이터로 하여금 사용자 인터페이스를 사용하여 실시간으로 표정 애니메이션을 생성하거나 표정제어를 수행하도록 하였으며, 그 결과를 평가한다.

딥러닝 알고리즘을 이용한 강우 발생시의 유량 추정에 관한 연구 (A study on discharge estimation for the event using a deep learning algorithm)

  • 송철민
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.246-246
    • /
    • 2021
  • 본 연구는 강우 발생시 유량을 추정하는 것에 목적이 있다. 이를 위해 본 연구는 선행연구의 모형 개발방법론에서 벗어나 딥러닝 알고리즘 중 하나인 합성곱 신경망 (convolution neural network)과 수문학적 이미지 (hydrological image)를 이용하여 강우 발생시 유량을 추정하였다. 합성곱 신경망은 일반적으로 분류 문제 (classification)을 해결하기 위한 목적으로 개발되었기 때문에 불특정 연속변수인 유량을 모의하기에는 적합하지 않다. 이를 위해 본 연구에서는 합성곱 신경망의 완전 연결층 (Fully connected layer)를 개선하여 연속변수를 모의할 수 있도록 개선하였다. 대부분 합성곱 신경망은 RGB (red, green, blue) 사진 (photograph)을 이용하여 해당 사진이 나타내는 것을 예측하는 목적으로 사용하지만, 본 연구의 경우 일반 RGB 사진을 이용하여 유출량을 예측하는 것은 경험적 모형의 전제(독립변수와 종속변수의 관계)를 무너뜨리는 결과를 초래할 수 있다. 이를 위해 본 연구에서는 임의의 유역에 대해 2차원 공간에서 무차원의 수문학적 속성을 갖는 grid의 집합으로 정의되는 수문학적 이미지는 입력자료로 활용했다. 합성곱 신경망의 구조는 Convolution Layer와 Pulling Layer가 5회 반복하는 구조로 설정하고, 이후 Flatten Layer, 2개의 Dense Layer, 1개의 Batch Normalization Layer를 배열하고, 다시 1개의 Dense Layer가 이어지는 구조로 설계하였다. 마지막 Dense Layer의 활성화 함수는 분류모형에 이용되는 softmax 또는 sigmoid 함수를 대신하여 회귀모형에서 자주 사용되는 Linear 함수로 설정하였다. 이와 함께 각 층의 활성화 함수는 정규화 선형함수 (ReLu)를 이용하였으며, 모형의 학습 평가 및 검정을 판단하기 위해 MSE 및 MAE를 사용했다. 또한, 모형평가는 NSE와 RMSE를 이용하였다. 그 결과, 모형의 학습 평가에 대한 MSE는 11.629.8 m3/s에서 118.6 m3/s로, MAE는 25.4 m3/s에서 4.7 m3/s로 감소하였으며, 모형의 검정에 대한 MSE는 1,997.9 m3/s에서 527.9 m3/s로, MAE는 21.5 m3/s에서 9.4 m3/s로 감소한 것으로 나타났다. 또한, 모형평가를 위한 NSE는 0.7, RMSE는 27.0 m3/s로 나타나, 본 연구의 모형은 양호(moderate)한 것으로 판단하였다. 이에, 본 연구를 통해 제시된 방법론에 기반을 두어 CNN 모형 구조의 확장과 수문학적 이미지의 개선 또는 새로운 이미지 개발 등을 추진할 경우 모형의 예측 성능이 향상될 수 있는 여지가 있으며, 원격탐사 분야나, 위성 영상을 이용한 전 지구적 또는 광역 단위의 실시간 유량 모의 분야 등으로의 응용이 가능할 것으로 기대된다.

  • PDF

웹서비스 유사성 평가 방법들의 실험적 평가 (Evaluation of Web Service Similarity Assessment Methods)

  • 황유섭
    • 지능정보연구
    • /
    • 제15권4호
    • /
    • pp.1-22
    • /
    • 2009
  • 월드와이드웹(WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근의 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스를 서비스 중심 컴퓨팅환경으로서 운용하기 위해서는 웹서비스 저장소는 조직화되어 있어야 할 뿐 아니라, 사용자들의 요구에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 중심 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스 발견을 효율적으로 제공할 수 있는 기법의 수요 또한 증대된다. 웹서비스 발견을 위한 많은 기법들이 제안되어 왔지만, 대부분의 선행연구들은 활용하기에는 제대로 발달하지 못하였거나 특정 도메인에 너무 치중하여 일반화하기 어려웠다. 이 논문에서는 군집화기법과 XML기반의 서비스 기술표준인 WSDL의 의미적 가치를 활용하여 다수의 웹서비스를 군집화하는 프레임워크를 제안한다. 웹서비스 발견이라는 연구영역에 최초로 데이터마이닝 기법을 적용한 연구이다. 본 논문에서 제안하는 방식은 여러 흥미로운 요소들이 있다: (1) 서비스 사용자와 제공자들의 사전지식 요구를 최소화한다 (2) 특정 도메인에 과도하게 치중한 온톨로지를 피한다 (3) 웹서비스들 간의 의미론적 관계를 시각화할 수 있다. 이 논문에서 인공신경 정신망 네트워크를 기반으로 하여 프로토타입 시스템을 개발하였으며, 실제 운용되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 조직화 프레임워크를 실증적으로 평가하였으며 제안하는 방식의 효용성을 보여주는 실험결과를 보고한다.

  • PDF

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

정이(程?) 성인론(聖人論)의 특징에 관한 고찰 (A study on distinctive view of Cheng I's the sage-theory)

  • 김상래
    • 한국철학논집
    • /
    • 제56호
    • /
    • pp.151-180
    • /
    • 2018
  • 유가사상가들이 도덕과 지식의 측면에서 최고의 이상적 인간형으로 설정한 성인(聖人)은 "선천적으로 신비한 능력을 타고나는 것인가, 아니면 후천적으로 노력을 통해 그런 경지에 도달할 수 있는가?" 이 문제에 대해 논리적 정합성을 제시하는 것이야 말로 맹자 이후 유학자들의 주요 이슈였으며, 많은 사상가들은 이 문제에 대해 다양한 답변을 시도해 왔다. 일반적으로 성인은 선천적으로 타고난다는 입장과 배움(學)과 지식(知)들 통해서 성인의 경지에 이를 수 있다는 입장의 두 가지 학설이 존재한다. 유학은 어떤 학문 체계 보다 인간의 배움과 지식을 중요시한다. 사실 "논어"의 주요 내용에서 우리는 윤리 도덕적 가치의 집합인 인(仁)에 관한 대화보다 공자가 꾸준히 강조하고 제자들을 칭찬하는 용어인 배움(學)에 대한 표현이 더 많이 등장하고 있음을 확인하기도 한다. 유학 사상사적인 측면에서 볼 때 배움과 지식을 통해 성인이 될 수 있다는 견해는 공자 이후 맹자와 순자에 이르기 까지 절대적 지지를 받는 학설로 여겨진 것으로 보인다. 그러나 한당시대에 이르러 인간의 내면에 대한 세분화된 견해를 정립하는 것을 시도하게 되는데, 한유와 왕충 등의 사상가들은 '성인은 이미 선천적으로 결정된 것이지, 인간의 노력으로 도달할 수 없다'는 견해를 피력하였다. 그리고 다시 송대 성리학 시기 정이천은 이 문제에 대해 깊이 있는 논의를 제시하고, 치밀하고 자세한 설명구조를 확립하는데, 즉 선진시대 사상가들의 견해를 계승하여 '배움과 지식을 통해 그리고 인간의 노력으로 성인이 될 수 있다'는 사유를 제시한다. 성인에 대한 이런 이해 방식은 송대 성리학의 주류를 형성하게 되었으며, 주자 이후 유학사상의 핵심이론으로 자리매김하게 된다. 이 글은 유학의 기본 테제라 할 수 있는 성인과 관련된 문제에 대한 정이(程?, 1033-1107)의 사유를 정리한 것이다. 그는 기본적으로 '성인가학이지(聖人可學而至)' 즉, 배움을 통해 聖人에 도달할 수 있다는 견해를 피력하고 있으며, 이와 관련하여 태어나면서 성인인 경지에 대한 표현법인 생지(生知)와 배움과 지식을 통해 성인에 도달할 수 있다는 입장의 학지(學知), 최상의 지혜(上智)와 최악의 어리석음(下愚) 등의 용어들에 대해 구체적이고 깊이 있는 논의를 제공하고 있다. 논자는 이글에서 논제와 관련된 문제(안연, 자질과 성품의 문제, 지혜와 어리석음의 관계) 등에 대해 주로 정이천의 "유서(遺書)"의 "안자소호하학론(顔子所好何學論)"과 기타 논저 그리고 유학사상 관련 텍스트를 중심으로 성인론의 특징을 고찰하였다. 정이천이 인간은 누구나 성인이 될 수 있다는 견해를 논리와 방법론을 정립하면서 제시한 그의 학설은 송대 성리학의 주요 과제로 자리 잡게 되었으며, 주자학의 주요체계로 포함되어 오늘날 정통의 이론으로 평가받고 있다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

'정부 3.0' 시대를 맞이한 국내 화물 자료의 집계 수준에 따른 분류체계 구축 및 네트워크 모형 적용방안 (Classification of Domestic Freight Data and Application for Network Models in the Era of 'Government 3.0')

  • 유한솔;김남석
    • 대한교통학회지
    • /
    • 제33권4호
    • /
    • pp.379-392
    • /
    • 2015
  • 우리나라의 화물 통계는 다양한 기관에 의해 다양한 목적으로 구축되고 배포되고 있다. 그러나 각 기관별로 통계 수집 목적과 발표되는 통계의 형식 상이하여 자료의 활용성이 매우 제한적인 한계를 지니고 있다. 각 목적에 따라 수집된 원시자료는 특정 항목을 기준으로 집합화(aggregated)된다. 화물 통계에서 이 항목들은 대표적으로 품목, 수단, 출 도착지가 될 수 있다. 본 연구는 이러한 집합화의 과정을 다루고 있으며 다음의 세 가지 연구 목적을 가지고 있다. 우선, 기관별로 집계하고 발표하는 다양한 형태의 화물 물동량 자료를 총체적으로 살펴보고 이를 요약 하고자 한다. 둘째, 여러 기관에서 제시하는 물동량 자료를 수리적 형태로 표현하고자 한다. 셋째, 이 수리표현이 OR(Operations Research)기법을 적용한 네트워크모형에 어떻게 적용될 수 있는지를 타진하고자 한다. 국내 물동량 자료를 살펴본 결과 14개 기관이 각기 다른 목적으로 물동량 데이터를 제공하고 있었고, 물동량의 수리표현을 한 결과 4개의 집계수준이 도출되었다. 한편, 구축된 수리표현은 실제 자료와 연관하여 OR기법을 적용한 화물 네트워크 문제의 결정변수 및 입력 자료와 연관성이 있는 것으로 파악되었다. 비록 본 연구에서는 특정 정량적 연구 방법론을 적용하는 등 일반적인 연구논문의 형식을 따르지 않았다. 그 이유는 본 연구에서 다루는 자료의 종류가 국내 모든 화물 자료를 총 망라하고 있고, 그 자료로 공통적으로 이용할 수 있는 수식은 존재치 않기 때문이다. 본 연구의 의의는 국내 화물자료가 가진 한계와 적용방안을 총체적으로 살펴봄으로써 화물 네트워크 모형을 비롯한 화물 관련 연구의 발전을 위한 기초자료 확립을 위한 구체적인 방안을 찾는 방향을 제시했다는 것에서 찾을 수 있을 것이다. 본 연구가 제안하는 화물 데이터 구득의 한계는 최근 정부가 지향하는 정부 3.0의 필요성을 역설한다 할 수 있다.