• 제목/요약/키워드: 주제어

검색결과 636건 처리시간 0.025초

Competitive Unit을 사용한 Helmholtz Machine에 의한 문서 클러스터링 (Topical Clustering of Documents using Helmholtz Machines with Competitive Units)

  • 장정호;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.292-294
    • /
    • 2001
  • 문서 클러스터링은 정보검색 시스템에서 검색과정의 효율성을 향상시키기 위해서 많이 사용된다. 기존의 K-means 클러스터링과 같은 거리-기반 접근 방법은 거리에 대한 척도를 정해야 하는 문제가 있고, 또한 전체 자질 공간에서 지역적 특성에 민감하기 때문에 문서 내에 노이즈가 존재할 경우 만족스러운 결과를 내지 못할 수 있다. 그리고 기본적으로 문서 데이터는 희소성(sparseness)을 가기 때문에 정규 분포를 가정한 mixture 모델을 적용하기도 어려움이 있다. 본 논문에서는 Helmoholtz machine에 의한 문서 클러스터링 방법을 제안한다. 제안되는 방법에서는 하나의 문서를 어떤 내재적인 요인(factor)들의 다양한 결합에 의한 결과로 가정하는데, 이 때의 요인은 주제어 집합 또는 적어도 의미적으로 유사한 단어들의 집합이다. 그리고 기본적으로 Helmholtz machine은 이진 데이터를 다루는데, 텍스트 문서에 나타나는 단어들의 빈도를 고려하기 위해 수정된 Helmholtz machine을 제시한다. TREC-8 adhoe 데이터와 20 Newsgroup 문서 집합에 대한 클러스터링 실험 결과, 제안된 방법이 K-means 알고리즘에 비해 우수한 성능을 보였으며 주제어 추출을 통해 문서 집합의 전체 내용 파악을 용이하게 하는 특성이 있었다.

  • PDF

조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법 (Term Weighting Method by Postposition and Compound Noun Recognition)

  • 강승식;이하규;손소현;홍기채;문병주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.196-198
    • /
    • 2001
  • 문서의 내용을 대표하는 용어를 추출하기 위해 일반적으로 영어에서는 명사구를 색인하는 기법을 사용하지만 주제어 추출의 관점에서 영어의 명사구가 한국어의 복합명사에 해당하기 때문에 한국어에서는 복합명사 색인 기법을 중요시하고 있다. 본 논문에서는 한글 문서에서 추출된 용어의 가중치를 결정하기 위하여 경험적인 방법에 따라 가중치를 계산하는 방법을 제안한다. 구체적인 가중치 계산 방법으로 용어 자체의 특성에 의한 가중치를 부여한 후에, 복합명사의 경계를 인식하여 띄어쓴 복합명사의 가중치를 조절하고, 다시 용어의 조사 유형에 따라 가중치를 재계산하는 방법을 제안한다. 신문기사에 대한 실험결과에 의하면 제안한 방법이 단순 출현빈도에 의한 주제어 추출 기법보다 정확도가 더 높았다.

  • PDF

자율주행자동차의 빅데이터 분석을 통한 연구 동향 파악 (Identify research trends through big data analysis method for autonomous driving car)

  • 남궁혜리;강선준;원유형;박성욱
    • 한국기술혁신학회:학술대회논문집
    • /
    • 한국기술혁신학회 2017년도 추계학술대회 논문집
    • /
    • pp.459-468
    • /
    • 2017
  • 본 논문에서는 자율주행자동차와 관련한 주제어를 선정하여 KCI 등재 논문의 서론 자료를 수집하고, 이에 빅데이터 분석 기법을 적용하였다. 이를 토대로 자율주행자동차와 관련된 다양한 이슈 분석을 통해 자율주행자동차의 연구 동향을 파악할 수 있으며, 추가적인 연구가 필요한 분야에 대해 알 수 있다. 제4차 산업혁명의 영향으로 등장한 다양한 기술들의 활용이라고 볼 수 있는 자율주행자동차는 2025년 상용화 될 가능성이 높다. 자율주행자동차의 상용화를 위해 지속적인 연구와 논의가 필요하지만, 과거부터 등재된 자율주행자동차 관련 KCI 논문 빅데이터 분석을 통해 기술들 간의 군집 방식과 주제어의 밀집도, 네트워킹 형성 방식 등에 대해 파악할 수 있다. 이처럼 논문 데이터 분석을 통해 향후 정부출연(연), 혹은 기업체에서 더욱 발전시켜야 할 부분에 대해 인지하고 정부 차원의 과제 지원과 연구를 통해 자율 주행자동차 상용화를 촉진시킬 수 있을 것이라고 예상한다.

  • PDF

선박 충돌사고 예방을 위한 소형 어선의 해양사고 분석을 통한 자동화 방법 기초 연구

  • 박상아;김태연;유광민;박득진
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.147-147
    • /
    • 2022
  • 본 연구의 목적은 소형 어선에서 항해사로 인해 발생하는 인적오류에 의해서 야기될 수 있는 선박 충돌사고를 예방하여 항행안전을 도모함에 있다. 이를 위해 2005년부터 2020년까지 총 16년의 해양사고재결서를 수집하여 주제어, 사고 관련 법규, 사고위치, 사고일시 등 사고 관련 내용을 분류하였다. 분류한 내용을 기반으로 원인판단 주제어와 사고 요인들과의 상관관계를 분석하였다. 그 결과 경계소흘은 충돌 원인의 대부분을 차지하였고, 경계소홀의 원인은 무리한 조업으로 인한 피로 누적과 졸음이 상당수를 차지하였다. 이는 소형 어선의 선박 충돌사고를 예방하기 위해서는 경계소흘에 대한 대응방안이 필요하다는 것이고, 기술 개발에 따른 자동화 등의 방법을 통해 소형 선박 충돌사고 예방 연구가 적용되어야 한다. 추후에는 소형 어선의 작업 특성을 분석하겠으며, 실제 충돌사고 예방에 기여할 수 있는 연구를 수행할 예정이다.

  • PDF

재미 감성 주제 온톨로지를 이용한 질의어 확장 멀티미디어 데이터 검색 시스템 구현 (Implementation of Query Expansion Multimedia Data Retrieval System using "FUN" Based Ontology of Emotion)

  • 이정송;변동률;박순철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.279-284
    • /
    • 2010
  • 최근 컴퓨터와 네트워크의 기술 발달로 멀티미디어 데이터가 폭발적으로 증가하고 있다. 따라서 정보검색 시스템도 텍스트 데이터 위주에서 벗어나 멀티미디어 데이터 검색이 큰 비중을 차지하고 있다. 또한 멀티미디어 데이터 질의어처리도 기술적인 변화와 함께 다양한 질의어 확장으로 검색의 정확성을 높이고 있다. 본 논문에서는 인간의 감성에 대한 '재미' 주제 온톨로지를 구축하여 질의어 확장에 응용하였고, 한편의 동영상에서 재미 요소를 찾아내는 멀티미디어 데이터 검색 시스템을 구축하였다. 온톨로지 구축은 한글 워드넷(KorLex)에서 "재미"라는 특정 감소 요소의 의미 계층 구조를 파악하고 토픽맵을 이용하여 구축하였다. 또한, 온톨로지에 정의된 용어들 사이의 가중치는 실시간으로 계산하여 질의어를 확장에 적용하였으며, 따라서 검색의 효율성과 질을 높였다. 검색방법은 사용자가 질의어를 직접 입력하는 텍스트 입력 검색과 온톨로지 구조를 이용한 GUI 인터페이스 검색방법으로 나누어 사용자의 편의성을 증대시켰다.

  • PDF

국립중앙도서관 주제명표목표의 고품질화 방안에 관한 연구 (A Study on Improvements for High Quality in National Library of Korea Subject Headings List)

  • 최윤경;정연경
    • 한국문헌정보학회지
    • /
    • 제48권1호
    • /
    • pp.75-95
    • /
    • 2014
  • 본 연구의 목적은 2002년에 개발된 "국립중앙도서관 주제명표목표"의 용어 품질을 검토하여 개선 방안을 제안하는 것이다. 이를 위해 문헌 연구와 국내외 국가도서관의 주제명표목표 사례 조사, 국립중앙도서관 주제명 표목표의 주제명 및 관계 데이터 분석을 수행하였다. 본 연구 결과, 주제명 기술의 비일관성, 불분명하고 불필요한 관계 설정, 계층 관계 적용의 비일관성, 최신성 부족, 분류기호의 부정확한 기입, 신규 주제명의 중복 신청, 비우선어 및 미등록어 부여와 같은 문제점이 나타났다. 주제명표목표의 문제점을 중심으로, 주제명 정비, 서지 데이터 정비, 주제명표목 검토위원회 운영, 주제명 지침 보완을 고품질화 방안으로 제시하였다.

20대 청년세대에 관한 연구 동향 분석 (Investigating the Trends of Research for the Age of Youth at 20s)

  • 방미현;이영민
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.223-232
    • /
    • 2020
  • 본 연구의 목적은 토픽 모델링과 주제어 네트워크 분석방법을 활용하여, 20대 청년세대에 관한 연구동향을 분석하는 것이다. 이를 위해, 지난 10년간 국내에서 20대 청년을 대상으로 발표한 학술논문 530편을 분석하였다. 연구 결과, 핵심 주제어는 '소득', '프로그램', '창업', '문화'였고, 6개의 토픽(취업 지원 서비스, 가치관, 불안정한 삶, 정부 지원 정책, 종교관, 창업 지원 서비스)이 도출되었다. 또한, 연구를 통해 20대 청년세대는 높은 디지털 기술 효용감, 효율적인 디지털 정보의 소비 추구, 의미 전복적이고 심미적인 소비패턴, 자신의 정체성을 온라인 세계에서 찾고, 현실을 지향하는 모습을 보이는 것으로 나타났다. 분석 결과를 토대로, 세대 간 가치관 격차, 지역간 발전의 불균형 문제, 소득 불평등의 주요 양극화 문제를 제기하였고, 향후 대안적 정책으로 단편적이고 일회성에 그치는 미봉책이 아닌, 장기적으로 지속성 있는 20대 청년세대 문제 해결책을 제시해야 한다는 점을 제안하였다.

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

문서 자동요약 기술을 적용한 클라우드 스토리지 기반 지능적 아카이빙 시스템 (Cloud storage-based intelligent archiving system applying automatic document summarization)

  • 유기동
    • 한국산업정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.59-68
    • /
    • 2012
  • 제로 클라이언트 체제는 기업의 문서 중앙화를 위해 제시된 최신의 방법이며, 이를 기업의 현실에 보다 적합하도록 토착화시키는 작업은 필수적이다. 본 연구는 제로 클라이언트 체제의 잘 알려진 보안 및 프라이버시 상의 문제점을 제외한, 사용 상의 문제점을 보완하고자 고안되었다. 즉, 작업자가 작업한 문서를 기업 클라우드 스토리지에 저장하고자 저장 카테고리를 검색하는 과정의 부담과 정확성을 향상시키기 위하여, 작업 문서의 주제어를 자동으로 파악하고, 이를 바탕으로 해당 문서가 저장되어야 하는 카테고리를 자동으로 검색하여 작업자의 확인을 통해 자동 저장되도록 하는, 지능적 아카이빙 방식을 제시한다. 본 연구에서 제시하는 주제어 자동 파악 및 자동 아카이빙을 위한 방법론과 프로토타입 시스템은 기업 환경에 적용이 가능할 정도로 정확성과 확장성을 갖추고 있다.

토픽 모델링을 이용한 사운드스케이프 연구 주제어 분석 (Analysis on Topics in Soundscape Research based on Topic Modeling)

  • 최수환
    • 한국콘텐츠학회논문지
    • /
    • 제19권7호
    • /
    • pp.427-435
    • /
    • 2019
  • 사운드스케이프(soundscape)는 소리를 통해 문화와 환경, 사회적 변화를 이해하는데 중요한 역할을 하는 자료이지만, 자료의 기록, 보존, 분류, 분석을 위한 체계적인 연구 프레임워크의 구축은 아직 초기 단계에 있다. 토픽 모델링(topic modeling)은 문서에 숨겨져 있는 테마 구조를 드러내주는 알고리즘으로 연구 동향 분석과 같이 대량의 문서에 내재된 주제어를 찾아내기에 적합한 기법이다. 본 연구에서는 사운드스케이프 연구 분야의 대표적 학술지인 의 논문을 토픽 모델링 기법으로 분석하여 사운드스케이프 연구 동향을 파악할 수 있는 주제어를 도출해 보고, 이를 사운드스케이프 온톨로지(Soundscape Ontology) 및 사운드 아카이브의 메타데이터 설계 시 활용할 수 있는 방안에 대해 살펴보고자 한다. 이는 향후 시맨틱 웹 기술인 링크드 데이터(Linked Data) 기반의 사운드스케이프 아카이브 구축을 위한 메타데이터 설계의 기초 연구가 될 것이다.