• 제목/요약/키워드: 주제어

검색결과 635건 처리시간 0.026초

주제어와 미분류 문서들을 이용한 문서의 자동 분류 방법 (Automatic Text Classification Method Using Keywords and Unlabeled Text)

  • 이강일;이창환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.592-594
    • /
    • 2005
  • 문서를 분류하기 위해서는 분류주제에 맞춰 미리 분류가 된 자료(labeled data)가 필요하다. 하지만 미리 분류가 된 자료를 만들기 위해서는 사람이 직접 그 문서의 의미를 해석하고 일일이 분류를 해야 하기 때문에 시간이 많이 소모가 된다. 본 논문에서는 비록 사랑이 직접 분류한 자료를 이용하는 것에 비해서 분류 정확도는 조금 떨어지지만, 대신 주제어와 미분류 문서(unlabeled data)를 이용해서 문서를 분류하는 방법을 제시하려고 한다. 이와 같은 주제어와 미분류 문서의 경우에는 구하기가 쉽고, 사랑이 일일이 분류하는 작업이 필요로 하지 않기 때문에 비용과 시간이 크게 절약이 된다는 장정이 있다.

  • PDF

조어 중심적 주제어간 관계 추출 및 분석 (Analyzing and Extracting Relations between Topic Keywords Based on Word Formation)

  • 정한민;이미경;성원경
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2008년도 정기학술대회
    • /
    • pp.166-171
    • /
    • 2008
  • 본 연구는 기존에 잘 알려지고 널리 사용되고 있는 어휘 의미망이나 시소러스를 활용하기 어려운 과학 기술 분야, 특히 IT 분야에서 대용량 용어간 관계를 빠른 시간 내에 구축하여 검색 브라우징, 내비게이션 용도로 활용하는 것을 목표로 한다. 시소러스 구축 절차를 따르는 경우에 분야 전문가에 의한 정교한 작업과 고비용을 필요로 하여 충분한 구축 크기를 확보하는 것에 현실적인 어려움이 있다. 시소러스 자동 구축 방법론을 사용하는 경우에도 해당 용어들이 출현하는 방대한 말뭉치를 확보해야 하며 관계 구축 결과에 대한 직관적 이해가 쉽지 않다는 단점이 있다. 본 연구는 해외 학술 논문 말뭉치와 메타데이터에서 획득한 37만 여 주제어들을 이용하여 상 하위 관계, 관련어, 형제 관계를 추출하기 위해 조어적 기준에 근거한 규칙들을 이용한다. 이들 규칙을 이용하여 추출한 관계 수는 상 하위 관계 60여 만 개, 관련어 640여 만 개, 형제 관계 2,000여 만 개 등이다. 또한, 추출 결과 중 일부를 수작업으로 분석하여 단순한 추출 규칙에서 발생하는 오류 유형을 찾아내고 향후 과제에서 해결할 수 있는 방안에 대해 논하자고 한다.

  • PDF

사이버 나이프 주제어 시스템 개념 설계 (Conceptual Design of a Main Control System for CyberKnife)

  • 최유락;정경민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1763-1764
    • /
    • 2015
  • 사이버나이프 시스템은 독특한 형태의 정위적 방사선 치료를 수행하는 로봇 팔을 이용하는 방사선 수술 시스템으로 치료 중 환자의 호흡 등에 따른 신체의 움직임에도 1mm 이내의 오차 범위에서 정확하게 방사선을 조사해야하며, 여러 병소를 동시에 치료할 수 있다. 사이버나이프 시스템은 로봇 팔, 선형 가속기, 병소 위치 추적 장치, 방사선 조사 스케줄러와 같은 다양한 모듈들이 통합된 시스템으로, 이를 통합 제어하기 위한 주제어 시스템이 필요하다. 본 논문에서는 본 연구원에서 개발하고자 하는 사이버나이프 주제어 시스템의 설계에 관하여 기술한다.

군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법 (Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity)

  • 박선;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1538-1541
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

한국어 질의 응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기 (Deep learning-based Answer Type Classifier Considering Topicality in Korean Question Answering)

  • 조승우;최동현;김응균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-108
    • /
    • 2019
  • 한국어 질의 응답의 입력 질문에 대한 예상 정답 유형을 단답형 또는 서술형으로 이진 분류하는 방법에 대해 서술한다. 일반적인 개체명 인식으로 확인할 수 없는 질의 주제어의 화제성을 반영하기 위하여, 검색 엔진 쿼리를 빈도수로 분석한다. 분석된 질의 주제어 정보와 함께, 정답의 범위를 제약할 수 있는 속성 표현과 육하원칙 정보를 입력 자질로 사용한다. 기존 신경망 분류 모델과 비교한 실험에서, 추가 자질을 적용한 모델이 4% 정도 향상된 분류 성능을 보이는 것을 확인할 수 있었다.

  • PDF

주제어 토픽모델링을 통한 IT 인문학 개념의 정립 (Conceptualization of IT Humanities through Keyword Topic Modeling)

  • 최영미;박남제
    • 정보교육학회논문지
    • /
    • 제26권5호
    • /
    • pp.467-480
    • /
    • 2022
  • 이 논문은 IT 인문학 관련 연구의 동향을 탐색함으로써 IT 인문학이 어떤 개념으로 활용되고 있는지 알아보고자 하였다. 디지털 과학기술 IT과 인문학 조합의 가능성에 주목하여 꾸준히 수행되어온 국내외의 문헌을 통해, IT 인문학의 기원과 배경, 유사 개념을 바탕으로 연구 동향을 알아보고 IT 인문학의 의미에 대해서 고찰하였다. 그리고 'IT 인문학' 및 'IT humanities' 검색어를 활용하여, 2001년 이후 발간 된 학술논문 중 주제어 정보를 제공하는 KCI급 1,566편, SCI급 64편을 대상으로 주제어의 네트워크 토픽 분석을 실시하였다. IT 인문학이라는 용어가 등장한 논문에서의 IT 인문학의 의미는 다양한 분야의 IT 정보기술이 인문학의 관점에서 생각할 수 있는 역량과 관련이 있었다. 토픽모델링 결과는 IT 인문학과 융합하는 분야 대상, 적용되는 형태, 문학·문화와의 연관, IT 인문학의 창출의 네 가지 군집으로 형성되었다. IT와 인문학의 융합은 한 쪽이 다른 한쪽을 도구화하거나 일방적으로 수렴하는 구조가 아닌, 상호 존중에 기초한 협업의 자세로 새로운 사유를 창출하도록 해야할 것이다.

언어네트워크분석을 활용한 해외 예술경영 연구동향 연구 (A Semantic Analysis on the Research Trend of International Arts Management)

  • 심다희;박양우
    • 예술경영연구
    • /
    • 제49호
    • /
    • pp.5-35
    • /
    • 2019
  • 본 논문은 해외의 예술경영 학술연구의 동향을 언어네트워크분석을 통하여 연구한 것이다. 본 연구는 예술경영 분야의 대표적 국제 전문학술지인 「International Journal of Arts Management」에 수록된 185편의 논문 초록에 게재된 357개의 주제어를 대상으로 분석을 시도하였다. 시간적 범위는 최근 연구 동향 분석을 위해 2008년부터 2017년까지로 설정하였다. 분석결과에 따르면 첫째, 빈도수가 가장 높은 주제어는 '박물관/미술관'이었다. 그리고 '공연예술'과 '예술' 또한 빈도수 20회 이상을 기록한 상위 그룹이었다. 그 뒤를 이어 '영화산업'과 '연극'에 대한 연구들이 많았다. 이런 예술 장르에 관련된 연구외에도 '소비자행동'과 '시장전략' 등 경영에 관련된 주제어들도 상위 그룹에 포함되어 있다. 둘째, 연도별 연구 동향을 보면 지난 10년 동안 매년 평균 53개의 주제어와 19개의 논문이 개재되고 있는데 국제적으로 예술경영연구가 꾸준하게 수행되고 있음을 알 수 있다. 분석대상 주제어 중 '박물관/미술관'은 빈도수가 가장 높은데, 지난 10년 간 지속적인 연구 소재가 되어져 왔고, '공연예술'도 지속적인 관심 주제어인 것을 볼 수 있다. '영화산업', '연극 그리고 '문화'는 10년 동안 간헐적인 연구 대상이었으며, '화랑'은 2011년까지 언급이 없다가 2012년부터는 꾸준히 언급되어져 왔음을 알 수 있었다. 전반적으로 해외의 예술경영연구 흐름을 살펴보면 대중문 화나 문화산업보다는 2000년대 후반에는 순수예술 쪽이 강세를 보이다가 시간이 흐를수록 주제들이 다양해지며 예술경영에 대한 연구들 또한 다양해지고 있음을 유추해 볼 수 있다. 셋째, 주제어별 연결빈도에서는 34회의 연결빈도를 보여준 '예술'과 '공연예술'이 가장 높은 연결 빈도를 기록하였다. 넷째, 주제어들 간의 밀도는 0.039로 주제어들 간 밀도 수치는 높지 않은 편이었다. 다섯째, 중심성분석에 따르면 '예술', '박물관/미술관', '공연예술', '연극' 그리고 '브랜드' 등이 중심에 위치하며 중심성이 높은 것을 보여주었다.

Subject Searching Using Controlled Vocabulary Versus Uncontrolled Vocaburary in Online Catalog System: Focusing on Multilingual Environment

  • 최희윤
    • 정보관리연구
    • /
    • 제26권2호
    • /
    • pp.61-79
    • /
    • 1995
  • 정보검색의 성공여부는 적절한 검색어의 선정에 달려있다고 해도 과언이 아니다. 특히 CD-ROM이나 온라인목록시스템에서 주제검색시 분류표, 주제명과 같은 통제어와 자연어 등 비통제어의 비교 우위 문제는 아직도 논란이 되고 있다. 본고는 두 시스템의 검색효율성을 비교하기 위하여 특히 다언어 환경하에서의 검색어 사용에 중점을 두고 다양한 형태의 검색어휘를 조사 분석하였다.

  • PDF

한국어 서사 텍스트 처리의 다중 표상과 구성 통합 이론: 주제어 연속성에 대한 양태 어미의 형태 통사적, 담화 화용적 기능 (A Multi-level Representation of the Korean Narrative Text Processing and Construction-Integration Theory: Morpho- syntactic and Discourse-Pragmatic Effects of Verb Modality on Topic Continuity)

  • 조숙환;김세영
    • 인지과학
    • /
    • 제17권2호
    • /
    • pp.103-118
    • /
    • 2006
  • 본 논문은 구성 통합 이론(Kintsch, 1988, Singer & Kintsch 2001, Graesser, Gernsbacher, & Goldman, 2003)을 토대로 주제어 연속성의 강도와 양태 어미 단서가 이야기 서사 텍스트에 쓰인 공주어 해석에 어떻게 이용되는지 검토했다. 실험 연구에는 명시적 조건과 중립적 조건 등 두 조건이 생성되었는데, 명시적 조건에는, 중립적 조건과는 달리, 주제어가 일관성 있게 유지되었고 또한 동사 어미의 형태 통사적 특징이 인칭과 일치되었다. 이 실험에는 59명의 대학생들이 다음 세 가지 과제에 참여했다. 실험은 첫째, 주어가 생략된 경우 피험자가 시험 문장(target sentence)을 읽는데 소요되는 시간을 측정했고, 둘째, 공주어의 해석, 즉, 선행사 (참조대상) 선택에 소요되는 반응 시간을 측정했으며, 셋째, 선행사 선정의 정답율을 분석했다. 실험 결과, 텍스트 처리과정에서 인칭과 같은 형태 통사적 조건이 유의미한 결과를 낳았으며, 또한, 주제어 연속성 조건의 효과가 형태 통사 조건에 따라 선택적인 양상을 보였다. 즉, 주제어가 지속적으로 연결되는 동안 화용적 맥락, 담화자의 사전 정보, 추론 등과 같은 총체적 정보와 주어, 동사 어미의 인칭과 같은 어휘적, 지엽적인 형태 통사적인 정보가 선행사 해석에 핵심적인 역할을 했다. 따라서, 이 실험 결과는 최소주의 가설 보다 공명 기반 모델을 지지한다.

  • PDF

대(對)테러리즘 분야 연구경향분석:치안본부 대테러연구를 중심으로 (A Study on the Research Trend of Counter-Terrorism: Focusing on Counter-Terrorism studies of the National Police Headquarters)

  • 이대성;류상일
    • 융합보안논문지
    • /
    • 제14권3_2호
    • /
    • pp.83-91
    • /
    • 2014
  • 국제사회는 서독 뮌헨올림픽에서 팔레스타인 테러조직 검은 9월단(Black September)이 이스라엘 선수단을 대상으로 자행한 인질 납치 살해 테러리즘에 큰 충격을 받았다. 한국도 1986년 아시안게임과 1988년 서울 올림픽 개최를 앞두고, 북한의 국가지원 테러리즘, 무력도발, 국지전 등의 위협에 직 간접적으로 노출되어 있었다. 이에 한국 정부는 1982년 1월 대통령훈령 제47호 '국가대테러활동지침'을 제정하여 국가 대(對)테러리즘 업무수행을 위한 필요 사항을 규정하였고, 국가안전기획부와 치안본부가 주무부서의 역할을 수행하게 되었다. 이 연구에서는 치안본부 시절 경찰의 대테러관련 역할을 고찰하고, 1983년부터 1990년까지 동 기관에서 발간한 '대테러연구'의 학문적 연구경향을 분석하였는데, 이를 살펴보면 첫째, 공통적으로 빈도가 높은 주제어는 "테러", "인질", "대책", "국제" 등이다. 둘째, 88년 올림픽 전후로 "올림픽" 주제어가 빈번하게 언급되었다. 셋째, 연도별로 차이점을 살펴보면, 83-84년에는 "관방정책" 주제어가 언급되었고, 85년에는 "대남테러", "민간항공기" 등의 주제어가 언급되었으며, 86년에는 "기업체"가 언급되었다. 87년에는 "테러경향"이라는 주제어가 언급되었고, 90년에는 "국제테러리즘", "분리주의"등의 주제어가 사용되었다.