• 제목/요약/키워드: 동시단어분석

검색결과 187건 처리시간 0.026초

세종 말뭉치로부터 용언연어 추출 (Verbal Collocation Extraction from Sejong Tagged Corpus)

  • 이정태;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.121-123
    • /
    • 2015
  • 연어는 둘 이상의 단어로 구성된 표현으로 연어에 속하는 개개의 단어의 의미로써 연어의 의미를 유추할 수 없다. 따라서 연어의 의미를 분석하거나 번역할 경우 개개의 단어보다는 연어 그 자체를 하나의 분석 단위로 간주하는 것이 훨씬 더 효과적이다. 이를 위해 본 논문에서는 통계기법을 활용하여 세종 말뭉치로 부터 용언연어의 추출 방법을 제시하고 그 성능을 평가한다. 연어 패턴과 통계 정보를 이용해서 연어를 추출한다. 평가를 위해서 연어 사전과 전문가의 주관적 평가를 동시에 수행했다.

  • PDF

동시출현단어 분석을 이용한 보조공학 저널의 지적구조 분석 (An Analysis of the Intellectual Structure of Assistive Technology Journal Using Co-Word Analysis)

  • 양현규
    • 재활복지공학회논문지
    • /
    • 제11권1호
    • /
    • pp.15-20
    • /
    • 2017
  • 본 연구의 목적은 키워드에 대한 동시출현단어 분석을 사용하여 RESNA의 보조공학 저널의 연구 동향을 반영하는 지적구조를 파악하고 연구주제 영역의 구성을 제시하는데 있다. 이를 위해 Web of Science에서 2003년부터 2015년까지 보조공학 저널에 게재된 논문, 총 255편의 문헌을 수집하였고, 1,359개의 저자 키워드를 추출하였다. 보조공학 저널의 지적구조를 분석하기 위해 첫째, 군집분석을 실시하고 군집 5개를 결정하였다. 둘째, 다차원척도 지도에 군집 5개를 표시하고 지적구조를 제시하였다. 분석 결과는 지금까지의 보조공학 연구영역을 가늠하고, 향후 연구의 방향성을 탐색하는데 도움이 될 것으로 기대한다.

지구적 환경문제 해결을 위한 학술활동과 환경운동 경향 연구 (An Informetric Study on Academic Activities and Environmental Movements in Solving Global Environmental Problems)

  • 박재신;정영미
    • 정보관리학회지
    • /
    • 제27권3호
    • /
    • pp.83-102
    • /
    • 2010
  • 본 연구에서는 지구적 환경문제의 해결 방식으로서 환경과학 분야의 학술활동과 같은 학문적 접근 방식과 환경 NGO 중심의 환경운동과 같은 실천적 접근 방식을 두 가지 주요 흐름이라 보고, 이들 각각의 특성을 계량정보학적 분석을 통해 파악하고 비교하였다. 지난 10년 간 환경과학 분야에서 인용된 저널의 주제범주 간 동시인용 관계를 분석함으로써 이 분야의 지식 구조를 파악하였고, 환경 NGO의 웹 사이트에서 수집된 외부링크 데이터를 이용하여 이들의 관심 분야를 확인하였다. 또한 저널 논문과 NGO 뉴스에서 추출된 핵심어를 이용한 동시출현단어 분석을 통해 하위 주제를 파악하여 이들 간의 주제적 유사성과 상이성을 구체화하였다.

유한상태변환기만을 이용한 한국어 형태소 분석 및 품사 태깅 (Korean Morphological Analyzer and POS Tagger Just Using Finite-State Transducers)

  • 박원병;김재훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.165-168
    • /
    • 2006
  • 이 논문은 유한상태변환기만을 이용하여 한국어 형태소 분석 및 품사 태깅 시스템을 제안한다. 기존의 한국어 형태소 분석 시스템들은 규칙기반 형태소 분석기가 주를 이루고 한국어 품사 태깅 시스템은 은닉마르코프 모델 기반 품사 태깅이 주를 이루었다. 한국어 형태소 분석의 경우 유한상태변환기를 이용한 경우도 있었으나, 이 방법은 변환기를 작성하기 위한 규칙을 수작업으로 구축해야 하며, 그 규칙에 따라서 사전이 작성되어야 한다. 이 논문에서는 품사 태깅 말뭉치를 이용해서 유한상태변환기에서 필요한 모든 변환 규칙을 자동으로 추출한다. 이런 방법으로 네 종류의 변환기, 즉, 자소분리변환기, 단어분리변환기, 단어형성변환기, 품사결정변환기를 자동으로 구축한다. 구축된 변환기들은 결합연산(composition operation)을 이용하여 하나의 유한상태변환기를 구성하여 한국어 형태소 분석과 동시에 한국어 품사 태깅을 수행한다. 이 방법은 하나의 유한상태변환기만을 이용하기 때문에 복잡도는 선형시간(linear complexity)을 가지면, 형태소 분석기와 품사 태깅 시스템을 매우 짧은 시간 내에 개발 할 수 있었다.

  • PDF

연관규칙 기반 동시출현단어 분석을 활용한 기술경영 연구 주제 네트워크 분석 (Exploring the Research Topic Networks in the Technology Management Field Using Association Rule-based Co-word Analysis)

  • 전익진;이학연
    • 기술혁신연구
    • /
    • 제24권4호
    • /
    • pp.101-126
    • /
    • 2016
  • 본 연구는 동시출현단어(co-word) 분석을 이용하여 기술경영 분야의 연구 주제 네트워크를 구축하고, 핵심 연구 주제 및 연구 주제 간 상호연관관계를 도출한다. 동시출현 빈도수의 정규화를 통해 키워드 간 유사성을 도출하여 무방향 네트워크를 분석하는 기존 연구들과는 달리 본 연구는 연관규칙분석(association rule)을 통해 키워드 간 신뢰도(confidence)를 도출하여 유방향 네트워크 분석을 수행한다. 2011~2014년 기술경영 분야 9개 국제 학술지에 게재된 2,456개의 논문의 저자키워드를 대상으로 빈도수 상위 200개 키워드를 추출하고, 주제(THEME), 방법(METHOD), 분야(FIELD)의 세 가지 유형으로 키워드를 분류한다. 각 유형별 일원(one-mode) 네트워크를 구축하여, 함께 많이 연구가 이루어진 키워드들을 찾아내고, 핵심 키워드를 도출한다. 또한 두 가지 유형의 키워드 간의 이원(two-mode) 네트워크를 구축하여, 연구 주제별로 함께 많이 활용된 방법 및 대상 분야를 탐색한다. 본 연구 결과는 최근 성숙기에 접어든 기술경영 분야의 연구 흐름 및 지식 구조를 키워드 수준에서 구체적으로 제시함으로써, 기술경영 분야 연구자들의 연구 주제 탐색 및 연구방향 설계에 활용될 수 있을 것으로 기대된다.

동시출현단어분석을 이용한 연관영화정보 분석 연구 (An Analysis of Related Movie Information Using The Co-Word Method)

  • 최상희
    • 정보관리학회지
    • /
    • 제31권4호
    • /
    • pp.161-178
    • /
    • 2014
  • 최근 이용자들이 정보를 공동생산하고 소비하는 웹기반 서비스들이 활발해지면서 이용자가 정보를 이용한 기록이나 이용자가 습득한 정보를 활용하여 생산한 다양한 부가 정보들이 다시 이용자에게 제공되고 있다. 또한 쌍방향으로 이용자들이 소통할 수 있는 정보채널이 다양해짐으로써 공통된 관심사를 가진 이용자의 정보소비 경험을 공유할 수 있는 방법이 활발하게 모색되고 있다. 이 연구에서는 동시출현정보 분석기법과 자아중심 네트워크 분석 기법을 적용하여 IMDB 서비스의 기존 이용자들이 자신이 보고 싶거나 좋아하는 영화를 선별하여 만들어 놓은 영화리스트에 나타난 정보를 토대로 특정 영화를 좋아하는 이용자가 선호할 만한 다른 영화를 찾아낼 수 있도록 연관영화정보를 다각적으로 표현하였다. 한 영화를 기준으로 연관 영화, 감독, 장르로 분석을 한 결과 영화의 테마나 주인공성향과 같은 다양한 자질로도 연관영화가 연결되었고 감독의 경우 영화내용보다는 감독의 인지도에 영향을 받는 것으로 나타났다. 또한 영화는 주제의 복합성이 큰 것으로 나타나 장르가 연관영화정보를 제공하기에 적합하지 않은 것으로 분석되었다.

하이퍼네트워크에서 본 단어간 긴밀성과 다양성 (Affinity and Variety between Words in the Framework of Hypernetwork)

  • 김준식;박찬훈;이은석;장병탁
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권4호
    • /
    • pp.166-171
    • /
    • 2008
  • 전체문서(Corpus)에서의 두 단어 간 연결 상태를 파악하여 앞 단어 다음에 오는 단어의 빈도수를 기반으로 여러 형태의 그룹을 분류하여 단어 간 다양성과 긴밀성을 살펴보았다. 기존의 연구에서 Zipf's Power Law는 Chinese Restaurant Process로 설명되었고 Scale Free Network에서는 edged의 수에 따른 노드의 profile을 조사하여 hub들을 찾는 연구가 수행되었다. 본 연구에서는 단어 간 연결의 유일성과 다양성을 조사하여 Zipf's Power Law와 hub profile을 동시에 살펴보았다. 데이타 분석 결과 단어 간 연결의 긴밀성과 다양성 사이에서 대칭성으로 함축되는 유의한 결과를 얻었으며 이는 소위 'exploitation'과 'exploration'의 관점에서 설명될 수 있다. 또한 분석 자료인 TIPSTER에서 관찰된 약간의 대칭성 깨짐(symmetry breaking)에 대해서도 논한다.

언어네트워크분석을 활용한 한국농수산대학 신입생 자기소개서 분석 - TF-IDF 분석을 기초로 - (Analyzing Self-Introduction Letter of Freshmen at Korea National College of Agricultural and Fisheries by Using Semantic Network Analysis : Based on TF-IDF Analysis)

  • 주진수;이소영;김종숙;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권1호
    • /
    • pp.89-104
    • /
    • 2021
  • 비정형 데이터인 한국농수산대학 신입생 자기소개서에서 의미 있는 정보를 추출하기 위하여 핵심적인 역할을 하는 단어의 중요도를 평가하는 TF-IDF 가중치를 기초로 한 언어네트워크분석을 하였다. TF-IDF 가중치에 의한 핵심단어는 문항 1에서는 '농업', '수학', '공부', '문제', '친구', 문항 2에서는 '동아리', '식물', '친구', '농업', '작물', 문항 3에서는 '친구', '동아리', '의견', '갈등', '관리', 문항 4에서는 '버섯', '곤충', '아버지', '농업', '농장' 등으로 나타났다. 또한 빈도수는 낮은 단어이지만 핵심단어로 나타난 단어를 보면 문항 1에서는 '수학', '자격증', '성적', '영어', '과학', 문항 2에서는 '식물', '작물', '공부', '쓰레기', '발표', '실험', 문항 3에서는 '동아리', '청소', '봉사', '갈등', '봉사활동', 문항 4에서는 '버섯', '곤충', '양식', '한우', '조경' 등으로 나타났다. 단어들 간의 관계를 시각적으로 분석이 가능한 언어네트워크분석 결과 매개중심성이 높은 단어는 문항 1에서는 '이유', '고등학교', '재학', 문항 2에서는 '쓰레기', '고등학교', '학교', 문항 3에서는 '중요', '오해', '완성', 문항 4에서는 '가공', '사료', '농가'로 나타났다. 연결정도중심성은 문항 1에서는 '고등학교', '탐구', '성적', 문항 2에서는 '쓰레기', '정리', '수업시간', 문항 3에서는 '의견', '회의', '봉사활동', 문항 4에서는 '가공', '공간', '실습'으로 나타났다. 매개중심성 값이 클수록 네트워크의 중앙에 위치하고, 두 범주 사이의 관계가 강할수록 서로 근거리에 위치한다. 연결정도중심성이 클수록 노드의 크기가 크게 나타나며, 노드 연결선은 단어들의 동시 출현 빈도가 높을수록 edge가 굵게 나타났다. 동시 출현 빈도가 높은 즉 상관관계가 높은 단어 조합은 '자격증 - 취득', '문제 - 해결', '과학 - 생명', '오해 - 양보' 등으로 나타났다. 단어 기반의 계층적 클러스터링 기법에 의하여 단어 간 인접, 상호 관계를 계층적으로 나타낸 클러스터 덴드로그램으로 군집의 개수를 결정하였다. 단어들의 군집 간 비유사도의 차이가 큰 군집을 구한 결과 문항 1은 2개, 문항 2와 문항 4는 4개, 문항 3은 5개의 군집으로 분류할 경우 군집내 응집력이 높고, 군집 간 이질성이 큰 적절한 군집을 구할 수 있었다.

네트워크 분석을 통한 정부 R&D 사업 유사연구영역 분석

  • 정재웅;한유리;강인제;최산;정재연;박현우;전승표
    • 한국기술혁신학회:학술대회논문집
    • /
    • 한국기술혁신학회 2017년도 춘계학술대회 논문집
    • /
    • pp.559-570
    • /
    • 2017
  • 우리나라는 과거부터 현재까지 미래 성장동력 육성을 목표로 정부주도하에 국가 R&D 투자를 점진적으로 늘려왔다. 그 결과, 최근에는 GDP 대비 연구개발비 비중이 세계 최고 수준에 이르렀다. 이렇게 연구개발 예산의 양적인 확대와 함께 연구개발 예산의 효율적 활용은 더욱 중요한 과학기술 분야의 정책적 이슈로 부각되고 있다. 연구개발 예산의 효율적인 집행을 위해서는 R&D 사업의 유사 중복성의 검토가 필수적이지만, 대부분의 유사 중복성 검토는 전문가의 직관적인 판단에 근거하여 이루어져왔다. 하지만, 전문가의 직관에만 의지한 판단은 때로는 불명확하거나 잘못된 결과를 가져올 수도 있다. 따라서, 본 연구에서는 네트워크 분석을 통해 정부 R&D 사업의 유사 중복성을 체계적으로 검토하기 위한 데이터기반의 방법론을 제안하여 전문가의 직관에 의한 유사 중복성 검토를 보완할 수 있는 가능성을 모색하고자 한다. 먼저, 본 연구에서는 정부 R&D사업 유사영역의 전체적인 구조 및 형태와 국가과학기술연구회 소속 25개 정부출연연구기관 R&D사업의 유사영역의 전반적인 형태를 시각화하여 유사영역을 파악하고 직관적인 판단과 선택을 할 수 있는 의사결정 정보를 제공하는데 초점을 두었다. 이를 위해, NTIS의 2015년 데이터를 사용하여 과제 키워드 기반으로 동시단어출현 분석을 수행하였다. 본 분석을 통해 25개 기관의 세부적인 유사연구영역 형태를 제시하였으며, 국내의 과학기술정책적 또는 과학기술학적인 현상들을 시각화하였다. 그 결과, 국내 출연연 R&D사업이 기관별 고유영역이 확고히 보이는 Mode 1적인 형태와 사회경제적인 맥락과 필요 및 유망성을 따르고, 다학제적, 적용중심적이며 과제별로 다양한 과제수행기관들이 과제들을 동시에 수행하는 Mode 2적인 형태가 출연연의 R&D사업 내에 공존하고 있음을 확인하였다.

  • PDF

정보 알고리즘 기반 아리랑의 계통도 및 상관관계 분석 (Correlation Analysis of the Arirangs Based on the Informatics Algorithms)

  • 김학용
    • 한국콘텐츠학회논문지
    • /
    • 제14권4호
    • /
    • pp.407-417
    • /
    • 2014
  • 우리 민족의 대표적인 민요이면서 동시에 유네스코 인류무형문화유산인 아리랑을 정보알고리즘 기법을 도입하여 후렴구를 중심으로 계통도를 분석하고 아리랑들 사이의 상관관계는 본문 단어중심으로 분석하였다. 아리랑의 계통도 분석은 생명체의 진화관계를 분석하는 알고리즘인 다중서열정렬 기법을 사용하였다. 분석한 아리랑 106개 중에서 38개 아리랑이 빠른 템포를 가지고 있었으며, 나머지 68개 아리랑이 느린 템포를 가지고 있었다. 이를 바탕으로 후렴구 기반 아리랑 계통도를 완성하였다. 아리랑 본문 단어는 아리랑에 있는 단어와 아리랑 제목을 노드로 하는 bipartate네트워크를 구축하고 이들로부터 73개 아리랑 및 104개의 핵심 단어를 추출하였다. 먼저, 이 데이터를 바탕으로 쌍대비교분석 기법을 사용하여 아리랑들 사이의 상관관계를 분석하였다. 또한, 네트워크 연결계수가 1인 노드를 단계적으로 제거하여 핵심네트워크를 구축한 다음 네트워크 기반으로 아리랑들 사이의 상관관계를 분석하였다. 그동안 아리랑을 어원 중심의 인문과학이나 음률적인 접근을 통하여 아리랑의 어원, 계통도, 상관관계를 분석하려는 연구가 있었다. 본 연구에서는 이러한 시도를 벗어나 과학적 접근방법인 정보알고리즘을 사용하여 아리랑을 분석함으로써 세계적인 문화유산의 위상을 한층 더 높이고 객관적인 결과를 통해서 아리랑의 대중화 및 세계화의 기틀을 마련함에 있어 그 방법론을 제시하였다.