• 제목/요약/키워드: 동시출현단어

검색결과 127건 처리시간 0.021초

동시출현단어분석을 통한 데이터과학 분야의 지적구조에 관한 연구 (A Study on the Intellectual Structure of Data Science Using Co-Word Analysis)

  • 김현정
    • 정보관리학회지
    • /
    • 제34권4호
    • /
    • pp.101-126
    • /
    • 2017
  • 최근 문헌정보학의 관련 분야로 주목받고 있는 데이터과학은 오랫동안 문헌정보학에서 해오던 정보의 수집, 저장, 조직, 분석, 활용 등의 활동을 데이터에 적용하여 그 가치를 이해하려는 학문이며, 통계학과 컴퓨터공학 등 다른 학문분야와의 연계가 필요한 분야이다. 이러한 데이터과학 분야의 연구 영역을 파악하기 위하여 동시출현단어 분석을 사용하여 Web of Science 핵심컬렉션에 수록된 문헌들 중 데이터 과학 관련 자료들을 수집하고, 그 주제범주를 활용하여 네트워크분석을 실시하였다. 총 667건의 자료에 대한 159개의 주제범주를 기술분석하여 데이터과학 관련 연구가 많이 이루어지고 있는 학문분야를 조사하였고, 네트워크분석을 통해 데이터과학 분야 연구영역의 지적구조를 시각적으로 파악하였다. 분석결과, 데이터과학 분야의 연구들은 2개 영역 9개 군집으로 구분되었으며, 주제범주의 용어들 중 중심성이 높은 용어들을 통해 각 군집의 대표적인 주제들을 선정하였다. 연구의 결과는 데이터과학 분야의 연구들에 대한 지적구조를 파악하는데 도움이 될 수 있고, 문헌정보학과의 연계융합전공으로서의 데이터과학 교과과정 개발에 방향성을 제시할 수도 있을 것이다.

검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구 (A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search)

  • 정소나;정지나
    • 한국산학기술학회논문지
    • /
    • 제18권5호
    • /
    • pp.596-607
    • /
    • 2017
  • 의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.

바이오인포매틱스 분야 회색문헌 및 백색문헌의 연구 동향 비교 분석 (Analyzing Research Trends in Bioinformatics based on Comparison between Grey and White Bioinformatics Literatures)

  • 김예은;김정주;송민
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.11-14
    • /
    • 2013
  • 본 연구의 목적은 바이오인포매틱스 분야의 회색문헌과 백색문헌의 초록을 대상으로 단어 동시출현(word co-occurrence)네트워크 분석을 통해 해당 분야의 연구 동향을 비교 분석하고자 하였다. 이를 위해 2010년부터 2012년까지 발표된 회색문헌인 회의자료(proceeding)와 백색문헌인 학술논문(journal article)의 초록을 SCOPUS, IEEEXplore, Microsoft academic search에서 수집하였다. 단어 동시출현 네트워크를 분석한 결과 회색문헌의 주요 연구는 분석도구 및 방법으로, 백색문헌의 주요 연구는 바이오인포매틱스의 주요 연구대상인 유전자 발현, 단백질 서열 및 구조 등으로 나타났다.

  • PDF

동시출현단어 분석을 이용한 보조공학 저널의 지적구조 분석 (An Analysis of the Intellectual Structure of Assistive Technology Journal Using Co-Word Analysis)

  • 양현규
    • 재활복지공학회논문지
    • /
    • 제11권1호
    • /
    • pp.15-20
    • /
    • 2017
  • 본 연구의 목적은 키워드에 대한 동시출현단어 분석을 사용하여 RESNA의 보조공학 저널의 연구 동향을 반영하는 지적구조를 파악하고 연구주제 영역의 구성을 제시하는데 있다. 이를 위해 Web of Science에서 2003년부터 2015년까지 보조공학 저널에 게재된 논문, 총 255편의 문헌을 수집하였고, 1,359개의 저자 키워드를 추출하였다. 보조공학 저널의 지적구조를 분석하기 위해 첫째, 군집분석을 실시하고 군집 5개를 결정하였다. 둘째, 다차원척도 지도에 군집 5개를 표시하고 지적구조를 제시하였다. 분석 결과는 지금까지의 보조공학 연구영역을 가늠하고, 향후 연구의 방향성을 탐색하는데 도움이 될 것으로 기대한다.

트위터 관련 연구에 대한 계량정보학적 분석 (A Bibliometric Analysis on Twitter Research)

  • 강범일;이재윤
    • 정보관리학회지
    • /
    • 제31권3호
    • /
    • pp.293-311
    • /
    • 2014
  • 이 연구에서는 계량정보학적 기법을 사용하여 국내 트위터 관련 연구의 동향을 분석하고자 하였다. 이를 위해 KCI에서 검색된 2009년부터 2014년 4월까지의 트위터 관련 논문 539편에서 제목, 초록, 키워드를 추출하여 분석 자료로 삼았다. 프로파일링 기법을 이용해 트위터 관련 연구가 수행된 학문 분야와 저널을 분석하였고, 동시출현단어 분석을 통해 트위터 관련 연구의 세부 주제 영역을 파악하였다. 그 결과, 국내 트위터 관련 연구는 53개 학문분야에서 다양하게 다루어지고 있으며 핵심 분야는 신문방송학, 경영학, 컴퓨터학 분야로 나타났다. 세부 주제로는 선거를 비롯한 정치 관련 이슈가 가장 많이 다루어졌으며, 기업/구매 관련 이슈도 활발히 연구되었음을 확인할 수 있었다.

학술지 중요도와 키워드 순서를 고려한 단어동시출현 분석을 이용한 독서분야의 지적구조 분석 (Examining the Intellectual Structure of Reading Studies with Co-Word Analysis Based on the Importance of Journals and Sequence of Keywords)

  • 장령령;홍현진
    • 한국비블리아학회지
    • /
    • 제25권1호
    • /
    • pp.295-318
    • /
    • 2014
  • 이 연구는 학술지 등급과 키워드 위치를 고려한 혼합가중치를 기반으로 단어동시출현 분석 기법을 활용하여 독서분야의 지적구조를 분석하고자 한다. 이를 위해 2003년에서 2012년까지 한국학술지인용색인(Korea Citation Index; KCI)에서 독서와 관련된 학술지 논문 838편을 수집하였고, 이 중에서 선정한 56개 키워드로 생성한 행렬에 군집분석, 다차원척도분석 및 네트워크 분석을 적용하였다. 그 결과 혼합가중치에 의하여 생성한 키워드행렬이 더 좋은 결과가 나왔으며, 이 혼합가중치에 의한 키워드행렬을 집중적으로 분석하여 독서분야를 4개의 큰 주제 및 11개 하위주제로 구분할 수 있었다. 독서분야의 지적구조에 대한 시기별 분석을 한 결과, 독서분야의 연구동향은 이론적인 연구에서 실증적인 연구로 변화하고 있음을 알 수 있었다.

연관규칙 기반 동시출현단어 분석을 활용한 기술경영 연구 주제 네트워크 분석 (Exploring the Research Topic Networks in the Technology Management Field Using Association Rule-based Co-word Analysis)

  • 전익진;이학연
    • 기술혁신연구
    • /
    • 제24권4호
    • /
    • pp.101-126
    • /
    • 2016
  • 본 연구는 동시출현단어(co-word) 분석을 이용하여 기술경영 분야의 연구 주제 네트워크를 구축하고, 핵심 연구 주제 및 연구 주제 간 상호연관관계를 도출한다. 동시출현 빈도수의 정규화를 통해 키워드 간 유사성을 도출하여 무방향 네트워크를 분석하는 기존 연구들과는 달리 본 연구는 연관규칙분석(association rule)을 통해 키워드 간 신뢰도(confidence)를 도출하여 유방향 네트워크 분석을 수행한다. 2011~2014년 기술경영 분야 9개 국제 학술지에 게재된 2,456개의 논문의 저자키워드를 대상으로 빈도수 상위 200개 키워드를 추출하고, 주제(THEME), 방법(METHOD), 분야(FIELD)의 세 가지 유형으로 키워드를 분류한다. 각 유형별 일원(one-mode) 네트워크를 구축하여, 함께 많이 연구가 이루어진 키워드들을 찾아내고, 핵심 키워드를 도출한다. 또한 두 가지 유형의 키워드 간의 이원(two-mode) 네트워크를 구축하여, 연구 주제별로 함께 많이 활용된 방법 및 대상 분야를 탐색한다. 본 연구 결과는 최근 성숙기에 접어든 기술경영 분야의 연구 흐름 및 지식 구조를 키워드 수준에서 구체적으로 제시함으로써, 기술경영 분야 연구자들의 연구 주제 탐색 및 연구방향 설계에 활용될 수 있을 것으로 기대된다.

동시출현 단어분석 기반 스팸 문자 탐지 기법 (Coward Analysis based Spam SMS Detection Scheme)

  • 오하영
    • 정보보호학회논문지
    • /
    • 제26권3호
    • /
    • pp.693-700
    • /
    • 2016
  • 스팸 데이터 셋은 통상적으로 공개적으로 구하기 어렵고 기존 연구들은 대부분 스팸 이메일에 초점이 맞춰져 왔기 때문에 스팸 문자 메시지 자체 특성을 분석하는데 한계가 있었다. 스팸 이메일 특성 분석 활용 및 데이터 마이닝 기법 등의 활용을 통한 기존 연구들이 있었지만, 영향력이 높은 단일 단어를 활용한 스팸 문자 탐지 기법에 한정되어 있다는 한계점이 있다. 본 논문에서는 싱가폴 대학교에서 공개적으로 공개한 스팸 문자메시지를 다 각도에서 실험 및 분석하여 스팸 문자의 특성을 밝히고 동시출현 단어분석 기반의 스팸 문자 탐지 기법을 제안한다. 성능평가 결과, 제안하는 기법의 거짓 양성과 거짓 음성이 2%미만임을 보였다.

국내 인지행동치료 연구의 지식구조: 동시출현단어 분석 (Knowledge Structure of Cognitive Behavioral Therapy Studies in Korea: Co-word Analysis)

  • 김도희;김현진;안다혜
    • 디지털융복합연구
    • /
    • 제17권12호
    • /
    • pp.509-521
    • /
    • 2019
  • 본 연구는 인지행동치료(Cognitve Behavioral Therapy: CBT)분야 학술지에서 나타난 키워드의 출현패턴을 조사하여 국내 CBT 연구의 지식구조를 규명하는 데에 목적이 있다. 국내·외에서 수행된 CBT 연구를 비교하고자 '인지행동치료'에서 출판된 논문 234편(2008-2019)과 'Cognitive Therapy and Research'에서 출판된 논문 2,316편(1977-2019)이 수집되었다. 자료는 NetMiner 4.3 프로그램으로 분석되었으며 동시출현단어 분석은 코사인 유사도 행렬을 산출하고, 네트워크를 시각화하는 절차로 수행되었다. 본 연구의 결과로 국내 CBT연구자들의 주요 관심사가 식별되었고, 국내 CBT 지식구조는 9개의 연구영역으로 범주화되었다: '척도 타당화', '완벽주의와 속박감', '조현병 환자의 인지, 정서, 관계적 특성', '경계선 성격장애와 우울/양극성 장애 환자의 인지적 특성과 치료', '적응과 심리적 건강', '사회불안장애 환자의 인지적 특성과 치료', '우울의 원인과 공존이환', '수용전념치료', '폭식 장애 환자의 이해와 치료'. 본 연구는 지난 11년 동안 국내 CBT 분야에서 축적된 지식을 점검하였다는 데에 의의가 있으며 국내 CBT 연구의 향후 발전과제로 임상적 실천 표준을 제고하기 위한 연구가 필요하다고 제안한다.

동시링크를 이용한 웹 문서 클러스터링 실험 (Clustering of Web Document Exploiting with the Co-link in Hypertext)

  • 김영기;이원희;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권2호
    • /
    • pp.233-253
    • /
    • 2003
  • 인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

  • PDF