• 제목/요약/키워드: 용어클러스터링

검색결과 45건 처리시간 0.022초

단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법 (Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters)

  • 조승현;이경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병 중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

스타트업 관련 최근 국내 연구 동향: 연구 변수들에 대한 소셜 네트워크 분석을 중심으로 (Recent Domestic Research Trend Over Startups: Focusing on the Social Network Analysis of Research Variables)

  • 길창민;양동우
    • 벤처창업연구
    • /
    • 제17권2호
    • /
    • pp.81-97
    • /
    • 2022
  • 본 연구는 스타트업 관련 국내 등재 논문들에 활용된 변수들을 분석하여 스타트업 관련 최근 연구 동향을 파악하고자 함이 목적이다. 대상 논문은 스타트업을 제목에 포함한 국내 등재 논문으로서 스타트업이라는 용어를 제목에 포함한 2013년 첫 등재 논문부터 2020년까지의 논문 108편이다. 본 연구의 분석방법은 전체 변수들에 대하여 클러스터링 및 빈도 분석을 실시하고, 유의한 관계를 가지는 변수들 간 텍스트 네트워크 분석을 진행하는 것으로 구성되어 있다. 텍스트 네트워크 분석을 위한 시각화툴은 Gephi를 활용하였다. 변수들에 대하여 분석한 결과는 첫째, 독립변수는 주로 스타트업의 내부적 요인에 대한 것과 외부적 환경에 대한 변수들로 구성되어 있지만, 초기 기업의 특성, 조직의 혁신성 등 스타트업의 특성으로 인하여 주로 내부적 요인, 예컨대 기업내부역량, 마케팅4P전략, 기업가정신, 협력방법, 변혁적 리더십, 기업특성, 린스타트업전략, 사내커뮤니케이션, 가치지향성, 과업갈등, 관계갈등, 지식공유 등에 대한 분석이 비중을 더 많이 차지한다는 점이다. 둘째, 종속변수는 주로 성과에 관련한 것으로서 상위 개념으로 클러스터링 하면 재무적 성과와 비재무적 성과로 크게 분류할 수 있다. 즉 스타트업은 매출 등 재무적 성과가 본격적으로 나타나기 어려운 상황이므로 재무적 성과뿐만 아니라 비재무적 성과, 예컨대 경영성과, 팀성과, SCM성과 등에 대한 관심이 높음을 알 수 있다. 본 연구를 통해서 알 수 있는 점은 스타트업을 주제로 한 등재 논문수가 많지 않은 상황임에도 불구하고 특정한 연구주제보다는 다양한 주제들에 대한 접근이 이뤄지고 있다는 것이다. 예컨대, 최신 트렌드를 반영하는 주제들도 등장하는데, 린스타트업전략, 크라우드펀딩, 인플루언서, 액셀러레이터 등은 시대상을 반영하는 주제라고 할 수 있다.

국가 정책지식의 구조와 특성에 관한 연구 (A Study on the Structures and Characteristics of National Policy Knowledge)

  • 이지수;정영미
    • 정보관리연구
    • /
    • 제41권2호
    • /
    • pp.1-30
    • /
    • 2010
  • 이 연구에서는 경제인문사회연구회 산하 19개 정부출연 연구기관이 2003년부터 2007년까지 5년동안 생산한 정책지식은 사회와 경제 분야의 10개 정책에 집중되고 있음을 확인하고, 연구기관들의 연구과제 유사성을 다차원축척법을 사용하여 표현하였다. 이 중 5대 정책에 대해 이슈의 생존주기 유형을 파악하고 정책지식의 생산량 추이와 비교함으로써 언론관심도와 정책지식의 생산 상관관계를 살펴보았다. 또한 정책지식의 문헌에서 추출한 핵심어를 동시출현단어 분석을 통해 각 정책을 구성하는 하위 주제를 파악하였으며, 정책지식 생산기관의�汰恝諛喚� 분석 결과,�泰逞╂岵막� 유사성을 갖는 기관들은 인용관계에서 있어서도 상호 선호하는 경향을 나타냄을 확인하였다.

공격 메일 식별을 위한 비정형 데이터를 사용한 유전자 알고리즘 기반의 특징선택 알고리즘 (Feature-selection algorithm based on genetic algorithms using unstructured data for attack mail identification)

  • 홍성삼;김동욱;한명묵
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.1-10
    • /
    • 2019
  • 빅 데이터에서 텍스트 마이닝은 많은 수의 데이터로부터 많은 특징 추출하기 때문에, 클러스터링 및 분류 과정의 계산 복잡도가 높고 분석결과의 신뢰성이 낮아질 수 있다. 특히 텍스트마이닝 과정을 통해 얻는 Term document matrix는 term과 문서간의 특징들을 표현하고 있지만, 희소행렬 형태를 보이게 된다. 본 논문에서는 탐지모델을 위해 텍스트마이닝에서 개선된 GA(Genetic Algorithm)을 이용한 특징 추출 방법을 설계하였다. TF-IDF는 특징 추출에서 문서와 용어간의 관계를 반영하는데 사용된다. 반복과정을 통해 사전에 미리 결정된 만큼의 특징을 선택한다. 또한 탐지모델의 성능 향상을 위해 sparsity score(희소성 점수)를 사용하였다. 스팸메일 세트의 희소성이 높으면 탐지모델의 성능이 낮아져 최적화된 탐지 모델을 찾기가 어렵다. 우리는 fitness function에서 s(F)를 사용하여 희소성이 낮고 TF-IDF 점수가 높은 탐지모델을 찾았다. 또한 제안된 알고리즘을 텍스트 분류 실험에 적용하여 성능을 검증하였다. 결과적으로, 제안한 알고리즘은 공격 메일 분류에서 좋은 성능(속도와 정확도)을 보여주었다.

디지털 아카이브즈의 문제점과 방향 - 문화원형 콘텐츠를 중심으로 - (Digital Archives of Cultural Archetype Contents: Its Problems and Direction)

  • 함한희;박순철
    • 한국비블리아학회지
    • /
    • 제17권2호
    • /
    • pp.23-42
    • /
    • 2006
  • 본고는 문화원형콘텐츠를 유통시키고 있는 문화콘텐츠닷컴의 디지털아카이브 시스템에 주목해서 문제점을 분석하고 대안을 제시하는 것이 목적이다. 문화원형콘텐츠는 전통문화와 컴퓨터기술을 접목시켜 개척한 새로운 분야이다. 정부에서는 이 산업을 육성해서 한국문화의 세계화와 국가 경쟁력을 강화시킬 의도를 가지고 있다. 우리나라의 역사와 전통 풍물 생활 전승 예술 지리지 등 다양한 분야의 문화원형을 디지털 콘텐츠화하여 문화산업에 필요한 창작소재로 제공하는 것이 그 핵심내용이다. 아울러 디지털 콘텐츠 유통체계 정립과 저작권 관리를 통해서 공공부문 문화콘텐츠의 산업적 활용도를 제고하려는 의도도 포함된다. 본고에서 다루는 대상자료는 현재 문화콘텐츠닷컴에서 유통, 관리되고 있는 문화원형콘텐츠들이다. 이 성과물들은 2002년부터 2005년까지 개발되어서 문화콘텐츠닷컴 DB에 구축되어 있다. 이 자료들을 통해서 현재의 디지털아카이브 시스템의 문제점을 분석하였고, 현재의 시스템이 안고 있는 한계점을 요약하면 다음과 같다. 첫째는 각 자료에서 사용하는 주요 용어의 선택에 따라 유사한 자료들이 서로 다른 주제로 분류되면서 다른 항목에 속하게 되는 것이다. 둘째는, 따라서 서로 다른 항목 간에 교차검색이 이루어지지 않는 한계점이 있다. 현재의 제 문제를 해결할 수 있는 방법으로 본고에서는 온톨로지 기능을 포함한 데이터마이닝시스템을 이용해서 풍부한 지식정보표현과 활용이 가능한 디지털아카이브 시스템을 제안하고 있다. 데이터마이닝은 다섯 가지의 방법으로 가능하다. 의미검색 문서요약 문서클러스터링 문서분류 그리고 주제추적이다. 최근에 빠르게 개발되고 있는 디지털 신기술도 인문학과 긴밀하게 연결되지 않으면, 그 활용도가 제한적이라는 점을 본고를 통해서 지적하였다. 창작소재로서의 문화원형콘텐츠의 활용도를 크게 향상시킬 수 있는 길은 바로 신지식관리를 위한 통학적(uni-discipline) 접근이라는 점을 일깨우고자 한다.