• 제목/요약/키워드: 텍스트 출현 빈도

검색결과 103건 처리시간 0.027초

반복학습법에 의해 작성한 N-gram 언어모델을 이용한 연속음성인식에 관한 연구 (Continuous Speech Recognition Using N-gram Language Models Constructed by Iterative Learning)

  • 오세진;황철준;김범국;정호열;정현열
    • 한국음향학회지
    • /
    • 제19권6호
    • /
    • pp.62-70
    • /
    • 2000
  • 일반적으로 통계적 언어모델의 확률을 추정하는 방법은 대량의 텍스트 데이터로부터 출현빈도가 높은 단어를 선택하여 사용하고 있다. 하지만 특정 태스크에서 적용할 언어모델의 경우 시간적, 비용적 측면을 고려할 때 대용량의 텍스트의 사용은 비효율적일 것이다. 본 논문에서는 특정 태스크에서 사용하기 위해 소량의 텍스트 데이터로부터 효율적인 언어모델을 작성하는 방법을 제안한다. 즉, 언어모델을 작성할 때 출현빈도가 낮은 단어의 빈도를 개선하기 위해 같은 문장을 반복하여 학습에 참가시키므로 단어의 발생확률을 좀 더 강건하게 하였으며 제안된 언어모델을 이용하여 3명이 발성한 항공편 예약관련 200문장에 대하여 연속음성인식 실험을 수행하였다. 인식실험 결과, 반복학습에 의해 작성한 언어모델을 이용한 경우가 반복학습 적용 전에 비하여 평균 20.4%의 인식률 향상을 보였다. 또한 기존의 문맥자유문법을 이용한 시스템과 비교하여 인식률이 평균 13.4% 향상되어 제안한 방법이 시스템에 유효함을 확인하였다.

  • PDF

텍스트 마이닝 기법을 이용한 경찰청 업무 트렌드 분석 (Analysis of the National Police Agency business trends using text mining)

  • 선현석;임창원
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.301-317
    • /
    • 2019
  • 최근 통계적인 기법을 이용하여 대량으로 생산되고 있는 텍스트 데이터를 통해 다양한 인사이트 발굴을 하기 위한 연구가 활발히 진행되고 있다. 본 연구는 경찰청에서 생산하는 텍스트 데이터를 통해 연도별 경찰청의 업무 트렌드를 파악하고, 각 지방청별로 생산되는 문서에서 주요 키워드를 파악하여 지방청 간의 업무 특성을 비교하고자 하였다. 의미 있는 결론을 도출하기 위해 각 자료 특성에 맞는 전처리 과정을 시행하고 문서별 단어 빈도수를 계산하였다. 문서에 나타난 키워드의 단순 출현 빈도로는 해당 키워드가 문서에서 갖는 중요도를 설명하기 힘들기 때문에 단어-역문서 가중치를 이용하여 각 단어에 대한 빈도수를 새롭게 계산하였고 단어의 문서별 및 연도별 빈도 비교를 위해 L2 정규화 기법을 이용하였다. 이러한 분석은 향후 경찰청 업무 개선 정책에 새롭게 활용될 수 있는 기초 자료로 사용될 수 있으며, 경찰청 업무 효율성 향상 및 청내 업무 개선 수요 파악을 위한 방법으로 활용될 수 있다.

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

텍스트 마이닝과 네트워크 이론을 활용한 권역별 국가하천 점용허가 키워드 분석 (Analysis of Keywords in national river occupancy permits by region using text mining and network theory)

  • 정성윤
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.185-197
    • /
    • 2023
  • 점용허가 정보를 기록하는 단순 용도로만 사용되고 있는 허가 대장에서 허가 내용에 내재한 점용 신청과 허가업무 수행에 유용한 정보를 추출하기 위해 텍스트 마이닝과 네트워크 이론을 활용하여 본 연구를 진행하였다. 텍스트 마이닝 기반으로 불용어 제거와 형태소 분석 등 정규화 과정을 비롯하여 서울·경기, 경상, 전라, 충청, 강원 등 5개 권역별로 어휘 출현 빈도와 토픽 모델링을 분석, 비교하였다. 네트워크 이론에 가정 많이 사용되는 단계, 근접, 매개 및 고유벡터 등 4종의 중심성 알고리즘을 적용하여 네트워크에서 중심적인 위치에 있거나 중간 매개체 역할을 하는 키워드를 살펴보았다. 이러한 어휘 출현 빈도, 토픽 모델링 및 네트워크 중심성을 종합적으로 분석하여 모든 권역에서 '설치' 키워드가 가장 영향력이 큰 것을 알 수 있었다. 이는 환경부의 허가관리청에서는 시설물을 건설하거나 공작물을 설치하는 허가가 많아서 나타난 결과라고 판단된다. 또한, 도로 시설, 치수 시설, 지하 매설 시설, 전력·통신 시설, 체육·공원 시설 등과 연관된 키워드가 토픽 모델링과 네트워크에서 중심적 위치에 있거나 중간 매개체의 역할을 하는 것을 알 수 있었다. 키워드 대부분은 출현 빈도와 분포 비율이 낮은 짚프의 원칙(Zipf' Law)의 통계분포 형태를 보이는 것으로 보였다.

네트워크 텍스트 분석을 통한 문헌정보학 최근 연구 경향 분석 (A Study for Research Area of Library and Information Science by Network Text Analysis)

  • 조재인
    • 정보관리학회지
    • /
    • 제28권4호
    • /
    • pp.65-83
    • /
    • 2011
  • 본 연구는 최근 7년간 문헌정보학분야에 게재된 논문 1,752건을 대상으로 빈도 분석과 네트워크텍스트 분석을 실시하여 다양한 주제 개념의 분포와 그 관계성을 도출하였다. 더불어 보다 최근의 연구 경향을 분석하고 변화 양상을 살펴보기 위해, 최근 2년 사이에 연구된 482건을 추출하여 2차 분석을 실시하였다. 분석 결과, 최근 7년간 문헌정보학 분야는 "공공도서관"과 "대학도서관" 개념을 중심으로 하는 연구가 가장 높은 출현 빈도를 보였으며, "평가", "교육", "웹"은 가장 높은 연결 중심성을 나타내 다양한 문헌정보학의 주제 개념들과 관련을 맺고 연구되고 있는 개념으로 파악할 수 있었다. 최근 2년간을 대상으로 한 2차 분석 결과에서는 "웹", "분류" 개념이 종전보다 높은 상대 빈도를 보였으며, 네트워크 텍스트 분석 결과에서는 "이용자" 연구와 "공공도서관" 개념이 종전보다 더 다양한 주제 개념들과 관련을 맺고 수행되고 있음을 확인할 수 있었다.

사회적 감성과 주가의 상관성 분석 (Correlation Analysis of Social Sentiment and Stock Prices)

  • 윤홍원
    • 한국정보통신학회논문지
    • /
    • 제19권7호
    • /
    • pp.1593-1598
    • /
    • 2015
  • 본 논문에서는 사회적 감성과 주가의 상관성을 분석한다. 먼저, 주가 폭락 또는 폭등 기간과 그 직전의 극성을 각각 분석하고 이 결과를 이용하여 사회적 감성과 주가 사이의 상관관계를 분석한다. 본 연구를 위하여 과거의 다우존스산업평균지수 데이터를 수집하고 주가의 폭등과 폭락 시점을 검출한다. 검출한 시점에 근거하여 뉴욕 타임즈 기사를 수집하고 극성을 분석한다. 분석 결과에 의하면 주가 폭락 기간보다 폭등 기간에는 부정적 용어의 출현 빈도가 감소하고 긍정적 용어의 출현 빈도가 증가한다. 주가 폭락 또는 폭등 직전에는 부정적 용어의 출현 빈도와 긍정적 용어의 출현 빈도 사이에 차이가 커지 않다. 상관관계 분석에 의하면, 주가 폭락과 폭등 기간에는 사회적 감성과 주가 사이에 양의 상관관계를 보인다. 반면에, 주가 폭락과 폭등 직전에는 사회적 감성과 주가 사이에 유의한 수준의 상관관계를 나타내지 않는다.

유전자를 중간 매개로 고려한 동시발생 기반의 약물-질병 관계 추론 (Co-occurrence Based Drug-disease Relationship Inference with Genes as Mediators)

  • 신상원;신예은;장기업;윤영미
    • 한국정보기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.1-9
    • /
    • 2018
  • 신약 재창출은 현재 사용되는 약물의 새로운 용도를 발견하는 방법이다. 텍스트 마이닝은 정형화되지 않은 문서로부터 의미 있는 지식을 획득하는 과정을 의미한다. 본 논문에서는 약물-유전자와 유전자-질병에서 동시에 측정된 유전자 출현 빈도의 비율을 고려하여 새로운 약물-질병 관계를 추론하는 방법을 제안한다. 생물학적 문헌으로부터 약물-유전자와 유전자-질병의 동시출현 빈도를 측정하고 각 약물과 질병에 대하여 유전자의 출현 비율을 계산한다. 약물-질병 관계의 가중치는 동시에 측정된 유전자 출현 비율의 평균을 이용하여 계산되고 이를 이용하여 각 질병의 분류 정확도를 측정한다. 약물-질병 관계를 추론하는 것에서 동시출현 빈도를 문장 단위로 측정하고 여러 관계를 고려하는 방법이 기존 방법보다 더 정확히 식별해내는 것을 보였다.

간호사의 직무 스트레스와 자기효능감 관련 연구에 대한 융합적 고찰 (Convergence Study of Relation between Job Stress and Self-efficacy of Nurses)

  • 문혜경;정미란;노원정
    • 융합정보논문지
    • /
    • 제9권3호
    • /
    • pp.146-151
    • /
    • 2019
  • 본 연구는 간호사의 직무 스트레스와 자기효능감과의 관계를 규명하기 위하여 관련 연구의 동향을 고찰하고 텍스트 네트워크 분석을 시행하였다. 선행문헌고찰을 위하여 국내 3곳, 국외 1곳의 데이터베이스를 이용하여 '간호사', '스트레스', '자기효능감', 'nurse', 'stress', 'self-efficacy'를 주요 검색어로 검색하였다. 총 18편의 논문이 대상 문헌으로 선정되었다. 이중 9편의 연구에서 간호사의 직무 스트레스와 자기효능감 간에 통계적으로 유의한 음의 상관관계가 있음을 보고하였다. 그러나 도구의 선택에 있어 번안자에 따라 문항을 선택적으로 사용하여 상이한 결과가 도출되어 동일한 도구를 사용한 다른 논문들과의 비교 분석이 어려웠다. 또한, 18편 논문의 초록에서 키워드를 추출하여 텍스트 네트워크 분석을 시행하였다. 출현 빈도수가 가장 높은 단어는 직무스트레스였고, 이를 기준으로 관계를 분석하였을 때 출현 빈도수가 높은 주요어는 자기효능감, 의료기관, 상관성이었다. 해당 주요어간의 관계를 명확하게 하기 위해 한국형 도구 개발을 통한 영향요인 탐색 연구 수행을 제언한다.

텍스트 마이닝을 이용한 국가 물관리 정책 변화 시점별 수문조사사업의 방향 분석 (How National Water Management Plans lead Hydrological Survey Projects?)

  • 김찬우;김민국;고정환;한승원;최인재;현동호;박석근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.429-429
    • /
    • 2023
  • 우리나라의 물 관련 정책 방향이 환경 중심의 수자원 관리에서 친수공간 및 정보의 확보와 같은 안전한 물관리로 확대되면서 정책추진에 기초가 될 수 있는 신뢰도 높은 수문자료의 생산이 보다 중요시되고 있다. 국가 수문조사사업은 이러한 정책기조에 맞춰 제도적인 뒷받침과 함께 조사의 범위와 기술, 품질관리 등의 영역을 넓히며 그 기능을 활발히 하고 있으나, 물관리 정책의 경향에 따른 수문조사사업의 방향성과 특징을 구조적으로 살펴본 연구는 부족한 것으로 파악된다. 따라서 본 연구는 친수·친환경적 물관리가 강조된 시기('97~현재)를 중점으로 하여 물관리 정책과 관련 계획의 변화가 수문조사사업에 어떠한 영향을 주는지 고찰하였다. 이를 위해 물관리 여건의 변화에 따라 달라진 관련 정책별 주제어의 분포와 수문조사사업과 연관된 주요어의 출현빈도 및 경향을 살펴보고, 주요 연관어와 연계한 사업의 방향과 구조를 분석하였다. 분석자료로는 물관리 관련 법령 등의 제도와 언론기사자료, 정책별 추진방향을 활용하였다. 정책의 추진방향은 1) 수자원의 종합적 개발에서 친환경적 측면과 지속가능성이 강조된 수자원장기종합계획(3-1차~4-3차)과 2) 사람과 자연이 함께 고려된 맑고 안전한 물, 통합물관리 등의 전략이 수록된 국가물관리기본계획(1차), 3) 정책의 기조에 따라 수립 및 보완된 수문조사 기본계획(1~2차)을 바탕으로 하였다. R프로그램을 통한 텍스트 마이닝을 활용하여 각 자료에서의 주제어 분포와 출현빈도를 분석하고, 정책별 추진방향과 수문조사사업의 연계성을 나타내었다. 연구의 함의를 담은 결과로서 물관리 여건이 변화된 시점별 주요연관어를 중심으로 한 정책동향과 수문조사사업의 특징 및 방향을 요약·비교하여 제시하였으며, 이는 물관리 분야에서의 국정운영 목표와 연계하여 국가 수문조사사업의 사업성을 고찰하는 연구의 기반이 될 수 있으리라 생각된다.

  • PDF

동시출현단어 분석을 통한 국내외 정보학 학회지 연구동향 파악 (A Study on the Research Trends in Domestic/International Information Science Articles by Co-word Analysis)

  • 김하진;송민
    • 정보관리학회지
    • /
    • 제31권1호
    • /
    • pp.99-118
    • /
    • 2014
  • 이 연구는 국내외 정보학 분야 학회지 동향을 파악하기 위하여 1990년부터 2013년까지 국내 정보관리학회지와 국외 JASIST의 논문 제목과 초록을 대상으로 텍스트 마이닝 기법을 통한 명사, 명사구 동시출현 분석을 수행하였다. 전 기간을 5구간으로 나누고 전체적인 동향을 살펴보기 위해 고빈도 동시출현단어를 분석하였으며, 세부 주제를 파악하기 위해 상위 키워드와 동시에 출현하는 단어를 분석하였다. 마지막으로 과거와 다르게 새로운 키워드가 등장하는 2010년 이후 동향을 중점적으로 네트워크 분석을 수행하였다. 분석 결과 전반적으로 국내의 경우 정보관리학회지는 도서관, 정보 서비스, 정보 이용자, 정보 자료 조직 주제 분야가 많이 차지하고 있었고 JASIST는 정보 검색, 정보 이용자, 웹 관련 정보학, 계량 정보학 중심으로 연구가 진행되었다.