• 제목/요약/키워드: N-gram 분석

검색결과 137건 처리시간 0.029초

텍스트 마이닝을 적용한 사회서비스원 언론보도기사 분석 (An Analysis on Media Trends in Public Agency for Social Service Applying Text Mining)

  • 박해긍;윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.41-48
    • /
    • 2022
  • 본 연구는 사회서비스원과 관련한 국내 언론보도기사를 주요 원자료로 삼고, 기사에 내재된 주요 키워드 및 토픽을 분석하여 사회서비스원과 관련한 이슈, 즉 사회적 인식이 어떻게 형성되었는지를 실증적으로 탐색하고자 하였다. 본 연구는 사회서비스원에 관한 사회 전반적인 인식 및 동향을 여론을 통해 파악한다는 점에서 의의가 있다. 언론동향의 데이터를 추출하기 위해 검색은 빅테이터 분석 시스템인 텍스톰을 사용하여 대표적 포털인 네이버 뉴스와 다음 뉴스에서 자료를 수집하였다. 수집된 기사는 2020년도 1,299개, 2021년도 총 1,410로, 총 2,709개였다. 분석결과로 첫째, 텍스트 출현빈도와 관련해서 가장 많이 도출된 단어는 '사회서비스원', '설립', '운영' 등으로 주로 사회서비스원의 설립과 관련한 내용이 주를 이루고 있었다. 둘째, N-gram분석결과 사회서비스원과 직접 관련된 단어의 쌍(pairs)은 '사회서비스원과 공공', '사회서비스원과 개원', '사회서비스원과 출범', '사회서비스원과 원장', '사회서비스원과 직원', '사회서비스원과 돌봄종사자' 등으로 나타났다. 셋째, TF-IDF 분석결과 및 단어 네트워크 분석결과에서는 단어출현빈도와 N-gram의 결과와 유사하게 '설립', '운영', '공공', '출범', '제공', '개원', '개최', '돌봄' 등의 결과가 도출되었다. 상기분석결과를 통해 긴급돌봄지원단의 강화, 구체적인 사업화, 일자리의 안정화 등을 제언하였다.

텍스트마이닝을 활용한 교통영향평가 교통개선대책 분석 : 경기도 도시개발사업을 대상으로 (Analysis of Traffic Improvement Measures in Transportation Impact Assessment Using Text Mining : Focusing on City Development Projects in Gyeonggi Province)

  • 양은혜;강희찬;안우영
    • 한국ITS학회 논문지
    • /
    • 제22권2호
    • /
    • pp.182-194
    • /
    • 2023
  • 교통영향평가는 도시·교통 사업 시행 시에 발생할 수 있는 교통문제를 사전에 해결하는 주요한 역할을 하는 제도이지만 사업의 특성을 고려한 작성 지침과 명확한 심의 기준이 없어 심의 결과의 일관성이 떨어지는 문제점이 있다. 본 연구에서는 교통영향평가에서 심의 의결된 교통개선대책을 분석하여 심의 결과의 핵심 키워드를 찾고 교통영향평가에서 주요하게 검토해야 하는 항목을 제시하고자 한다. 이를 위해 경기도에서 심의 의결된 도시개발사업의 교통개선대책을 중심으로 TF-IDF 및 N-gram 분석을 활용한 텍스트마이닝을 하였다. 도시개발사업에 주요하게 고려되는 사항은 도로, 교차로 등 교통 기반시설의 신설이 주요한 키워드였으며 다음으로 진출입구 위치 설정, 보행 동선 연결이 주요한 사항이었다. 향후 교통영향평가 지침과 심의 기준 마련 시 본 연구에서 제시한 주요 항목을 반영함으로써, 교통영향평가의 일관성과 객관성을 높이는 심의 운영에 이용할 수 있을 것으로 기대한다.

감정 분석 기반의 선호도 분석 시스템의 설계 및 구현 (Design and Implementation of A Preference Analysis System Based on Sentiment Analysis)

  • 문희준;김동현
    • 한국전자통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.289-294
    • /
    • 2024
  • 전통적인 여론 조사 기반의 선호도 분석 기법은 많은 시간과 비용이 요구되고 조사할 수 있는 도메인이 제한적인 문제가 있다. 이를 해결하기 위하여 이 논문에서는 감정 분석 기반의 선호도 분석 시스템을 제안한다. 사용자가 입력한 키워드를 이용하여 웹 문서를 수집한 후에 N-gram 기법을 이용하여 극성을 계산한다. 다량의 웹 문서를 분석할 때 발생하는 분석 시간을 줄이기 위하여 워커 서비스를 사용하는 컨테이너 기반의 시스템을 설계하고 구현하였다. 제안 시스템의 분석 결과와 기존 여론 조사를 비교하였을 때 1% ~ 8%의 오차를 보여준다.

1세 이하의 발열성 소아 요로감염에서 Gram-Positive Uropathogens의 발생 빈도 및 임상적 의의 (Clinical Significance and Incidence of Gram-positive Uropathogens in Pediatric Patients Younger than 1 Year of Age with Febrile Urinary Tract Infection)

  • 양태환;임형은;유기환
    • Childhood Kidney Diseases
    • /
    • 제17권2호
    • /
    • pp.65-72
    • /
    • 2013
  • 목적: 요로감염은 대부분 그람 음성 균에 의해 발생한다고 알려져 있으나 최근 연구들에 의하면 병원내 감염의 주요원인으로 알려졌던 그람 양성균에 의한 요로감염이 증가하고 있고 일반적인 경험적 항생제에 내성이 증가하고 있어 균혈증 등으로 진행이 가능하지만 지역사회 획득 소아 요로감염에 미치는 연구들은 아직 미흡한 실정이다. 본 연구에서는 1세 이하의 지역사회 획득 발열성 소아 요로감염에서 그람 양성균이 요로감염의 중증도 및 동반 비뇨기계 기형과 연관이 있는지 알아보고자 하였다. 방법: 2008년 1월부터 2013년 5월까지 고려대학교 의료원에 입원 치료한 1세 이하의 발열성 요로감염 소아 566명을 대상으로 하였다. 치골 상부 방광 천자 및 도뇨관 으로 채취한 요 배양 검사에 따라 그람 양성균 군과 그람 음성균 군으로 나누어 입원 전후 발열 기간, 말초 혈액 내 백혈구 수와 혈청 C-반응성 단백, 수신증의 유무, 초기 신결손 및 신반흔의 유무, 방광요관역류의 유무 등의 항목들을 후향적으로 비교분석 하였다. 결과: 대상 환아 566명 중 그람 양성균 군은 23명, 그람 음성균 군은 543명 이었으며 그람 양성균 중 E. faecalis가 20주(71.4%)로 가장 많았고, 그람 음성균에서는 E. coli가 493주(86.8%)로 가장 높은 빈도를 보였다. 그람 양성균 군의 평균 입원 전후 발열 기간은 $3.4{\pm}1.2$일 이었으며 그람 음성균 군은 $2.9{\pm}1.6$일로 그람 양성균 군에서 유의하게 길었다. 또한, 배뇨 중 방광요도조영술상 방광요관역류는 그람 양성균 군에서 55.6%, 그람 음성균 군에서 17.8%로 그람 양성균 군에서 유의하게 높은 빈도로 나타났다. 그러나, 그 외 혈액 및 영상 검사 소견에서는 유의한 차이를 보이지 않았다. 결론: 저자들은 그람 양성균에 의한 1세 이하의 발열성 소아 요로감염에서 발열 기간 및 방광요관역류가 증가 할 수 있으므로 요로감염의 치료에 있어 경험적 항생제 선택에 신중을 기해야 하며 동반 기형을 찾기 위한 요로계 영상 검사와 추적 관찰이 꼭 필요함을 제시하는 바이다.

N-gram을 활용한 DGA-DNS 유사도 분석 및 APT 공격 탐지 (DGA-DNS Similarity Analysis and APT Attack Detection Using N-gram)

  • 김동현;김강석
    • 정보보호학회논문지
    • /
    • 제28권5호
    • /
    • pp.1141-1151
    • /
    • 2018
  • APT(Advanced Persistent Threat) 공격에서 감염 호스트와 C&C(Command and Control) 서버 간 통신은 공격 대상의 내부로 침입하기 위한 핵심단계이다. 공격자는 C&C 서버를 통해 다수의 감염 호스트를 제어하고, 침입 및 공격 행위를 지시하는데, 이 단계에서 C&C 서버가 노출되면 공격은 실패할 수 있다. 따라서 최근의 경우 DGA(Domain Generation Algorithm)를 통해 C&C 서버의 DNS를 짧은 시간 간격으로 교체하여 탐지를 어렵게 하고 있다. 특히 하루에도 500만개 이상 새로 등록되는 DNS 전부를 검증하고 탐지하는 것은 매우 어렵다. 이러한 문제점을 해결하기 위해 본 논문에서는 정상 DNS와 DGA를 통해 생성된 DNS(DGA-DNS)의 형태적 유사도(similarity) 분석을 이용한 DGA-DNS 탐지와 이를 통해 APT 공격 징후로 판단하는 모델을 제시하고 유효성을 검증한다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

오픈소스 소프트웨어 라이선스 파일 식별 기술 (Measurement for License Identification of Open Source Software)

  • 윤호영;조용준;정병옥;신동명
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제12권2호
    • /
    • pp.1-8
    • /
    • 2016
  • 본 논문은 오픈소스 소프트웨어의 배포과정에서 라이선스 정보가 누락, 훼손, 변경, 충돌됨에 따라 발생하는 무의적인 저작권 침해를 미연에 방지하고자 라이선스 파일을 추출/식별하는 기술을 연구하였다. 라이선스 파일이 갖는 특성을 파악하기 위해 n-gram과 TF-IDF 기법을 활용하여 322개의 라이선스 내용을 분석하였고, 이를 활용하여 패키지 내에서 라이선스 파일을 추출하였다. 추출한 라이선스는 코사인 측정법을 통해 확보한 라이선스간의 유사도를 산정하여 라이선스 정보를 식별하였다.

Delete-Generate: 단어 n-gram의 삭제 및 생성에 기반한 한국어 스타일 변환 (Delete and Generate: Korean style transfer based on deleting and generating word n-grams)

  • 최형준;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.400-403
    • /
    • 2019
  • 스타일 변환(Style Transfer)은 주어진 문장의 긍정이나 부정 같은 속성을 변경하여 다른 속성을 갖는 문장으로 변환하는 과정을 의미한다. 본 연구에서는 스타일 변환을 위한 단어 n-그램 삭제의 기준을 확장하였고, 네이버 영화리뷰 데이터셋을 통해 이를 스타일 변환 이후 원래 문장의 스타일로부터 얼마나 차이가 나게 되었는지를 측정하였다. 측정은 감성분석기를 통해 이루어졌고, 기존 방법에 비해 6.28%p정도 높은 75.13%의 정확도를 보였다.

  • PDF

소목 추출물의 항균활성과 Brazilin의 구조분석 (Antibacterial Activities of Caesalpinia sappan L. Extract and Structural Analysis of Its Related Brazilin)

  • 권현정;김용현;남궁우;김선기;방인석;한만덕
    • 한국미생물·생명공학회지
    • /
    • 제38권1호
    • /
    • pp.105-111
    • /
    • 2010
  • 소목은 전통적으로 타박상, 염증 등의 질병치료를 위해 민간의학에서 오래 동안 사용되어 온 한약재야다. 소목의 섬재로부터 항균효과를 조사하기 위하여 MeOH 추출에 의한 hexane, $CHCl_3$, EtOAc, n-BuOH, MeOH 및 $H_2O$ 분획을 얻었다. 분획 시료 중 3.94%의 가장 높은 수율의 EtOAc 분획이 조사된 인채 병원성 세균에 대해 가장 강한 항균활성 나타냈다. 또한 EtOAc 분획의 항균활성은 Gram (-) 균주 보다 Gram (+) 균주에 더 효과적이며, Gram (-) 균주에 대해서는 세균에 따른 항균활성의 차이를 보였다. EtOAc 분획은 silica gel adsorption column chromatography 및 Sephadex LH-20을 이용하여 분리하였으며 수득한 주요 성분은 채결정을 통하여 얻어진 단일물질을 HPLC를 이용하여 순도를 측정하였다. 300g의 C. sappan으로부터 3.94%의 EtOAc 분획을 얻었으며 EtOAc분획물은 분석한 결과 10 mg에는 1.67 mg의 brazilin을 포함하였다. 분리된 활성울질은 짧은 황색 결정의 단일 화합물로 MS에 의해 분자량이 285로 나타났으며, $^1H$-NMR, $^{13}C$-NMR에 의한 구조분석으로 brazilin($C_{16}H_{14}O_5$을 동정하였다. 이 같은 결과는 소목의 MeOH 추출에 의한 EtOAc 분획에 존재하는 brazilin이 S. aureus와 같은 인체 병원성 Gram (+) 균주에 대한 생약치료제로 활용이 가능할 것을 시사한다.

단행본 서명의 단어 임베딩에 따른 자동분류의 성능 비교 (Performance Comparison of Automatic Classification Using Word Embeddings of Book Titles)

  • 이용구
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.307-327
    • /
    • 2023
  • 이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.