• 제목/요약/키워드: n-gram 유사도

검색결과 41건 처리시간 0.024초

문단 분석을 통한 문서 내의 감정 예측 (Emotion Prediction of Document using Paragraph Analysis)

  • 김진수
    • 디지털융복합연구
    • /
    • 제12권12호
    • /
    • pp.249-255
    • /
    • 2014
  • 최근 트위터, 페이스북 등과 같은 소셜 네트워크 서비스(Social Network Service, SNS)의 확산과 더불어 정보의 생성 및 공유가 활발히 이루어지고 있다. 이러한 SNS 매체들을 통해 생산하는 많은 데이터를 활용하기 위해 축적된 데이터로부터 의미 있는 정보를 추출해 내는 기술의 필요성이 대두되고 있으며, 데이터 마이닝 기법을 이용하여 의미있는 지식을 찾아낸다. 특히, 다양한 형태의 방대한 자료들로부터 표출되는 의견, 정책, 성향, 감정 등 대중의 집단지성에 나타난 일반적인 감정분석이 활용되고 있다. 본 논문에서는 대중들이 SNS를 통해 작성한 사용자들의 짧은 문장에 함축된 단어와 단어들 간의 연관성을 이용하여 문장 내 감정 상태를 예측하고 사용자의 감정에 따른 적절한 답변이나 추출한 감정과 유사한 트윗글이나 영화 등을 추천하는데 사용될 수 있는 방법을 제안한다.

사전 정보에 기반한 효율적인 자동색인기 설계 (A Design of Efficient Automatic Indexing based on Dictionary Information)

  • 진정환;김태완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.547-550
    • /
    • 2001
  • 웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

기계학습과 언어처리에 기반한 문자메시지 분류 (Text Message Classification based on Machine Learning)

  • 선주오;지명근;최범휘;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.492-495
    • /
    • 2019
  • 휴대전화 메시지로는 결제, 인증번호, 택배, 광고 등의 다양한 문자들이 수신된다. 이 문자들은 서로 섞여 있어 이용자가 찾고자 하는 문자를 찾는 데 어려움이 있다. 본 논문에서는 기계학습과 단어 임베딩을 통해 메시지들을 카테고리로 분류하는 방법을 제안하고, 이를 구현한 안드로이드 앱을 소개한다. 앱에서는 택배, 카드, 인증, 공공기관, 통신사, 대화, 기타의 7개의 분류로 메시지를 분류하며, 자동 분류에서는 수동 태깅한 5802건의 문자메시지를 사용한다. 앱에서는 저장된 문자메시지간 유사도에 기반한 오프라인에 서의 자동 분류를 지원하여 개인정보 노출에 대한 거부감이 있는 사용자의 요구를 반영한다.

  • PDF

빅데이터를 통한 2016년의 다이어트 실태 분석 (Analysis of dieting practices in 2016 using big data)

  • 정은진;장은재;조경애
    • 한국식품과학회지
    • /
    • 제51권2호
    • /
    • pp.176-181
    • /
    • 2019
  • 인터넷과 대중매체의 발전은 새로운 다이어트에 대한 사람들의 접근을 용이하게 만들었다. 그러나 사람들의 관심은 시시각각으로 변화하기 때문에 이슈가 되는 다이어트는 매년 달라지고 있다. 따라서 본 연구에서는 2016년의 다이어트에 대한 경향을 알아보고 분석하기 위해서 빅데이터 분석 방법을 이용하였고, 포털 사이트 네이버를 통해 2016년 1월 1일부터 2016년 12월 31일 까지 1년간 다이어트 키워드가 포함된 문장을 수집하고 분석하여 단순빈도 분석, N-gram 분석, 키워드 네트워크 분석, 계절성 분석을 시행하였다. 단순빈도분석을 통해 가장 많이 출현한 키워드는 '운동'으로(191,032개)나타났고, 그 다음으로 '식단'이(102,631개)로 나타났으며, 키워드 간의 연관빈도를 분석한 N-gram 분석결과 상위 결과로 다이어트-식단, 다이어트-시작, 다이어트-성공으로 나타났고, 다이어트-도시락이 새롭게 나타나 다이어트 시장의 새로운 변화를 확인할 수 있었다. 또한 다이어트 키워드와 연관된 키워드를 유사한 성격들끼리 그룹화한 키워드 네트워크 분석을 통해 식이그룹, 운동 그룹, 상업적 다이어트 식품, 상업적 다이어트 프로그램 그룹으로 총 4개의 그룹으로 세분화되었다. 계절성 분석을 통해 2월부터 7월까지 꾸준한 상승을 보였으나, 10월에 다이어트 출현빈도 수치가 급격히 상승하였고, 대중매체를 통해 소개된 고지방 다이어트의 월별 출현빈도도 10월에 급격한 상승이 있었다. 따라서 대중매체의 영향이나 새로운 다이어트의 유행이 사람들에게 큰 영향을 미치는 것을 확인할 수 있었다. 이상의 결과를 바탕으로 다이어트의 패턴은 1년을 기준으로 일정한 양상을 띠고 있으나, 새롭게 유행하는 다이어트의 출현을 통해 사람들의 관심이 변화하여 다이어트의 패턴에도 영향을 미치는 것을 확인하였다. 결국 시시각각 변화하는 다이어트를 빠르게 파악하기 위해서는 주기적이기 보다는 지속적인 모니터링과 분석이 필요하다고 판단되어진다.

텍스트 마이닝을 적용한 사회서비스원 언론보도기사 분석 (An Analysis on Media Trends in Public Agency for Social Service Applying Text Mining)

  • 박해긍;윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.41-48
    • /
    • 2022
  • 본 연구는 사회서비스원과 관련한 국내 언론보도기사를 주요 원자료로 삼고, 기사에 내재된 주요 키워드 및 토픽을 분석하여 사회서비스원과 관련한 이슈, 즉 사회적 인식이 어떻게 형성되었는지를 실증적으로 탐색하고자 하였다. 본 연구는 사회서비스원에 관한 사회 전반적인 인식 및 동향을 여론을 통해 파악한다는 점에서 의의가 있다. 언론동향의 데이터를 추출하기 위해 검색은 빅테이터 분석 시스템인 텍스톰을 사용하여 대표적 포털인 네이버 뉴스와 다음 뉴스에서 자료를 수집하였다. 수집된 기사는 2020년도 1,299개, 2021년도 총 1,410로, 총 2,709개였다. 분석결과로 첫째, 텍스트 출현빈도와 관련해서 가장 많이 도출된 단어는 '사회서비스원', '설립', '운영' 등으로 주로 사회서비스원의 설립과 관련한 내용이 주를 이루고 있었다. 둘째, N-gram분석결과 사회서비스원과 직접 관련된 단어의 쌍(pairs)은 '사회서비스원과 공공', '사회서비스원과 개원', '사회서비스원과 출범', '사회서비스원과 원장', '사회서비스원과 직원', '사회서비스원과 돌봄종사자' 등으로 나타났다. 셋째, TF-IDF 분석결과 및 단어 네트워크 분석결과에서는 단어출현빈도와 N-gram의 결과와 유사하게 '설립', '운영', '공공', '출범', '제공', '개원', '개최', '돌봄' 등의 결과가 도출되었다. 상기분석결과를 통해 긴급돌봄지원단의 강화, 구체적인 사업화, 일자리의 안정화 등을 제언하였다.

Pseudomonas aeruginosa 3120으로부터 항생물질의 생산,분리 및 특성 (Production, isolation and characterization of the antibiotic from Pseudomonas aeruginosa 3120)

  • 고학룡;전효곤;고영희;성낙계
    • Applied Biological Chemistry
    • /
    • 제36권6호
    • /
    • pp.428-433
    • /
    • 1993
  • Pellicularia sasakii의 생육을 저해하는 한 균주를 토양으로부터 분리하였으며 Pseudomonas aeruginosa 3120으로 동정하였다. P. aeruginosa 3120의 배양액으로부터 분리 정제된 암갈색의 MRL3120 항생물질은 ethylacetate, chloroform 및 methanol에 용해되었으며 곰팡이뿐만 아니라 gram 양성 및 음성세균에도 활성을 나타내었다. UV, IR, EI-MS spectra 및 다른 물리화학적 특성의 분석결과로부터 MRL3120은 2개의 N-methyl-N-thioformylhydroxylamine과 1개의 Cu 이온으로 구성된 chelate 화합물로서 fluopsin C와 유사한 구조를 가진 것으로 추정되었다. Soybean meal을 포함하는 발효배지에 $CuSO_4$의 첨가는 항진균 활성을 증가시켰으나 EDTA(0.1%)의 존재하에서는 활성이 없었다. Soybean meal 대신 soytone을 포함하는 발효배지에서 MRL3120은 생산되지 않았지만 $CuSO_4$의 첨가에 의해 빠르게 생산되었다.

  • PDF

문체 분석을 활용한 한국어 트위터 사용자의 연령대 및 성별 예측 (Age and Gender Prediction from Korean Tweets with Stylometric Analysis)

  • 김상채;박종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.303-305
    • /
    • 2012
  • 사람들은 주변의 영향을 받아 가면서 각자의 독특한 글쓰기 양식을 만들어간다. 따라서 같은 연령대와 성별을 가지는 사람들은 유사한 글쓰기 양식을 나타내는 경향이 있다. 이와 같은 가정을 바탕으로, 본 연구에서는 다양한 연령대와 성별의 사람들이 작성한 트윗의 문체를 분석하여 임의의 트윗을 작성한 저자의 연령대와 성별을 예측하는 실험을 진행하였다. 한국어 웹 언어에서 자주 보이는 표현들을 토대로 구성한 자질들과, 그에 비해 데이터와 관계가 적은 n-gram 단위의 자질들을 함께 사용하여 예측을 진행함으로써, 최대 공산 기준치보다 25%가량 높은 정확도를 보이는 예측 결과를 얻게 되었다. 이와 함께 각 자질 구성이 예측에 얼마나 효율적으로 기여하는지에 대한 이해도를 높일 수 있었다.

시스템 호출 기반의 사운덱스 알고리즘을 이용한 신경망과 N-gram 기법에 대한 이상 탐지 성능 분석 (Anomaly Detection Performance Analysis of Neural Networks using Soundex Algorithm and N-gram Techniques based on System Calls)

  • 박봉구
    • 인터넷정보학회논문지
    • /
    • 제6권5호
    • /
    • pp.45-56
    • /
    • 2005
  • 컴퓨터 네트워크의 확대 및 인터넷 이용의 급격한 증가에 따라 네트워크 서비스 품질의 보장과 네트워크의 관리가 어려울 뿐만 아니라 네트워크 보안의 취약성으로 인하여 해킹 및 정보유출 등의 위협에 노출되어 있다. 특히 시스템 침입의 보안 위협에 대한 능동적인 대처 및 침입 이후에 동일하거나 유사한 유형의 사건 발생에 대해 실시간에 대응하는 것이 중요하므로 침임 탐지 시스템에 대한 많은 연구가 진행되고 있다. 본 논문에서는 시스템 호출을 이용하여 이상 침입 탐지 시스템의 성능을 향상시키기 위해, 특징 선택과 가변 길이 데이터를 고정 길이 학습 패턴으로 변환 생성하는 문제를 해결하기 위한 사운덱스 알고리즘을 적용한 신경망 학습을 통하여 이상 침입 탐지의 연구를 하고자 한다. 즉, 가변 길이의 순차적인 시스템 호출 데이터를 사운덱스 알고리즘에 의한 고정 길이의 행위 패턴을 생성하여 역전파 알고리즘에 의해 신경망 학습을 수행하였다. 역전파 신경망 기법을 UNM의 Sendmail Data Set을 이용하여 시스템 호출의 이상 탐지에 적용하여 성능을 검증하였다.

  • PDF

주변 문장 유사도를 이용한 문서 재사용 측정 모델 (A Text Reuse Measuring Model Using Circumference Sentence Similarity)

  • 최성원;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2005
  • 기존의 문서 재사용 탐지 모델은 문서 혹은 문장 단위로 그 내부의 단어 혹은 n-gram을 비교를 통해 문장의 재사용을 판별하였다. 그렇지만 문서 단위의 재사용 검사는 다른 문서의 일부분을 재사용하는 경우에 대해서는 문서 내에 문서 재사용이 이루어지지 않은 부분에 의해서 그 재사용 측정값이 낮아지게 되어 오류가 발생할 수 있는 가능성이 높아진다. 반면에 문장 단위의 문서 재사용 검사는 비교문서 내의 문장들에 대한 비교를 수행하게 되므로, 문서의 일부분에 대해 재사용물 수행한 경우에도 그 재사용된 부분 내의 문장들에 대한 비교를 수행하는 것이므로 문서 단위의 재사용에 비해 그런 경우에 더 견고하게 작동된다. 그렇지만, 문장 단위의 비교는 문서에 비해 짧은 문장을 단위로 하기 때문에 그 신뢰도에 문제가 발생하게 된다. 본 논문에서는 이런 문장단위 비교의 단점을 보완하기 위해 문장 단위의 문서 재사용 검사를 수행 후, 문장의 주변 문장의 재사용 검사 결과를 이용하여 문장 단위 재사용 검사에서 일어나는 오류를 감소시키고자 하였다.

  • PDF

유사 세라마이드(PC-9)를 함유한 다중 층상 유화물의 제조 (The Preparation of Multi-Lamellar Emulsion Which Containing Pseudoceramide(PC-9))

  • 박병덕;염종경;이명진;김윤
    • 대한화장품학회지
    • /
    • 제25권1호
    • /
    • pp.55-68
    • /
    • 1999
  • 본 연구는 유사세라마이드(N-Ethanol-2-myristyl/palmityl-3-oxostearamide/arachidamide (PC-9))를 함유한 다중층상 유화물의 조제와 이의 효능 평가에 대한 연구이다. 다중층상 유화물의 제조를 위하여, 일차적으로 지질유사성분 혼합조성(유사세라마이드(PC-9), 지방산, 콜레스테롤)의 phase 연구를 통하여 액정형성이 용이한 조성비를 결정하고, 액정형성이 용이하다고 알려진 유화제인 Glyceryl monostearate와 polyoxyethylene glyceryl monostearate를 사용하여 유화물을 제조하였다. 유성성분으로서는 올리브 오일과 같은 천연오일이 다중층상 유화물이 잘 형성되는 경향을 보였으며, 전체적으로 유성성분의 양이 많아질수록 제조된 유화물의 편광하에서 광학 이방성을 나타내는 정도는 감소하였다. 지질유사성분과 유화제 성분의 양이 유성성분에 비해 높은 경우 건조과정에서도 높은 유화입자의 안정성을 보여주었으며, 유성성분을 증가하여 다중층상 유화물을 제조할 경우 건조시 액정상(liquid crystal)으로의 전이과정을 보여주었으며, 완만한 수분 건조속도와 실제 피부 적용시 뛰어난 경피수분상실 억제효과를 보여 주었다.

  • PDF