(EaVF) Osobná stránka

E&VF

Originálny jazyk, v ktorom táto práca bola napísaná je EN. Aktuálne máte nastavený jazyk zobrazenia SK, z toho vyplýva, že niektorý text bol preložený umelou inteligenciou - DeepL a pri preklade mohli vzniknúť chyby. Narábajte preto z obsahom opatrne! ...

Analýza zoznamu hovorov

Post vytvorený / editovaný : 2026-04-23 12:06:31 / 2026-04-23 12:06:31
Jazyk originálu : EN

Ako by ste sa chceli pozrieť na identifikáciu použitia telefónneho čísla v určitom časovom intervale?

Toto je aplikácia na identifikáciu používania telefónneho čísla v určitej časovej zóne. Jej účelom je zaznamenávať všetky telefonáty mimo pracovnej doby s jedinečným identifikátorom volajúceho. Poznámka: V prvom rade boli telefónne čísla anonymizované, takže ak by sa Set pokúsil zistiť, kto je na druhom konci, pravdepodobne by sa mu to podarilo, ale je to rovnaké, ako keby ste vybrali ľubovoľné telefónne číslo a vytočili ho bez toho, aby Set vedel, komu patrí. Zároveň nie sú na stránke uvedené všetky záznamy, maximálne 0,5 %. Na analýzu údajov sa často používajú Python a Jupyter. Je to zaujímavý nástroj na spracovanie, ale aj na prezentáciu údajov. V skutočnosti je to už druhý nástroj, na ktorý som ho použil. Prvým bol výcvikový nástroj na výučbu strojového učenia – vytvorenie modelu na predpovedanie cien nehnuteľností v Bostone. Neskôr, keď získam dostatok údajov pre ďalšie mesto, bude nasledovať ďalší. Prajeme príjemné čítanie.

1. Cieľ projektu

Tento projekt je nástrojom na analýzu údajov určeným na identifikáciu využívania telefónnych čísel v rámci vymedzeného časového obdobia, so zreteľom najmä na hovory uskutočnené mimo bežných pracovných hodín, cez víkendy a počas sviatkov. Jeho účelom nie je zistiť osobnú identitu volajúceho, ale skôr zaznamenať a analyzovať komunikačné udalosti na základe telefónnych čísel a časových údajov.

Riešenie pracuje s anonymizovanými údajmi z protokolov hovorov. Spracováva sa alebo prezentuje len veľmi obmedzená podmnožina celkových záznamov a dostupná vzorka nepredstavuje kompletnú databázu kontaktov. Projekt by sa preto mal chápať predovšetkým ako technický a analytický nástroj na štruktúrované spracovanie údajov, a nie ako systém na priamu identifikáciu osôb.

2. Technický prístup

Z technického hľadiska je projekt implementovaný v jazyku Python a vyvinutý v Jupyter Notebook. Notebook načíta záznamy o hovoroch z CSV súborov, konvertuje textové formáty dátumu — vrátane slovenských názvov mesiacov — na štandardné datetime objekty a následne aplikuje viacstupňový filtračný pracovný postup.

Analýza zahŕňa iba relevantné typy hovorov, a to prijaté, zmeškané a odmietnuté hovory. Každý záznam sa následne vyhodnotí s cieľom určiť, či sa uskutočnil mimo vopred definovaných pracovných hodín, počas víkendu alebo na sviatok. V aktuálnej verzii zošitu sú pracovné hodiny definované ako 08:30–12:00 a 13:00–16:30, zatiaľ čo sviatky sa načítajú z externého súboru, čím sú kritériá filtrovania flexibilné a ľahko prispôsobiteľné pre rôzne roky alebo jurisdikcie.

3. Spracovanie údajov a výsledky

Dôležitou súčasťou projektu je eliminácia duplicitných alebo takmer duplicitných udalostí. V druhej fáze spracovania notebook sleduje čas poslednej interakcie pre každé telefónne číslo a odstraňuje opakované pokusy o volanie, ktoré sa vyskytnú v päťminútovom intervale. Tým sa znižuje šum v dátovom súbore a vytvára sa čistejší výstup, ktorý lepšie odráža jedinečné komunikačné udalosti namiesto opakovaných technických pokusov o volanie.

Výstupy projektu zahŕňajú filtrované ročné zoznamy hovorov, samostatné dátové súbory hovorov mimo pracovnej doby, mesačné agregované štatistiky, rozdelenie podľa typu hovoru a exporty do formátu CSV na ďalšiu analýzu alebo prezentáciu.

Na základe vzorky z roku 2023 uvedenej v zošite obsahuje celkový súbor údajov 632 záznamov, z ktorých bolo 422 prijatých, zmeškaných a odmietnutých hovorov považovaných za relevantné pre analýzu. Po uplatnení časového filtra obsahovala prvá sada výsledkov 117 záznamov. Po odstránení opakovaných udalostí v päťminútovom okne poskytol upravený súbor údajov užšie a metodicky robustnejšie zobrazenie komunikačnej aktivity za vybrané obdobie.

4. Praktická hodnota

V praxi slúži tento nástroj na dva hlavné účely: na jednej strane na spracovanie a čistenie údajov a na druhej strane na prehľadnú prezentáciu výsledkov prostredníctvom tabuliek, štatistík a exportov. Ide teda jednak o analytický nástroj, jednak o ukážku praktickej práce s údajmi v jazyku Python a prostredí Jupyter Notebook. Toto je zároveň druhý projekt, pri ktorom bolo toto prostredie použité. Prvým bol školiaci notebook pre strojové učenie, konkrétne na vytvorenie modelu na predpovedanie cien nehnuteľností v Bostone. V tomto zmysle je tento projekt s telefónnymi číslami súčasťou širšieho portfólia nástrojov založených na jazyku Python určených na analýzu, modelovanie a prezentáciu údajov.

Môj záväzok

Keď niečo robím, snažím sa identifikovať podstatu problemu pred ktorým stojím a riešenia posyktovať na úrovni, ktorá prekonáva očakávania.

Ak máte akékoľvek otázky týkajúce sa mojej práce alebo nápadov, neváhajte ma kontaktovať. Som priateľský a kompetentný človek a môžem byť niekedy k dispozícii 😁.

Niektorý obsah a preklady s označením pôvodného jazyka na tejto webovej stránke boli vytvorené s použitím technológií umelej inteligencie. Použitie AI mi umožňuje poskytovať aktualizované a presné informácie, ale môže to tiež znamenať, že niektoré texty môžu obsahovať nepresnosti jazykového charakteru. Prosíme používateľov, aby boli ostražití a v prípade nejasností nás kontaktovali.

Budte informovaní

Prihláste sa do môjho mailing listu a dostávajte ponuky, aktualizácie a ďalšie informácie!

Prihlásením súhlasíte s prijímaním e-mailov od mňa. Môžete si prečítať zásady ochrany osobných údajov tu a kedykoľvek sa môžete odhlásiť cez tento odkaz.

Posledné príspevky

Všetky príspevky → @EavfeavfFrano